Notícias

Inteligência artificial pode acelerar desenvolvimento de novos fármacos

Pesquisadores criam modelo capaz de rastrear e analisar sequências de aminoácidos de proteínas-alvo e identificar aquelas que melhor interagem com moléculas candidatas a novas drogas

Rodrigo Andrade

Pesquisadores do Instituto de Tecnologia de Massachusetts (MIT) e da Universidade Tufts, nos Estados Unidos, criaram um modelo computacional com potencial de acelerar o desenvolvimento de novos medicamentos contra doenças diversas.

A ferramenta, chamada ConPLex, baseia-se em um tipo específico de inteligência artificial: os grandes modelos de linguagem (LLM), os quais conseguem analisar enormes quantidades de dados de texto, identificar bilhões de padrões sobre como as pessoas conectam palavras, números e símbolos, e, a partir disso, aprender a gerar textos novos.

No caso do ConPLex, eles analisam sequências de aminoácidos de proteínas, de modo a identificar aquelas que melhor interagem com moléculas candidatas a novas drogas.

Esse tem sido um desafio antigo para os cientistas. Existem milhares de compostos candidatos a novos fármacos armazenados em bancos de dados, uma espécie de biblioteca molecular. O ideal seria testar cada uma delas contra todos os alvos possíveis, mas fazer esse tipo de triagem levaria muito tempo e consumiria muitos recursos.

Nos últimos anos, cientistas computacionais passaram a se concentrar no desenvolvimento de modelos capazes de fazer esse trabalho automaticamente — isto é, calcular a estrutura tridimensional de proteínas a partir de sua sequência de aminoácidos e, então, usar essa informação para estimar com quais moléculas candidatas elas interagem.

No entanto, o uso dessas ferramentas tem se mostrado desafiador, sobretudo porque calcular essas estruturas requer tempo e computadores com enorme capacidade de processamento de dados.

Um obstáculo adicional é que esses modelos não têm um bom histórico de eliminação de “compostos impostores”, aqueles muito semelhantes a fármacos bem-sucedidos, mas que, na prática, não interagem bem com determinadas proteínas-alvo.

Para contornar esse problema, os pesquisadores do MIT e da Universidade Tufts adotaram uma abordagem alternativa. Projetaram um modelo de linguagem capaz de codificar essas informações em representações numéricas para cada sequência de aminoácidos que captura associações entre sua sequência e estrutura.

Com isso, mesmo proteínas com sequências muito diferentes, mas que têm estruturas ou funções semelhantes, podem ser representadas de maneira semelhante nesse espaço de linguagem, permitindo aos pesquisadores predizer com mais facilidade quais têm maior potencial de interagir com moléculas candidatas a novos fármacos.

No estudo, publicado em 8 de junho no periódico científico Proceedings of National Academy of Sciences (PNAS), os pesquisadores afirmam que o método se mostrou capaz de rastrear mais de 100 milhões de compostos em um único dia, mais do que qualquer modelo existente.

Eles também treinaram o algoritmo com base em interações conhecidas de proteínas e fármacos, o que permitiu ao modelo aprender a associar características específicas de proteínas com capacidade de se ligar a moléculas candidatas a novos medicamentos.

Para tornar o modelo menos propenso a ser enganado por moléculas impostoras, os pesquisadores incorporaram ainda um estágio de treinamento baseado no conceito de “aprendizado contrastivo”. Com base nessa abordagem, apresentaram ao modelo exemplos de compostos (fármacos) reais e impostores, e o ensinaram a distingui-los.

“Parte da razão pela qual a descoberta de novas drogas é tão cara é porque tem altas taxas de falha. Se pudermos reduzir essas taxas dizendo de antemão que determinado composto provavelmente não funcionará, isso poderá ajudar a reduzir significativamente o custo da descoberta de novos fármacos”, disse Rohit Singh, especialista em biologia computacional do MIT e um dos autores do estudo, ao MIT News.

Além do artigo, os pesquisadores disponibilizaram seu modelo online para uso de outros cientistas.