Iniciativa já desenvolveu sondas para mais de 200 proteínas, resultando em cerca de 13 mil citações em artigos científicos e descobertas que estão sendo testadas em 85 ensaios clínicos (imagem: CQMED/divulgação)
Publicado em 12/08/2025
Daniel Rangel | Agência FAPESP * – Um projeto com a colaboração de instituições acadêmicas e industriais de diferentes países tem como objetivo desenvolver uma sonda química potente e seletiva para cada proteína humana até 2035. A iniciativa, chamada Target 2035, pretende gerar grandes conjuntos de dados sobre a ligação entre proteínas e pequenas moléculas, que serão disponibilizados publicamente para que a comunidade científica desenvolva algoritmos de aprendizado de máquina capazes de prever novas moléculas com potencial para se tornarem medicamentos.
O plano de ação do Target 2035 foi publicado na revista Nature Reviews Chemistry. Elaborada por pesquisadores do Structural Genomics Consortium (SGC), uma iniciativa internacional sem fins lucrativos dedicada ao avanço da ciência aberta, sem restrições de patentes, para o desenvolvimento de novos medicamentos, a formatação do roteiro contou com a participação de cientistas do Centro de Química Medicinal (CQMED), sediado na Universidade Estadual de Campinas (Unicamp).
O CQMED é uma unidade de pesquisa da Empresa Brasileira de Pesquisa e Inovação Industrial (Embrapii) e conta com apoio da FAPESP por meio do programa Institutos Nacionais de Ciência e Tecnologia (INCTs).
Sondas químicas são pequenas moléculas que se ligam a proteínas específicas, alterando seu funcionamento. Sua disponibilidade para todas as proteínas humanas poderia impulsionar a compreensão do conjunto completo de proteínas do corpo humano e acelerar a identificação de novos alvos para medicamentos.
O ponto de partida para a criação de sondas químicas de proteínas é a identificação de um hit, que é uma molécula que possui alguma interação com a proteína que está sendo investigada. A partir dela, os pesquisadores podem aumentar sua seletividade e potência contra a proteína por meio de mudanças em sua estrutura química.
Embora o artigo destaque os objetivos futuros do projeto, a iniciativa já apresenta resultados concretos. Um programa anterior do SGC desenvolveu sondas para mais de 200 proteínas, resultando em aproximadamente 13 mil citações em artigos científicos e descobertas que estão sendo testadas em 85 ensaios clínicos.
Além disso, um desafio organizado pelo SGC em que pesquisadores da área de inteligência artificial buscam identificar ligantes para proteínas com o uso de algoritmos – o Critical Assessment of Computational Hit-finding Experiments (CACHE Challenges) – já está na 6ª edição. Uma equipe brasileira liderada pela pesquisadora Karina Machado, da Universidade Federal do Rio Grande (FURG), venceu a 3ª edição, em que o desafio foi identificar ligantes para uma proteína do SARS-CoV-2, o vírus causador da COVID-19.
Em busca de hits
Um dos principais obstáculos para o desenvolvimento de algoritmos de descoberta de hits é a falta de dados de alta qualidade em domínio público. Os conjuntos de dados existentes são fragmentados, não estão disponíveis para o público, foram compilados a partir de protocolos experimentais não padronizados ou não estão preparados para análises baseadas em inteligência artificial. Para resolver esse problema, o Target 2035 está estabelecendo um programa para gerar sistematicamente grandes conjuntos de dados experimentais de ligação entre proteínas e pequenas moléculas.
Para a triagem das moléculas que apresentam alguma interação com a proteína-alvo, o projeto utilizará duas abordagens: o uso de bibliotecas químicas codificadas por DNA (DEL, sigla de DNA-encoded chemical library), em que as moléculas testadas carregam um trecho de DNA que as identifica, e a seleção de hits por espectrometria de massa (AS-MS, de affinity selection-mass spectrometry).
Todos os dados gerados na iniciativa serão disponibilizados publicamente em um formato adequado para aprendizado de máquina por meio de um banco de dados chamado AIRCHECK (de Artificial Intelligence-Ready CHEmiCal Knowledge base). “Abrir os dados para a comunidade científica acelera o desenvolvimento de algoritmos computacionais melhores, o que deve levar a resultados importantes em tempo menor, acelerando o desenvolvimento de novas drogas”, afirma Mário Bengtson, professor da Unicamp e coautor do artigo.
“Quando o conhecimento é compartilhado livremente há benefícios para os participantes e financiadores, que abrangem o acesso facilitado a tecnologias de varredura e aos conjuntos de dados, o treinamento e capacitação de recursos humanos e a troca de conhecimento entre cientistas acadêmicos e das empresas, que impulsionam as pesquisas para solucionar problemas relevantes”, afirma Lucas Souza, pesquisador do CQMED e coautor do trabalho.
O artigo Protein-ligand data at scale to support machine learning pode ser lido em: www.nature.com/articles/s41570-025-00737-z.
* Daniel Rangel é bolsista de Jornalismo Científico da FAPESP vinculado ao INCT Centro de Química Medicinal de Acesso Aberto.