Uma IA célebre aprendeu um novo truque: como fazer química

A inteligência artificial mudou a forma como a ciência é feita, permitindo que os pesquisadores analisem as enormes quantidades de dados que os instrumentos científicos modernos geram. Ele pode encontrar uma agulha em um milhão de palheiros de informações e, usando aprendizado profundo, ele pode aprender com os próprios dados. A IA está acelerando os avanços em caça de genes, medicamento, design de drogas e a criação de compostos orgânicos.

O aprendizado profundo usa algoritmos, geralmente redes neurais treinadas em grandes quantidades de dados, para extrair informações de novos dados. É muito diferente da computação tradicional com suas instruções passo a passo. Em vez disso, ele aprende com os dados. O aprendizado profundo é muito menos transparente do que a programação de computadores tradicional, deixando questões importantes – o que o sistema aprendeu, o que ele sabe?

Como um professor de química Eu gosto de projetar testes que tenham pelo menos uma pergunta difícil que expanda o conhecimento dos alunos para estabelecer se eles podem combinar ideias diferentes e sintetizar novas ideias e conceitos. Criamos essa pergunta para o garoto-propaganda dos defensores da IA, AlphaFold, que resolveu o problema problema de dobramento de proteínas.

Dobramento de proteínas

Assine nossa newsletter agora para uma recapitulação semanal de nossas histórias de IA favoritas em sua caixa de entrada.

As proteínas estão presentes em todos os organismos vivos. Eles fornecem estrutura às células, catalisam reações, transportam pequenas moléculas, digerem alimentos e fazem muito mais. Eles são compostos de longas cadeias de aminoácidos como contas em uma corda. Mas para que uma proteína faça seu trabalho na célula, ela deve torcer e dobrar em uma estrutura tridimensional complexa, um processo chamado de dobramento de proteínas. Proteínas mal dobradas podem levar a doenças.

Em seu discurso de aceitação do Nobel de Química em 1972, Christiaan Anfinsen postulou que deveria ser possível calcular a estrutura tridimensional de uma proteína a partir da sequência de seus blocos de construçãoos aminoácidos.

Assim como a ordem e o espaçamento das letras neste artigo dão sentido e mensagem, a ordem dos aminoácidos determina a identidade e a forma da proteína, o que resulta em sua função.

um gráfico mostrando uma linha semelhante a um fio à esquerda e uma estrutura enrolada à direita
Dentro de milissegundos da saída de uma cadeia de aminoácidos (esquerda) do ribossomo, ela é dobrada na forma 3D de menor energia (direita), que é necessária para a função da proteína.
Marc Zimmer, CC BY-ND

Devido à flexibilidade inerente dos blocos de construção de aminoácidos, uma proteína típica pode adotar uma estimativa 10 elevado a 300 formas diferentes. Este é um número enorme, mais do que o número de átomos no universo. No entanto, dentro de um milissegundo, cada proteína em um organismo se dobrará em sua própria forma específica – o arranjo de energia mais baixa de todas as ligações químicas que compõem a proteína. Mude apenas um aminoácido nas centenas de aminoácidos normalmente encontrados em uma proteína e ela pode se dobrar e não funcionar mais.

AlphaFold

Por 50 anos, cientistas da computação tentaram resolver o problema de dobramento de proteínas – com pouco sucesso. Então em 2016 DeepMinduma subsidiária de IA da Alphabet, controladora do Google, iniciou sua AlphaFold programa. Ele usou o banco de dados de proteínas como seu conjunto de treinamento, que contém as estruturas determinadas experimentalmente de mais de 150.000 proteínas.

Em menos de cinco anos AlphaFold tinha o problema do dobramento de proteínas venceu – pelo menos a parte mais útil dela, ou seja, determinar a estrutura da proteína a partir de sua sequência de aminoácidos. AlphaFold não explica como as proteínas se dobram com tanta rapidez e precisão. Foi uma grande vitória para a IA, porque não apenas acumulou enorme prestígio científico, mas também foi um grande avanço científico que poderia afetar a vida de todos.

Hoje, graças a programas como AlphaFold2 e RosaTTAFold, pesquisadores como eu podem determinar a estrutura tridimensional das proteínas a partir da sequência de aminoácidos que compõem a proteína – sem nenhum custo – em uma ou duas horas. Antes do AlphaFold2 tínhamos que cristalizar as proteínas e resolver as estruturas usando Cristalografia de raio-xum processo que levou meses e custou dezenas de milhares de dólares por estrutura.

Agora também temos acesso ao Banco de dados de estrutura de proteínas AlphaFold, onde Deepmind depositou as estruturas 3D de quase todas as proteínas encontradas em humanos, camundongos e mais de 20 outras espécies. Até o momento, eles resolveram mais de um milhão de estruturas e planejam adicionar outras 100 milhões de estruturas somente este ano. O conhecimento das proteínas disparou. A estrutura de metade de todas as proteínas conhecidas provavelmente será documentada até o final de 2022, entre elas muitas novas estruturas únicas associadas a novas funções úteis.

Pensando como um químico

O AlphaFold2 não foi projetado para prever como as proteínas interagem umas com as outras, mas foi capaz de modelar como as proteínas individuais se combinam para formam grandes unidades complexas compostas por múltiplas proteínas. Tínhamos uma pergunta desafiadora para o AlphaFold – seu conjunto de treinamento estrutural ensinou alguma química? Poderia dizer se os aminoácidos reagiriam uns com os outros – uma ocorrência rara, mas importante?

Eu sou um químico computacional interessado em proteínas fluorescentes. Estas são proteínas encontradas em centenas de organismos marinhos como águas-vivas e corais. Seu brilho pode ser usado iluminar e estudar doenças.

duas bolhas multicoloridas com linhas brilhantes dentro delas contra um fundo preto
Neurônios que expressam proteínas fluorescentes revelam as estruturas cerebrais de duas larvas de moscas-das-frutas.
Wen Lu e Vladimir I. Gelfand, Feinberg School of Medicine, Northwestern University

Existem 578 proteínas fluorescentes no banco de dados de proteínas, dos quais 10 estão “quebrados” e não apresentam fluorescência. As proteínas raramente atacam a si mesmas, um processo chamado modificação pós-tradução autocatalítica, e é muito difícil prever quais proteínas reagirão consigo mesmas e quais não reagirão.

Apenas um químico com uma quantidade significativa de conhecimento de proteínas fluorescentes seria capaz de usar a sequência de aminoácidos para encontrar as proteínas fluorescentes que têm a sequência de aminoácidos correta para sofrer as transformações químicas necessárias para torná-las fluorescentes. Quando apresentamos AlphaFold2 com as sequências de 44 proteínas fluorescentes que não estão no banco de dados de proteínas, ele dobrou as proteínas fluorescentes fixas de forma diferente das quebradas.

um diagrama mostrando uma lâmpada à esquerda e a haste apenas de uma lâmpada à direita
AlphaFold2 pode pegar a sequência de aminoácidos de proteínas fluorescentes (letras no topo) e prever suas formas de barril 3D (no meio). Isso não é surpreendente. O que é totalmente inesperado é que ele também pode prever quais proteínas fluorescentes estão ‘quebradas’ e não podem fluorescer.
Marc Zimmer, CC BY-ND

O resultado nos surpreendeu: AlphaFold2 aprendeu um pouco de química. Descobriu quais aminoácidos nas proteínas fluorescentes fazem a química que as faz brilhar. Suspeitamos que o conjunto de treinamento do banco de dados de proteínas e vários alinhamentos de sequência permitem que o AlphaFold2 “pense” como químicos e procure os aminoácidos necessários para reagir uns com os outros para tornar a proteína fluorescente.

Um programa de dobradura aprendendo alguma química de seu conjunto de treinamento também tem implicações mais amplas. Ao fazer as perguntas certas, o que mais pode ser obtido com outros algoritmos de aprendizado profundo? Os algoritmos de reconhecimento facial poderiam encontrar marcadores ocultos para doenças? Poderiam algoritmos projetados para prever padrões de gastos entre os consumidores também encontrar uma propensão para pequenos roubos ou fraudes? E o mais importante, é essa capacidade – e saltos semelhantes na capacidade em outros sistemas de IA – desejável?A conversa

Este artigo de Marc ZimmerProfessor de Química, Faculdade de Connecticuté republicado de A conversa sob uma licença Creative Commons. Leia o artigo original.


Source: The Next Web by thenextweb.com.

*The article has been translated based on the content of The Next Web by thenextweb.com. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!

*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.

*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!