Apesar da maioria dos experimentos falharem, apenas os bem-sucedidos são relatados na literatura científica e discutidos entre especialistas. A maior parte dos dados são descartados, largados ao pó em cadernos esquecidos nos laboratórios ou nem chegam a ser registrados, os tornando inacessíveis para futuras pesquisas. “A literatura científica é tendenciosa contra falhas,” diz o químico experimental Alexander Norquist, um dos principais autores do estudo. “Nós queremos extrair a maior quantidade de informações possíveis do vasto número de reações fracassadas que não são comumente registradas.” Para conseguir isso, os pesquisadores de Haverford utilizaram um conjunto dessas reações que deram errado para criar um algoritmo de aprendizagem automática capaz de prever o sucesso de novas reações químicas com maior exatidão do que os humanos podem alcançar.
Eles começaram reunindo dados de aproximadamente quatro mil reações químicas (a maioria das quais tinham falhado e, portando, não estavam digitalizadas) realizadas ao longo da última década no laboratório de Norquist. A informação focou na síntese de materiais novos - nesse caso, sólidos chamados selenitos de vanádio complexos, que consistem de vanádio, selênio, oxigênio e um componente orgânico. Eles então criaram um algoritmo de aprendizagem automática para obter padrões dos dados e determinar o que fez alguns experimentos falharem e outros não. Normalmente, cientistas como Norquist constroem, por anos, uma intuição sobre as combinações de condições - temperatura, quantidade e relação dos reagentes, acidez e outros fatores - que podem resultar na formação bem-sucedida de cristais. “Mas a nossa intuição é sempre incompleta,” afirma Norquist. “Existem nuances e sutilezas nas diferenças entre os reagentes e elas nem sempre são logo aparentes.”
Em seguida, a equipe se voltou para a aprendizagem automática: eles atribuíram aproximadamente 300 propriedades para cada reação e então usaram uma máquina de vetores de suporte, que pode analisar dados em altas dimensões, para prever quais condições seriam necessárias para novas combinações de reagentes que eles mais tarde testaram no laboratório. O algoritmo previu condições para formações de cristais bem-sucedidos em 89% dos casos - comparados com a previsões dos pesquisadores, que obtiveram uma taxa de sucesso de 78%.
Como as razões para as decisões do algoritmos nem sempre eram claras, graças à grande quantidade de dados considerados, os pesquisadores voltaram até o modelo e geraram uma “árvore da decisão”, uma estrutura semelhante a um fluxograma que mostra os possíveis resultados de uma série de escolhas. Usando esse método, que é bem mais fácil de interpretar, eles conseguiram adquirir maior introspecção e formular novas hipóteses. Eles descobriram, por exemplo, que a polarizabilidade (que mede como a distribuição de cargas é distorcida na presença de um campo elétrico) era importante em um sentido que eles não haviam antecipado baseando-se nas suas próprias experiências laboratoriais. De fato, eles chegaram a três hipóteses sobre diferentes subconjuntos de reagentes. Uma classe de reações contendo certos componentes orgânicos exigiu a presença de vanádio em um estado específico de oxidação. Enquanto isso, quando aqueles componentes tinham baixas polarizabilidades, os pesquisadores descobriram que eles deveriam prestar atenção no comportamento de outros reagentes, como o sódio. Finalmente, para componentes orgânicos particularmente grandes, densidade da carga desempenhou um papel crítico. “A grande novidade disso é o processo de ponta a ponta,” diz a cientista de computação Sorelle Friedler, outra autora principal do estudo. “A ideia de pegar aquilo que era considerado como falha, como reações pouco importantes e usar a informação contida nelas, ligá-las ao algoritmo de aprendizagem automática e examinar os resultados que ele fornece para gerar novas hipóteses.”
Os achados vêm numa época em que pesquisa de materiais se torna cada vez mais importante. A Casa Branca lançou a Materials Genome Initiative em 2011, por exemplo, para acelerar o ritmo em que novos materiais são descobertos e colocados no mercado. Agora, a abordagem do algoritmo de aprendizagem automática da equipe de Haverford talvez ajude cientistas a tornar essa busca muito mais objetiva - através da otimização dos processos sintéticos já conhecidos e da criação de novos sólidos. “Materiais são o coração de cada avanço tecnológico que podemos imaginar,” diz Ram Seshadri, um pesquisador de materiais da Unversidade da Califórnia, Santa Barbara, que não participou do estudo. “O celular que estou usando agora - sua bateria de lítio está cheia de materiais avançados, feitos precisamente a partir de reações químicas sintéticas como as descritas nesse estudo,” ele aponta. Celulares não são as únicas aplicações potenciais desses materiais. Essa pesquisa pode ser direcionada a qualquer coisa, desde a criação de shampoos e protetores solares melhores até a produção de novos farmacêuticos e painéis solares mais eficientes. Além disso, os pesquisadores querem tornar a abordagem do algoritmo de aprendizagem automática disponível para outros campos, seja dentro ou fora da química. A equipe publicou os dados das reações online, para que outros cientistas possam contribuir com seus próprios dados. “Nós estamos muito animados,” afirma Friedler. “Nós esperamos que esse estudo estimule outros laboratórios a trabalharem conosco.” Acesso a esses dados, especialmente às falhas, permitirão que eles façam novas descobertas e refinem o algoritmo. “Este é o século dos dados,” diz Alán Aspuru-Guzik, um professor de química e química biológica da Universidade de Harvard, que não está relacionado ao estudo. “E esse estudo mostra que nós podemos aprender muito a partir de experimentos fracassados.”
“A ciência não é comumente direcionada por dados e sim por causa e efeito. Esse trabalho confirma que, algumas vezes, você precisa ir além da causalidade e utilizar abordagens direcionadas por dados,” adiciona Sesadri. “Mas o maravilhoso é que abordagens dirigidas por dados levam a um melhor entendimento de causalidade. Então a abordagem que a equipe de Haverfod utilizou é a que utilizaremos cada vez mais e mais no futuro.”
Jordana Cepelewicz
Nenhum comentário:
Postar um comentário