Entre novos algoritmos e avanços de TI, as máquinas agora podem aprender modelos cada vez mais complexos. Eles vêm para gerar dados sintéticos de alta qualidade, como imagens fotorrealistas e até mesmo resumos de humanos imaginários.
Agora um estudo publicado na revista internacional PLoS Genetics mostra o uso avançado de aprendizado de máquina em dados biométricos. A partir dos biobancos existentes, o sistema gera blocos inteiros do genoma humano que não pertencem a humanos reais, mas possuem as características de um genoma real.
Contornando o problema de privacidade
“Os bancos de dados genômicos existentes são um recurso inestimável para pesquisa biomédica," Ele diz Burak Yelmen, primeiro autor do estudo e pesquisador júnior de genética populacional moderna na Universidade de Tartu. “O problema é que eles não são acessíveis ao público ou protegidos por procedimentos de aplicação longos e demorados devido a preocupações éticas válidas. Isso cria uma grande barreira científica para os pesquisadores. Um genoma gerado por máquina, um “genoma artificial”, pode ajudar-nos a superar o problema dentro de um quadro ético seguro.”
A equipe multidisciplinar realizou múltiplas análises para avaliar a qualidade do genoma gerado pelo aprendizado de máquina em comparação com o real. “Notavelmente, este genoma imita as complexidades que podemos observar em populações humanas reais e, para a maioria das propriedades, eles são indistinguíveis dos outros genomas do biobanco usados para treinar nosso algoritmo. Exceto por um detalhe: não pertencem a nenhum doador de genes”, disse o dr. Luca Pagani, um dos autores seniores do estudo e companheiro Mobilitas Pluss.
Um genoma gerado por máquina, um “genoma artificial”, pode ajudar-nos a superar o problema dentro de um quadro ético seguro
Burak Yelmen
O genoma é verdadeiramente original ou uma cópia “cuspida”?
O estudo envolve também avaliar a proximidade do genoma artificial com o genoma real para verificar se a privacidade das amostras originais é preservada. “Embora detectar vazamentos de privacidade em milhares de genomas possa parecer procurar uma agulha num palheiro, a combinação de múltiplas medidas estatísticas nos permite verificar cuidadosamente todos os padrões. Curiosamente, a exploração detalhada de padrões de dispersão complexos, por sua vez, leva a outras melhorias na avaliação de GAN e alimentará o campo do aprendizado de máquina.” O médico diz isso Flor Jay, coordenadora de estudos e pesquisadora do CNRS, Centro Nacional Francês de Pesquisa Científica).
Em suma, as abordagens de aprendizado de máquina já fornecidas rostos, biografias e muitos outros recursos para um punhado de seres humanos imaginários. Agora sabemos mais sobre sua biologia também. Esses humanos fictícios com genomas realistas poderiam servir como uma bancada experimental no lugar de genomas reais que não estão disponíveis publicamente.