Parece que existe um futuro em que os pensamentos não serão mais apenas imagens fugazes em nossas mentes, mas poderão se tornar vídeos em alta qualidade. E parece um futuro cada vez mais próximo da realidade. Um grupo de investigadores qualificados acaba de abrir a caixa de Pandora no campo da neurociência. Para ajudá-lo, uma boa dose de IA.
O cérebro do “projetor”
Jiaxin Qing, Zijiao Chen e Juan Helen Zhou, da Universidade Nacional de Singapura e da Universidade Chinesa de Hong Kong, apresentou alguns trabalhos de investigação bastante interessantes. A equipe combinou dados obtidos de ressonância magnética funcional (fMRI) com inteligência artificial generativa de difusão estável para criar MinD-Vídeo, um modelo que pode gerar vídeos HQ diretamente de leituras cerebrais.
Coisas de ficção científica, você pode dizer: mas não, tudo rigorosamente documentado no arXiv, e esse é o link.
Como funciona exatamente o MinD-Video?
MinD-Video não é um simples gerador de vídeo, mas sim todo um sistema projetado para fazer com que a decodificação de imagens feita por uma IA e a feita por um cérebro se comuniquem. Mas como você treina esse sistema?
Os pesquisadores usaram um conjunto de dados público, contendo vídeos e leituras de fMRI associadas de indivíduos que os assistiram. E, aparentemente, o trabalho funcionou de maneira admirável.
Veja pensamentos, chegamos lá
Os vídeos publicados pelos cientistas mostram resultados verdadeiramente fascinantes. Tomemos por exemplo um vídeo original apresentando cavalos em um campo. MinD-Video “reconstruiu” criando uma versão mais vibrante dos cavalos. Em outro caso, um carro passa por uma área arborizada e o vídeo reconstruído mostra uma viagem em primeira pessoa por uma estrada sinuosa.
Segundo os pesquisadores, os vídeos reconstruídos são de “alta qualidade”, com movimentos e dinâmicas de cena bem definidos. E a precisão? 85%, uma melhora significativa em relação ao tentativas anteriores.
Leitura da mente e vídeo HQ, o que vem a seguir?
“O futuro é brilhante e as aplicações potenciais são imensas. Da neurociência à interfaces cérebro-computador, acreditamos que nosso trabalho pode ter um impacto importante” declararam os autores. E as descobertas não param por aí: o seu trabalho destacou o papel dominante do córtex visual na percepção visual e a capacidade do seu modelo de aprender informações cada vez mais sofisticadas durante o treino.
O modelo de difusão estável usado nesta nova pesquisa torna a visualização mais precisa. “Uma vantagem fundamental do nosso modelo sobre outros modelos generativos, como le GAN, é a capacidade de produzir vídeos de maior qualidade. Ele aproveita as representações aprendidas com o codificador fMRI e usa seu processo de difusão exclusivo para gerar vídeos HQ que se alinham melhor com as atividades neurais originais”, explicaram os pesquisadores.
Em suma, parece que entrámos verdadeiramente na era da leitura de mente através da inteligência artificial. Um campo aberto a mil possibilidades, onde o limite parece ser apenas a imaginação.