Pesquisadores da Universidade de Stanford fizeram um avanço significativo no desenvolvimento de interfaces cérebro-computador (BCI). Ao criar uma tecnologia que pode decifrar a linguagem falada em velocidades de até 62 palavras por minuto, a equipe melhorou o recorde anterior em quase 3 vezes.
Um desenvolvimento que aproxima um pouco estes sistemas dos ritmos de uma conversa natural e da conversão de voz praticamente instantânea.
Parole, parole, parole
O co-fundador da Neuralink juntamente com Elon Musk, Max Hodak, chamou a pesquisa de Stanford de “uma mudança significativa na utilidade dos implantes cérebro-computadores”. Mas em que consiste exatamente?
O cerne de todo o trabalho, detalhado em um documento que eu linkei aqui, é a capacidade de “traduzir” sinais cerebrais em fala coerente usando um algoritmo de aprendizado de máquina. E fazê-lo analisando a atividade cerebral numa região relativamente pequena do córtex.
O alvo? Ajudar pessoas que não conseguem mais falar devido a doenças como a ELA a recuperar a voz. Um verdadeiro salto de qualidade: uma interface vocal deste tipo poderia acelerar significativamente a decodificação dos sinais cerebrais.
Os testes
Em um experimento, a equipe registrou (a partir de duas pequenas áreas do cérebro) a atividade neural de um paciente com ELA que consegue mover a boca, mas tem dificuldade em formar palavras.
Usando um decodificador de rede neural recorrente que pode prever o texto, os pesquisadores transformaram essas dicas em palavras. Palavras que vão em um ritmo nunca visto antes.
Foi descoberto que a análise dos movimentos faciais e das atividades neurais associadas é forte o suficiente para apoiar um sistema de interface cérebro-computador, apesar da paralisia e da extensão limitada do córtex cerebral.
Os desafios a enfrentar
Atualmente o sistema é rápido, mas ainda imperfeito: a taxa de erro do decodificador da rede neural recorrente (RNN) usada pelos pesquisadores ainda é 20%.
Os pesquisadores sabem disso muito bem: “Nossa demonstração”, escrevem eles, “é uma evidência de que a decodificação de tentativas de movimentos de fala a partir de gravações intracorticais é uma abordagem promissora, mesmo que ainda não seja um sistema completo e clinicamente viável”.
Para melhorar a taxa de erro e otimizar o algoritmo, os estudos terão agora como objetivo investigar mais áreas do cérebro.
Imagine essas tecnologias combinadas com inteligência artificial. Algoritmos capazes de clonar perfeitamente uma voz, como o recentemente apresentado pela Microsoft que leva apenas 3 segundos de áudio.
No futuro, ninguém ficará calado.