Inteligência artificial e algoritmos de aprendizado de máquina que podem ler os lábios dos vídeos não são nada extraordinários, na verdade.
Em 2016, pesquisadores do Google e da Universidade de Oxford detalharam um sistema capaz de ler lábios e anotar filmes com 46,8% de precisão. Parece pouco para você? Ele já superou a precisão de 12,4% de um leitor de lábios humano profissional. E ainda não havia LIBS.
No entanto, 46,8% não estão à altura dos recursos que a inteligência artificial pode mostrar hoje. Sistemas de última geração lutam para superar ambiguidades nos movimentos dos lábios, o que impede que seu desempenho supere o de reconhecimento de fala baseado em áudio.
Em busca de um sistema com melhor desempenho, pesquisadores de Alibaba, Universidade de Zhejiang e Stevens Institute of Technology eles criaram um método apelidado Lábio pela Fala (LIBS), que utiliza características extraídas de reconhecimentos de fala para servir como pistas complementares. O sistema eleva a fasquia em mais 8% e ainda pode melhorar.
O LIBS e outras soluções semelhantes podem ajudar as pessoas com deficiência auditiva a seguir vídeos sem legendas. Estima-se que 466 milhões de pessoas em todo o mundo sofram de perda auditiva, o que representa cerca de 5% da população mundial. Em 2050, o número pode subir para mais de 900 milhões, segundo a Organização Mundial da Saúde.

O método AI para ler os lábios
O LIBS obtém informações de áudio úteis de vários fatores: Como um criptógrafo habilidoso, a IA procura palavras compreensíveis. Nesse ponto, ele os compara com a correspondência com o lábio e vai procurar todos os lábeis semelhantes. Mas não para por aí: também compara a frequência de vídeo desses quadros, e outras pistas técnicas, refinando a busca para ler o lábio mesmo em palavras incompreensíveis ao nosso ouvido.
Se parecer complicado, tente novamente, mas não prometo nada.
Eu cito de Papel de apresentação de tecnologia. "Tanto o reconhecimento de fala quanto os componentes do leitor labial LIBS são baseados em uma arquitetura de sequência-sequência baseada em atenção, um método de tradução automática que mapeia uma entrada para uma sequência (áudio ou vídeo)."
Os pesquisadores treinaram a IA em um primeiro banco de dados contendo mais de 45.000 frases faladas pela BBC e no CMLR, o maior corpus chinês disponível para leitura labial em mandarim, com mais de 100.000 frases naturais.
Os campos de aplicação não se limitam à ajuda aos surdos. O costume de atribuir um uso "socialmente nobre" a cada tecnologia nunca deve nos fazer esquecer que o principal uso dessas tecnologias é no setor militar ou de segurança.
Ninguém pensou que esse sistema possa tornar a vigilância da segurança ainda mais infalível e difundida incríveis novas câmeras de segurança, ou novos sistemas de satélite?
Com a IA agora se torne um olho onisciente será uma piada ouvir (ou reconstruir) nossos sussurros até de um satélite em órbita.