Inteligência artificial e algoritmos de aprendizado de máquina que podem ler os lábios dos vídeos não são nada extraordinários, na verdade.
Em 2016, pesquisadores do Google e da Universidade de Oxford detalharam um sistema que podia fazer leitura labial e anotar imagens com 46,8% de precisão. Isso parece pouco para você? Já ultrapassou a precisão de 12,4% de um leitor labial humano profissional. E ainda não havia LIBS.
No entanto, 46,8% não estão à altura das capacidades que a inteligência artificial pode apresentar hoje. Os sistemas de última geração lutam para superar as ambigüidades nos movimentos labiais, o que impede que seu desempenho supere o do reconhecimento de fala baseado em áudio.
Em busca de um sistema com melhor desempenho, pesquisadores de Alibaba, Universidade de Zhejiang e Stevens Institute of Technology eles criaram um método apelidado Lábio pela Fala (LIBS), que utiliza recursos extraídos de reconhecimentos de fala para servir como dicas complementares. O sistema eleva a fasquia em mais 8% e ainda pode melhorar.
O LIBS e outras soluções semelhantes podem ajudar as pessoas com deficiência auditiva a seguir vídeos sem legendas. Estima-se que 466 milhões de pessoas em todo o mundo sofram de perda auditiva, o equivalente a aproximadamente 5% da população mundial. Até 2050, o número poderá subir para mais de 900 milhões, segundo a Organização Mundial da Saúde.
O método AI para ler os lábios
LIBS obtém informações de áudio úteis de vários fatores: Como um criptógrafo habilidoso, a IA procura palavras compreensíveis. Nesse ponto ele os compara com a correspondência labial e procura todos os lábeis semelhantes. Mas não para por aí: também compara a frequência de vídeo desses frames, e outras pistas técnicas, refinando a busca a ponto de ler os lábios mesmo em palavras incompreensíveis ao nosso ouvido.
Se parecer complicado, tente novamente, mas não prometo nada.
Eu cito de Papel de apresentação de tecnologia. “Tanto os componentes de reconhecimento de fala quanto de leitor labial do LIBS são baseados em uma arquitetura sequência a sequência baseada em atenção, um método de tradução automática que mapeia uma entrada para uma sequência (áudio ou vídeo)."
Os pesquisadores treinaram a IA em um banco de dados inicial contendo mais de 45.000 mil frases faladas pela BBC e no CMLR, o maior corpus chinês disponível para leitura labial em chinês mandarim, com mais de 100.000 mil frases naturais.
Os campos de aplicação não se limitam apenas ao auxílio aos surdos. O costume de atribuir um uso “socialmente nobre” a cada tecnologia nunca deve fazer-nos esquecer que a principal utilização destas tecnologias é no sector militar ou de segurança.
Ninguém pensou que esse sistema possa tornar a vigilância da segurança ainda mais infalível e difundida incríveis novas câmeras de segurança, ou novos sistemas de satélite?
Com a IA agora se tornando um olho onisciente será uma piada ouvir (ou reconstruir) nossos sussurros até de um satélite em órbita.