LIBS, a IA que pode ler os lábios das pessoas em vídeos

Dezembro 5 2019

eb990041 bce3 4846 9c9c ceeb443247be e1575481779441

Tecnologia

O LIBS é um novo sistema de IA que pode ler melhor os lábios do que qualquer outra pessoa, humana ou não. Ajudará os surdos (e bisbilhoteiros globais).

comparatilhe

Inteligência artificial e algoritmos de aprendizado de máquina que podem ler os lábios dos vídeos não são nada extraordinários, na verdade.

Em 2016, pesquisadores do Google e da Universidade de Oxford detalharam um sistema que podia fazer leitura labial e anotar imagens com 46,8% de precisão. Isso parece pouco para você? Já ultrapassou a precisão de 12,4% de um leitor labial humano profissional. E ainda não havia LIBS.

No entanto, 46,8% não estão à altura das capacidades que a inteligência artificial pode apresentar hoje. Os sistemas de última geração lutam para superar as ambigüidades nos movimentos labiais, o que impede que seu desempenho supere o do reconhecimento de fala baseado em áudio.

Em busca de um sistema com melhor desempenho, pesquisadores de Alibaba, Universidade de Zhejiang e Stevens Institute of Technology eles criaram um método apelidado Lábio pela Fala (LIBS), que utiliza recursos extraídos de reconhecimentos de fala para servir como dicas complementares. O sistema eleva a fasquia em mais 8% e ainda pode melhorar.

O LIBS e outras soluções semelhantes podem ajudar as pessoas com deficiência auditiva a seguir vídeos sem legendas. Estima-se que 466 milhões de pessoas em todo o mundo sofram de perda auditiva, o equivalente a aproximadamente 5% da população mundial. Até 2050, o número poderá subir para mais de 900 milhões, segundo a Organização Mundial da Saúde.

LIBS, a IA que consegue ler melhor os lábios do que qualquer outra pessoa

O método AI para ler os lábios

LIBS obtém informações de áudio úteis de vários fatores: Como um criptógrafo habilidoso, a IA procura palavras compreensíveis. Nesse ponto ele os compara com a correspondência labial e procura todos os lábeis semelhantes. Mas não para por aí: também compara a frequência de vídeo desses frames, e outras pistas técnicas, refinando a busca a ponto de ler os lábios mesmo em palavras incompreensíveis ao nosso ouvido.

Se parecer complicado, tente novamente, mas não prometo nada.

Eu cito de Papel de apresentação de tecnologia. “Tanto os componentes de reconhecimento de fala quanto de leitor labial do LIBS são baseados em uma arquitetura sequência a sequência baseada em atenção, um método de tradução automática que mapeia uma entrada para uma sequência (áudio ou vídeo)."

Os pesquisadores treinaram a IA em um banco de dados inicial contendo mais de 45.000 mil frases faladas pela BBC e no CMLR, o maior corpus chinês disponível para leitura labial em chinês mandarim, com mais de 100.000 mil frases naturais.

Os campos de aplicação não se limitam apenas ao auxílio aos surdos. O costume de atribuir um uso “socialmente nobre” a cada tecnologia nunca deve fazer-nos esquecer que a principal utilização destas tecnologias é no sector militar ou de segurança.

Ninguém pensou que esse sistema possa tornar a vigilância da segurança ainda mais infalível e difundida incríveis novas câmeras de segurança, ou novos sistemas de satélite?

Com a IA agora se tornando um olho onisciente será uma piada ouvir (ou reconstruir) nossos sussurros até de um satélite em órbita.

Cale-se! (Até que ele leia seus pensamentos também) O Big Brother ouve você!

Gianluca Riccio, diretora criativa da Melancia adv, redatora e jornalista. Faz parte do Instituto Italiano para o Futuro, World Future Society e H+. Desde 2006 dirige Futuroprossimo.it, o recurso italiano de Futurologia.

Para relatar pesquisas, descobertas e invenções, entre em contato com a equipe editorial! Siga Futuro Próssimo no Whatsapp: notícias e atualizações exclusivas (gratuitas).

FP em Fatto Quotidiano
Alberto Robiati e Gianluca Riccio guiam os leitores através de cenários do futuro: as oportunidades, riscos e possibilidades que temos para criar um amanhã possível.

No mesmo tópico:

O último

LIBS, a IA que pode ler os lábios das pessoas em vídeos

Tecnologia

comparatilhe

Inteligência artificial e algoritmos de aprendizado de máquina que podem ler os lábios dos vídeos não são nada extraordinários, na verdade.

O método AI para ler os lábios

Cale-se! (Até que ele leia seus pensamentos também) O Big Brother ouve você!

Supermercado Orwell: compras com reconhecimento facial precisam ser repensadas

Diga-me como você é e eu direi em quem você vota: uma IA prevê orientação política

VASA-1, IA da Microsoft cria personagens super-realistas a partir de apenas uma foto

Sintéticas, mas vivas: células que desafiam a fronteira entre o artificial e o biológico

Alemanha, há um ano dissemos adeus à energia nuclear: por que eles não voltam

Herculano revela os segredos de Platão: seu fim reconstruído

Reciclar plástico indefinidamente: novas tecnologias avançadas de reciclagem

Tesla, as rachaduras no mito: queda nas vendas, queda na confiança, Musk na mira