VALL-E, IA da Microsoft que “rouba” sua voz em 3 segundos

Janeiro 10 2023

Tecnologia

O novo sistema de inteligência artificial reproduz uma voz humana a partir de alguns segundos de áudio. Grande potencial (e grandes riscos).

comparatilhe

Você sabe, a inteligência artificial é o tema destes meses: acaba de começar uma explosão que só nos mostrará todos os seus efeitos nos próximos anos.

A Microsoft também está por trás desta tecnologia: recentemente utilizou IA para melhorar a funcionalidade das suas aplicações, e agora pode investir até 10 mil milhões de dólares na OpenAI, a empresa que criou o ChatGPT. Hoje, porém, ouço falar de outro projeto da Microsoft, VALE, o que é incrível.

Esta ferramenta de ponta foi treinada em uma grande quantidade de dados de voz, com mais de 60.000 horas de conversação em inglês. Um conjunto de dados que o torna, segundo a empresa de Redmond, “centenas de vezes maior que os sistemas existentes”. Incluído os mais avançados.

E o que VALL-E aprendeu a fazer? Nada, um pouco. Ele reproduz e imita perfeitamente a voz de qualquer pessoa, depois de ouvi-la por apenas três segundos.

voz AI — VALL-E, ou seja: 3 segundos e eles clonam sua voz.

Um replicador de voz?

Não é só isso. VALL-E é uma verdadeira revolução no campo da inteligência artificial vocal. Porque reproduz com extraordinária precisão as emoções, tons vocais e ambiente acústico presentes em uma determinada amostra, e é um avanço gigante em comparação com os sistemas de conversão de texto em fala (TTS) existentes. Em outras palavras, a voz de VALL-E parece muito mais com a de um ser humano do que com a de uma inteligência artificial.

Em seu perfil do Linkedin (Visita-o), o estrategista digital Alberto Giacobone links para uma pequena biblioteca de samples vocais criados por VALL-E e colocar online na plataforma GitHub. Os resultados são surpreendentes: em muitos clipes a entonação e o sotaque das vozes dos locutores são perfeitamente reproduzidos.

Alguns exemplos são menos convincentes e isto mostra que o VALL-E ainda não é um produto acabado. No entanto, o resultado geral é tão convincente que nos deixa sem palavras.

Um exemplo dos primeiros resultados obtidos pela VALL-E. Acima, a amostra de áudio original. Abaixo, a voz “clonada”.

Grandes riscos, grande potencial

É claro que esta tecnologia levanta preocupações sobre riscos potenciais de uso indevido, como roubo de identidade. O VALL-E poderá criar deepfakes de voz indistinguíveis de pessoas reais, que podem ser usados para enganar as pessoas em muitos casos e maneiras.

Para combater essa ameaça, no documento de apresentação do VALL-E (eu linko aqui) A Microsoft diz que está trabalhando no desenvolvimento de um modelo de detecção que pode distinguir uma voz real de uma voz sintética.

Apesar dos (grandes) riscos, ferramentas como o VALL-E podem ser particularmente úteis para ajudar as pessoas a encontrar a sua voz após um acidente, para criar facilmente podcasts e audiolivros mais naturais e… como sempre, o limite é a sua imaginação.

Gianluca Riccio, diretora criativa da Melancia adv, redatora e jornalista. Faz parte do Instituto Italiano para o Futuro, World Future Society e H+. Desde 2006 dirige Futuroprossimo.it, o recurso italiano de Futurologia.

Para relatar pesquisas, descobertas e invenções, entre em contato com a equipe editorial! Siga Futuro Próssimo no Whatsapp: notícias e atualizações exclusivas (gratuitas).

FP em Fatto Quotidiano
Alberto Robiati e Gianluca Riccio guiam os leitores através de cenários do futuro: as oportunidades, riscos e possibilidades que temos para criar um amanhã possível.

No mesmo tópico:

O último

VALL-E, IA da Microsoft que “rouba” sua voz em 3 segundos

Tecnologia

comparatilhe

Você sabe, a inteligência artificial é o tema destes meses: acaba de começar uma explosão que só nos mostrará todos os seus efeitos nos próximos anos.

Um replicador de voz?

Grandes riscos, grande potencial

VASA-1, IA da Microsoft cria personagens super-realistas a partir de apenas uma foto

Amodei, Anthropic: ‘A IA em breve será capaz de replicar e sobreviver de forma autônoma’

Contato interespécies: Instituto SETI “conversa” com uma baleia

40.000 reservas e carroceria italiana: Aptera perto da produção

Quadroin, o robô “pinguim” para explorar o abismo

Como eles criaram mini terremotos em laboratório para estudar os grandes

Photoncycle, o cilindro "que captura o sol" de hidrogênio muda as regras

VASA-1, IA da Microsoft cria personagens super-realistas a partir de apenas uma foto