Você sabe, a inteligência artificial é o tema destes meses: acaba de começar uma explosão que só nos mostrará todos os seus efeitos nos próximos anos.
A Microsoft também está por trás desta tecnologia: recentemente utilizou IA para melhorar a funcionalidade das suas aplicações, e agora pode investir até 10 mil milhões de dólares na OpenAI, a empresa que criou o ChatGPT. Hoje, porém, ouço falar de outro projeto da Microsoft, VALE, o que é incrível.
Esta ferramenta de ponta foi treinada em uma grande quantidade de dados de voz, com mais de 60.000 horas de conversação em inglês. Um conjunto de dados que o torna, segundo a empresa de Redmond, “centenas de vezes maior que os sistemas existentes”. Incluído os mais avançados.
E o que VALL-E aprendeu a fazer? Nada, um pouco. Ele reproduz e imita perfeitamente a voz de qualquer pessoa, depois de ouvi-la por apenas três segundos.
Um replicador de voz?
Não é só isso. VALL-E é uma verdadeira revolução no campo da inteligência artificial vocal. Porque reproduz com extraordinária precisão as emoções, tons vocais e ambiente acústico presentes em uma determinada amostra, e é um avanço gigante em comparação com os sistemas de conversão de texto em fala (TTS) existentes. Em outras palavras, a voz de VALL-E parece muito mais com a de um ser humano do que com a de uma inteligência artificial.
Em seu perfil do Linkedin (Visita-o), o estrategista digital Alberto Giacobone links para uma pequena biblioteca de samples vocais criados por VALL-E e colocar online na plataforma GitHub. Os resultados são surpreendentes: em muitos clipes a entonação e o sotaque das vozes dos locutores são perfeitamente reproduzidos.
Alguns exemplos são menos convincentes e isto mostra que o VALL-E ainda não é um produto acabado. No entanto, o resultado geral é tão convincente que nos deixa sem palavras.
Grandes riscos, grande potencial
É claro que esta tecnologia levanta preocupações sobre riscos potenciais de uso indevido, como roubo de identidade. O VALL-E poderá criar deepfakes de voz indistinguíveis de pessoas reais, que podem ser usados para enganar as pessoas em muitos casos e maneiras.
Para combater essa ameaça, no documento de apresentação do VALL-E (eu linko aqui) A Microsoft diz que está trabalhando no desenvolvimento de um modelo de detecção que pode distinguir uma voz real de uma voz sintética.
Apesar dos (grandes) riscos, ferramentas como o VALL-E podem ser particularmente úteis para ajudar as pessoas a encontrar a sua voz após um acidente, para criar facilmente podcasts e audiolivros mais naturais e… como sempre, o limite é a sua imaginação.