Você sabe, a inteligência artificial é o tema desses meses: ela acaba de iniciar uma explosão que nos mostrará todos os seus efeitos apenas nos próximos anos.
Nas velas dessa tecnologia também está o fôlego da Microsoft: recentemente usou IA para melhorar a funcionalidade de seus apps, e agora pode investir até 10 bilhões de dólares na OpenAI, criadora do ChatGPT. Mas hoje fico sabendo de outro projeto da Microsoft, VALE, o que é incrível.
Esta ferramenta de última geração foi treinada em uma grande quantidade de dados de fala, mais de 60.000 horas de conversação em inglês. Um conjunto de dados que o torna, segundo a empresa de Redmond, "centenas de vezes maior que os sistemas existentes". Incluído os mais avançados.
E o que VALL-E aprendeu a fazer? Nada, um pouco. Ele reproduz e imita perfeitamente a voz de qualquer pessoa, depois de ouvi-la por apenas três segundos.

Um replicador de voz?
Não é só isso. VALL-E é uma verdadeira revolução no campo da inteligência artificial vocal. Porque reproduz com extraordinária precisão as emoções, tons vocais e ambiente acústico presentes em uma determinada amostra, e é um salto gigantesco em relação aos sistemas text-to-speech (TTS) existentes. Em outras palavras, a voz de VALL-E soa muito mais como a de um ser humano do que a de uma inteligência artificial.
Em seu perfil do Linkedin (Visita-o), o estrategista digital Alberto Giacobone links para uma pequena biblioteca de samples vocais criados por VALL-E e colocar online na plataforma GitHub. Os resultados são surpreendentes: muitos dos clipes reproduzem perfeitamente a entonação e o sotaque das vozes dos locutores.
Alguns exemplos são menos convincentes e isso mostra como o VALL-E ainda não é um produto acabado. No entanto, a produção geral é tão convincente que nos surpreende.
Grandes riscos, grande potencial
É claro que esta tecnologia levanta preocupações sobre riscos potenciais de uso indevido, como roubo de identidade. O VALL-E poderá criar deepfakes de voz indistinguíveis de pessoas reais, que podem ser usados para enganar as pessoas em muitos casos e maneiras.
Para combater essa ameaça, no documento de apresentação do VALL-E (eu linko aqui) A Microsoft diz que está trabalhando no desenvolvimento de um modelo de detecção que pode distinguir uma voz real de uma voz sintética.
Apesar dos (grandes) riscos, no entanto, ferramentas como o VALL-E podem ser particularmente úteis para ajudar as pessoas a encontrar sua voz após um acidente, para criar sem esforço podcasts e audiolivros mais naturais e… como sempre, o limite é a fantasia.