Voice Engine, OpenAI clona uma voz com apenas 15 segundos de áudio

30 Março 2024

Tecnologia

Traduzir a própria voz, devolver a fala aos pacientes, criar audiolivros com vozes expressivas: essas são algumas das promessas do Voice Engine da OpenAI. Mas o caminho para a adopção em larga escala passa por uma reflexão ética e regulamentar sobre vozes sintéticas.

comparatilhe

“Esta é a minha voz. Ou pelo menos era. Agora também pertence a um algoritmo, que pode me fazer dizer coisas que nunca disse.". O início de um romance de ficção científica? Não. O cenário que se apresenta com a disseminação de rumores sintéticos. Tecnologias capazes de clonar nossas vozes a partir de algumas amostras de áudio, como Motor de Voz pela OpenAI. Um projecto ambicioso, acabado de apresentar, que promete revolucionar áreas como entretenimento, educação, saúde. Mas também levanta questões perturbadoras sobre o controlo da nossa identidade na era da Inteligência Artificial.

A apresentação do Voice Engine no blog oficial pela OpenAI.

Vozes roubadas no éter digital

No futuro a sua voz não pertencerá mais a você. Será um mundo onde qualquer pessoa, com apenas alguns cliques, poderá fazer você dizer qualquer coisa. Frases nunca ditas, opiniões nunca expressas, segredos nunca revelados. Um pesadelo distópico que surge no horizonte com o avanço das vozes sintéticas.

Veja bem, a possibilidade de gerar vozes artificiais não é nada novo. Há décadas existem softwares capazes de transformar texto em fala, com resultados mais ou menos mecânicos e desagradáveis. Mas as novas fronteiras da IA prometem mudar as regras do jogo. Algoritmos cada vez mais sofisticados, alimentados por enormes conjuntos de dados e redes neurais, estão aprendendo a imitar as nuances sutis da fala humana, aproximando-se da perfeição. Timbre, entonação, ritmo, pausas: todos os elementos que tornam uma voz única e reconhecível estão agora ao alcance das máquinas.

Motor de voz por OpenAI é a última encarnação desta tendência. Uma modelo capaz de gerar vozes realistas e naturais a partir de uma amostra de áudio muito curta de apenas 15 segundos. Uma pequena maravilha (ou um pequeno horror, dependendo do seu ponto de vista) que abre cenários que até recentemente eram ficção científica.

Voice Engine: sinfonias vocais ou cacofonias artificiais?

Os campos potenciais de aplicação são múltiplos e fascinantes. Pense na indústria do entretenimento: Com vozes sintéticas, os atores poderiam emprestar suas vozes a personagens de filmes de animação ou videogames sem passar horas no estúdio de gravação. Os dubladores podem trabalhar em idiomas que não conhecem, contando com a tradução automática. Os audiolivros podem ser narrados em vozes expressivas e envolventes, representando uma variedade de sotaques e estilos.

E quanto à saúde? Graças a ferramentas como o Voice Engine, pacientes que sofrem de problemas de fala ou fonação podem encontrar uma voz natural e personalizada. Aqueles que são cegos ou têm dificuldades de leitura poderiam acessar mais facilmente o conteúdo de texto convertido em áudio. As barreiras linguísticas poderiam ser quebradas, com assistentes de voz capazes de falar fluentemente em qualquer idioma.

Sem falar no potencial educacional: aprenda uma língua estrangeira falando com uma voz sintética, mas realista, receba feedback corretivo de um tutor virtual com sua própria voz, crie conteúdo educacional multilíngue personalizável. As oportunidades são infinitas e atraentes.

Mas toda medalha tem seu lado negativo.

Identidades vocais na era deepfake

O primeiro e mais óbvio risco é o da desinformação e da manipulação. Com ferramentas como Voice Engine para áudio e Sora pelo vídeo, qualquer um poderia gerar clipes falsos, mas confiáveis, de figuras públicas ou cidadãos particulares. Discursos políticos falsificados, declarações inventadas, confissões extorquidas: as notícias falsas encontrariam um aliado formidável nas vozes sintéticas. Numa era já marcada pela desconfiança em relação aos meios de comunicação e às instituições, a perspectiva de não podermos mais confiar até mesmo no que ouvimos com os nossos próprios ouvidos é assustadora.

Depois, há a questão da privacidade e do controle sobre os dados biométricos. Nossa voz é uma característica distintiva de nossa identidade, como as impressões digitais ou a retina. Mas, ao contrário de outros dados biométricos, são relativamente fáceis de capturar e replicar sem o nosso conhecimento. Alguns segundos de gravação roubada, talvez de uma chamada telefônica ou de um vídeo público, são suficientes para alimentar um algoritmo como o Voice Engine. E pronto, nossa voz não é mais nossa. Pode ser usado, abusado, descontextualizado, sem que possamos fazer muito para evitá-lo.

Veja bem, a OpenAI está ciente desses riscos e está tentando enfrentá-los com uma abordagem responsável. Os parceiros que testam o Voice Engine devem aderir a diretrizes éticas rigorosas: não à imitação de pessoas reais sem consentimento, sim à permissão explícita dos doadores de voz, máxima transparência sobre a natureza artificial das vozes sintéticas. São passos na direção certa, mas não resolvem a raiz do problema.

Porque o problema, em última análise, é filosófico antes mesmo de ser tecnológico. Diz respeito à nossa relação com a voz como expressão de si, como marca de autenticidade num mundo cada vez mais mediado e artificial. É sobre o valor que atribuímos à singularidade e à autonomia individuais e ao medo de vê-las dissolver-se no mar turvo de deepfakes e identidades fluidas.

Voice Engine: o futuro (ainda) tem voz?

Diante dessas questões, a tentação poderia ser a da recusa ludita: silenciar vozes sintéticas, considerando-as como uma tecnologia “perversa”, refugiando-se na suposta pureza das vozes “naturais”. Mas seria uma reação míope e contraproducente. As vozes sintéticas, como qualquer tecnologia, não são boas nem más em si mesmas: depende de como as utilizamos.

O desafio, então, é construir um quadro ético e regulamentar que direcione o desenvolvimento para o bem comum. Definir padrões e protocolos compartilhados para aquisição e uso de dados de voz. Sensibilizar os cidadãos para os riscos e oportunidades das vozes sintéticas, dotando-os de ferramentas críticas para se orientarem. Invista na pesquisa de métodos confiáveis para autenticar vozes e rastrear a origem do conteúdo de áudio. Promover um debate público aberto e informado sobre estas questões, envolvendo todas as partes interessadas.

Não será uma jornada fácil ou curta. Exigirá visão, determinação e espírito de colaboração. Mas é um caminho necessário, porque o que está em jogo aqui não é apenas tecnológico. É existencial. Diz respeito ao próprio significado da nossa individualidade num mundo em que as fronteiras entre o real e o virtual, entre o autêntico e o artificial, estão a tornar-se cada vez mais confusas e permeáveis.

Um mundo em que a nossa voz, espelho sonoro da nossa alma, corre o risco de se perder num vórtice de ecos sintéticos.

Gianluca Riccio, diretora criativa da Melancia adv, redatora e jornalista. Faz parte do Instituto Italiano para o Futuro, World Future Society e H+. Desde 2006 dirige Futuroprossimo.it, o recurso italiano de Futurologia.

Para relatar pesquisas, descobertas e invenções, entre em contato com a equipe editorial! Siga Futuro Próssimo no Whatsapp: notícias e atualizações exclusivas (gratuitas).

FP em Fatto Quotidiano
Alberto Robiati e Gianluca Riccio guiam os leitores através de cenários do futuro: as oportunidades, riscos e possibilidades que temos para criar um amanhã possível.

No mesmo tópico:

O último

Voice Engine, OpenAI clona uma voz com apenas 15 segundos de áudio

Tecnologia

comparatilhe

Vozes roubadas no éter digital

Voice Engine: sinfonias vocais ou cacofonias artificiais?

Identidades vocais na era deepfake

Voice Engine: o futuro (ainda) tem voz?

Osteoartrite, exame de sangue com IA supera os raios X e prevê isso 10 anos antes

Vou levá-lo ao futuro do entretenimento “automatizado” e gerado por IA

Como a IA irá liberar o potencial dos alunos com dislexia e TDAH

Descobertas enzimas que alteram o tipo sanguíneo de doadores de sangue

Os medicamentos Ozempic, Wegovy e GLP-1 também reduzirão o tabagismo e os alimentos processados?

Rato-rato híbrido criado com neurônios de ambas as espécies no cérebro

Triton, primeiros mergulhos do submarino “bolha” para cruzeiros de luxo

1 comentário sobre “Voice Engine, OpenAI clona uma voz com apenas 15 segundos de áudio”