Está se tornando extremamente fácil (e não acho que seja apenas uma coisa boa) alterar um vídeo, e os últimos desenvolvimentos em IA são realmente impressionantes.
Uma colaboração entre gigantes (Universidades de Stanford e Princeton mais Instituto Max Planck de Informática e Adobe) permite alterar a fala de um vídeo simplesmente modificando a transcrição textual, e sem criar o efeito de "dublagem".
Em outras palavras, a pessoa que está falando no vídeo muda literalmente as palavras de sua fala, também modificando os movimentos dos lábios.
Para obter esse resultado um tanto perturbador, o algoritmo “aprende” os fonemas e sua pronúncia pelo sujeito do vídeo e cria um modelo 3D preciso de seu rosto, capaz de replicar todos os sons e movimentos: nesse ponto bastará editar o texto do discurso e o algoritmo substituirá a frase original.
Atualmente o algoritmo precisa de pelo menos 40 minutos de filmagem para “treinar” a replicação de uma pessoa em um filme.
Aqui está um vídeo demonstrando como o sistema funciona:
Enormes dúvidas éticas
É claro que esse mecanismo cria a possibilidade de qualquer pessoa modificar um discurso (talvez de figuras políticas ou figuras públicas) inserindo elementos de ódio ou desinformação e divulgando-os como originais e naturais: isso só aumenta as preocupações com a disseminação de sistemas baseados em no deepfake.
Por outro lado, há um lado positivo, que reside na enorme economia que a edição obterá ao evitar ter que refazer cenas inteiras devido a pequenos erros de pronúncia.
De resto, tenho a certeza que outros métodos “anti-contrafacção” serão desenvolvidos também para os vídeos: marcas de água dinâmicas ou marcas de água que tornam ainda mais complexo o trabalho da inteligência artificial, numa competição entre a realidade e a manipulação que já parece destinada a caracterizar próximos anos.