Está se tornando extremamente fácil (e não acho que seja apenas bom) alterar um vídeo, e os últimos desenvolvimentos em IA são realmente impressionantes.
Uma colaboração entre gigantes (Universidade de Stanford e Princeton mais o Instituto Max Planck de Informática e Adobe) torna possível alterar a fala em um vídeo simplesmente modificando a transcrição textual e sem criar o efeito de "dublagem".
Em outras palavras, a pessoa que está falando no vídeo muda literalmente as palavras de sua fala, também modificando os movimentos dos lábios.
Para alcançar esse resultado um tanto perturbador, o algoritmo "aprende" os fonemas e sua pronúncia do sujeito no vídeo e cria um modelo 3D preciso de seu rosto, capaz de replicar todos os sons e movimentos: nesse ponto será suficiente editar o texto da fala e o algoritmo substituirá a frase original.
Atualmente o algoritmo precisa de pelo menos 40 minutos de vídeo para "treinar" a replicar uma pessoa em um vídeo.
Aqui está um vídeo demonstrando como o sistema funciona:
Enormes dúvidas éticas
É claro que esse mecanismo cria a possibilidade de qualquer pessoa modificar um discurso (talvez de figuras políticas ou figuras públicas) inserindo elementos de ódio ou desinformação e divulgando-os como originais e naturais: isso só aumenta as preocupações com a disseminação de sistemas baseados em no deepfake.
Por outro lado, há alguns pontos positivos, e é na enorme economia que a edição vai conseguir ao evitar refilmar cenas inteiras devido a pequenos erros de pronúncia.
De resto, estou certo de que outros métodos "anti-falsificação" também serão desenvolvidos para vídeos: marcas d'água dinâmicas ou marcas d'água que tornam ainda mais complexo o trabalho da inteligência artificial, em uma competição entre realidade e manipulação que já parece destinada a caracterizar os próximos anos.