Está se tornando extremamente fácil (e não acho que seja apenas bom) alterar um vídeo, e os últimos desenvolvimentos em IA são realmente impressionantes.
Uma colaboração entre gigantes (Stanford University e Princeton mais o Max Planck Institute for Informatics e Adobe) torna possível alterar a fala em um vídeo simplesmente modificando a transcrição textual, e sem criar o efeito de “dublagem”.
Em outras palavras, a pessoa que está falando no vídeo muda literalmente as palavras de sua fala, também modificando os movimentos dos lábios.
Para alcançar este resultado um tanto perturbador, o algoritmo "aprende" os fonemas e sua pronúncia do sujeito no vídeo e cria um modelo 3D preciso de seu rosto, capaz de replicar todos os sons e movimentos: nesse ponto, apenas edite o texto da fala e o algoritmo substituirá a frase original.
Atualmente, o algoritmo precisa de pelo menos 40 minutos de vídeo para "treinar" e replicar uma pessoa em um vídeo.
Aqui está um vídeo demonstrando como o sistema funciona:
Enormes dúvidas éticas
É claro que esse mecanismo cria a possibilidade de qualquer pessoa modificar um discurso (talvez de figuras políticas ou figuras públicas) inserindo elementos de ódio ou desinformação e divulgando-os como originais e naturais: isso só aumenta as preocupações com a disseminação de sistemas baseados em no deepfake.
Por outro lado, existem alguns lados positivos, e é na enorme economia que a edição vai conseguir ao evitar filmar cenas inteiras devido a pequenos erros de pronúncia.
De resto, tenho a certeza que outros métodos de "anti-contrafacção" também serão desenvolvidos para os vídeos: marcas de água dinâmicas ou que tornam o trabalho da inteligência artificial ainda mais complexo, numa competição entre a realidade e a manipulação que já parece destinada a caracterizar o próximos anos.