Os algoritmos de IA e aprendizado de máquina estão melhorando na previsão de ações em vídeos.
O melhor dos algoritmos atuais pode prever com muita precisão para onde a bola vai depois de ser lançada, ou a aparência de uma estrada na sequência que está por vir. Em outras palavras? Prevendo quadros no futuro de um filme.
Uma nova abordagem proposta por pesquisadores do Google, da Universidade de Michigan e da Adobe avança o estado da arte com modelos em grande escala que geram vídeo de alta qualidade a partir de alguns quadros.
"Com este projeto pretendemos obter previsões de vídeo precisas. Vamos otimizar as capacidades de uma rede neural", os pesquisadores escreveram em um documento que descreve o trabalho deles.
O modelo de equipe
O modelo principal da equipe é baseado em uma arquitetura estocástica de geração de vídeo, com um componente que gerencia as previsões dos quadros seguintes aos considerados.
A equipe treinou e testou diferentes versões do modelo separadamente dos conjuntos de dados personalizados, com base em três categorias de previsão: interações entre objetos, movimento estruturado e observabilidade parcial.
Para a primeira tarefa (interações com objetos) os pesquisadores selecionaram 256 clipes de um bloco de vídeos mostrando um braço robótico enquanto interagiam com toalhas.
Pelo segundo (movimento estruturado) eles editaram clipes do Human 3.6M, um bloco contendo clipes de humanos realizando ações como sentar em uma cadeira.
Quanto ao terceiro (atividade de observabilidade parcial), usou um conjunto de dados de código-fonte KITTI de código aberto coletado de câmeras de vídeo montadas nos painéis do carro.
Após esse "treinamento", o modelo de IA gerou até 25 quadros no futuro.
Pesquisadores relatam que "previsões" foram preferidas 90,2, 98,7% e 99,3% das vezes pelos avaliadores para os três tipos de vídeo, respectivamente: interações de objetos, movimento estruturado e tarefas de observabilidade parcial, respectivamente.
Qualitativamente, a equipe observa que a IA representou de forma nítida braços e pernas humanos e fez "previsões muito precisas que pareciam realistas em comparação com as cenas retratadas no vídeo" .


"Descobrimos que maximizar a capacidade de tais modelos melhora a qualidade da previsão de vídeo", os co-autores escrevem. Esperamos que nosso trabalho encoraje o campo a se mover em direções semelhantes no futuro. Por exemplo, para ver até onde podemos ir".