Os algoritmos de IA e aprendizado de máquina estão melhorando na previsão de ações em vídeos.
O melhor dos algoritmos atuais pode prever com muita precisão para onde a bola vai depois de ser lançada, ou a aparência de uma estrada na sequência que está por vir. Em outras palavras? Prevendo quadros no futuro de um filme.
Uma nova abordagem proposta por pesquisadores do Google, da Universidade de Michigan e da Adobe avança o estado da arte com modelos em grande escala dimensionar isso eles geram vídeos de alta qualidade a partir de apenas alguns quadros.
“Com este projeto pretendemos obter previsões de vídeo precisas. Otimizaremos os recursos de uma rede neural”, os pesquisadores escreveram em um documento que descreve o trabalho deles.
O modelo de equipe
O modelo básico da equipe é baseado em uma arquitetura estocástica de geração de vídeo, com um componente que gerencia as previsões dos quadros seguintes aos considerados.
A equipe treinou e testou separadamente diferentes versões do modelo em conjuntos de dados personalizados baseado em três categorias de previsão: interações entre objetos, movimento estruturado e observabilidade parcial.
Para a primeira tarefa (interações com objetos) os pesquisadores selecionaram 256 clipes de um bloco de vídeos que eles mostraram um braço robótico interagindo com toalhas.
Pelo segundo (movimento estruturado) eles examinaram clipes de Human 3.6M, um bloco contendo clipes de humanos que eles realizam ações como sentar em uma cadeira.
Quanto ao terceiro (atividade de observabilidade parcial), eles usaram um conjunto de dados Dados de direção de código aberto KITTI coletados de imagens de câmeras montadas em painéis de carros.
Após esse “treinamento”, o modelo de IA gerou até 25 frames no futuro.
Os pesquisadores relatam que as “previsões” foram preferidas 90,2%, 98,7% e 99,3% das vezes pelos avaliadores, respectivamente, em relação aos três tipos de vídeos: interações de objetos, movimento estruturada e tarefas de observabilidade parcial, respectivamente.
Qualitativamente, a equipe observa que a IA representava claramente armas e pernas humanas está feito “previsões muito precisas que pareciam realistas em comparação com as cenas retratadas no vídeo” .
“Descobrimos que maximizar a capacidade de tais modelos melhora a qualidade da previsão de vídeo”, os co-autores escrevem. Esperamos que nosso trabalho incentive a área a seguir direções semelhantes no futuro. Por exemplo, para ver até onde podemos ir."