Você consegue imaginar um gato cinza? Bom. Agora, imagine-o com pêlo branco. Agora, imagine-o andando na Grande Muralha da China. Feito? Aqui, nesses momentos, uma série rápida de ativações neuronais em seu cérebro produziu variações da imagem apresentada, com base em seu conhecimento prévio do mundo.
Fácil de imaginar, para nós seres humanos. Para uma inteligência artificial, no entanto, é outra história. Apesar dos avanços nas redes neurais, que igualam ou superam o desempenho humano em determinadas atividades, os computadores ainda estão longe da capacidade humana de imaginar coisas.
Imagine? Impossível para uma IA. Pelo menos até ontem.
Agora, uma equipe de pesquisa da USC desenvolveu inteligência artificial que usa recursos semelhantes aos humanos para imaginar um objeto nunca antes visto com atributos diferentes. O documento, intitulado "Zero-Shot Synthesis with Group-Supervisioned Learning", foi lançado em maio, e a pesquisa colateral floresceu desde então.
“Fomos inspirados pelas habilidades de generalização visual humana para tentar simular a imaginação humana em máquinas”, diz o principal autor do estudo. Yunhao Ge. "Os seres humanos podem separar seu conhecimento aprendido por atributos, como forma, pose, posição, cor, e então recombiná-lo para imaginar um novo objeto. Nosso artigo tenta simular esse processo usando redes neurais."

O problema da generalização da inteligência artificial
Suponha que queremos criar um sistema de inteligência artificial que gere imagens de carros. Inicialmente, fornecemos ao algoritmo algumas imagens de um carro. A tarefa seria gerar muitos tipos de carros, em qualquer cor, de vários ângulos. Este é um sério desafio: criar redes neurais capazes de extrair as regras subjacentes e aplicá-las a uma ampla gama de novos exemplos nunca vistos antes. Mas as redes hoje são treinadas nas características da amostra, sem levar em conta os atributos de um objeto.
Nesse novo estudo, os pesquisadores tentaram superar essa limitação.
O segredo? É chamado de desembaraçar

O trabalho da equipe de pesquisa baseou-se na aplicação de um método chamado untangling. Desembaraçar pode ser usado para gerar deepfake, por exemplo, sintetizar novas imagens e vídeos que substituem a identidade de uma pessoa por outra, mas mantêm o movimento original.
A nova abordagem usa um grupo de imagens de amostra, não uma amostra por vez, como os algoritmos tradicionais. Dd extrai a semelhança entre eles para alcançar algo chamado "aprendizagem de representação desembaraçada controlável".
Então, ele recombina esse conhecimento para obter uma "nova síntese de imagem controlável". Poderíamos usar o verbo "imaginar".
É um processo muito semelhante a como nós, humanos, extrapolamos: quando um humano vê a cor de um objeto, podemos aplicá-la facilmente a qualquer outro objeto, substituindo a cor original pela nova. Usando a técnica de desembaraçar, a equipe gerou um novo conjunto de dados contendo 1,56 milhão de imagens que podem auxiliar pesquisas futuras na área.
Imaginar ajuda a entender o mundo
Embora desembaraçar não seja uma ideia nova, os pesquisadores dizem que sua estrutura pode ser compatível com quase qualquer tipo de dado ou conhecimento. Isso expande as oportunidades de aplicativos.
No campo da medicina, por exemplo, o desembaraçar poderia ajudar médicos e biólogos a descobrir drogas mais úteis, separando a função médica de outras propriedades e depois recombinando-as para sintetizar novos medicamentos. Fazer com que as máquinas "imaginem" também pode ajudar a criar inteligência artificial mais segura. Por exemplo, permitir que veículos autônomos imaginem e evitem cenários perigosos nunca vistos antes durante o treinamento.
"O aprendizado profundo já demonstrou desempenho e promessa insuperáveis em muitos campos. Muitas vezes, porém, isso ocorreu por meio de mimetismo superficial e sem uma compreensão mais profunda dos atributos separados que tornam cada objeto único", disse Laurent Itti, professor de informática. “Esta nova abordagem de desembaraçar, pela primeira vez, realmente desencadeia um novo senso de imaginação nos sistemas de IA, aproximando-os da compreensão humana do mundo”.