Eu sei, estávamos todos distraídos por outra coisa: em janeiro de 2021 OpenAI, empresa fundada por Elon Musk e apoiada pela Microsoft, lançou seu projeto mais ambicioso até o momento: um sistema de aprendizado de máquina chamado DALL-E.
O que essa inteligência artificial faz? Simplificando: produz imagens a partir de uma simples descrição de texto. Um exemplo? Você escreve “Um camelo com um livro como chapéu”, ou “Uma gravata feita de garfos” e ele desenha, cria, enfim: ele surge com uma imagem.
Agora, o Open AI revelou a segunda versão do DALL-E, e as coisas ficaram muito sérias: a resolução ficou muito melhor e o tempo de produção muito menor. Uma típica dinâmica exponencial à qual as inteligências artificiais nos acostumaram e, sobretudo, nos acostumarão. Também porque, se você se lembra, o chefe da Open AI acabou de dizer que essas máquinas talvez (talvez) eles estão se tornando conscientes.
Um pouco Wall-E, um pouco Dali
A versão um do DALL-E (uma mala de viagem de “Dali”, em homenagem ao artista, e “WALL-E”, em homenagem ao personagem de animação da Disney) foi capaz de gerar imagens e juntar várias fotos em uma colagem, oferecendo perspectivas editáveis e deduzindo elementos de uma imagem, como efeitos de sombra.
Um designer super bom, com todas as imagens do mundo à disposição, que interpreta os pedidos e desenha na hora.
“Ao contrário de um mecanismo de renderização 3D, que requer entrada precisa, o DALL-E muitas vezes é capaz de ‘preencher os espaços em branco’ quando a legenda implica que a imagem deve incluir um determinado elemento e não está explicitamente declarada”, escreveu a equipe no ano passado. no blog Open AI.
Como funciona a IA baseada na demanda?
O DALL-E não pretendia ser um produto comercial e a equipe da OpenAI decidiu que seria o melhor. Os pesquisadores o “impediram” de criar imagens sexuais ou políticas, por exemplo, para evitar que o sistema fosse usado para gerar desinformação. O mesmo vale para nomes específicos: é impossível perguntar-lhe, por exemplo, “desenhe Frank Sinatra jogando tênis com um urso polar”.
O DALL-E 1, essencialmente, aproveita o incrível intérprete da linguagem GPT-3 (aqui eu falo sobre isso mais a fundo, se você estiver interessado) e desenha o que entende mais o que "intui".
Ao contrário da primeira versão, que estava disponível para todos no site da OpenAI, esta só está disponível para teste por um número limitado de parceiros: aguardo alguns dias por uma resposta da Open AI para entrar no grupo.