Num ambiente luminoso, repleto de monitores e equipamentos tecnológicos, um robô se destaca como protagonista. A sua estrutura metálica reflecte a luz, mas é nos seus “olhos” que se esconde a verdadeira magia. Esses olhos, alimentados pelo modelo RT-2 da DeepMind, são capazes de ver, interpretar e agir.
À medida que o robô se move graciosamente, os cientistas ao seu redor examinam cada movimento seu. Não é apenas uma peça de metal e um circuito, mas a personificação de uma inteligência que une o vasto mundo da web com a realidade tangível.
A evolução do RT-2
A robótica percorreu um longo caminho nos últimos anos, mas DeepMind apenas levou o jogo a um nível totalmente novo. ilustrado em um papel acaba de lançar chega RT-2. Coisas? É um modelo de visão-linguagem-ação (VLA) que não aprende apenas com dados da web, mas também com dados robóticos, traduzindo esse conhecimento em instruções generalizadas para controle robótico.
Numa era em que a tecnologia avança a passos largos, o RT-2 representa um salto significativo, prometendo revolucionar não só o campo da robótica, mas também a forma como vivemos e trabalhamos todos os dias. Mas o que isso significa na prática?
DeepMind RT-2, da visão à ação
Os modelos de linguagem de visão de alta capacidade (VLM) eles são treinados em grandes conjuntos de dados, e isso também os torna extraordinariamente bons em reconhecer padrões visuais ou linguísticos (operando, por exemplo, em diferentes idiomas). Mas imagine poder fazer os robôs fazerem o que esses modelos fazem. De fato, pare de imaginar: a DeepMind está tornando isso possível com o RT-2.
Transformadores Robóticos 1 (RT-1) foi uma maravilha por si só, mas o RT-2 vai além, exibindo recursos aprimorados de generalização e compreensão semântica e visual que vai além dos dados robóticos aos quais foi exposto.
Raciocínio em cadeia
Um dos aspectos mais fascinantes do RT-2 é sua capacidade de raciocínio em cadeia. Ele pode decidir qual objeto pode ser usado como um martelo improvisado ou que tipo de bebida é melhor para uma pessoa cansada. Essa capacidade de raciocínio profundo pode revolucionar a maneira como interagimos com os robôs.
E o pior de tudo, você ainda pode pedir a um robô que prepare um bom café para recuperar um pouco de clareza.
Mas como o DeepMind RT-2 controla um robô?
A resposta está em como ele foi treinado. Na verdade, ele usa uma representação não muito diferente dos tokens de idioma que são explorados por modelos como o ChatGPT.
O RT-2 demonstrou incríveis capacidades emergentes, como compreensão de símbolos, raciocínio e reconhecimento humano. Habilidades que atualmente apresentam uma melhora de mais de 3x em relação aos modelos anteriores.
Com RT-2, DeepMind não apenas mostrou que os modelos de linguagem de visão podem ser transformados em poderosos modelos de linguagem de visão e ação, mas também abriu as portas para um futuro no qual os robôs podem raciocinar, resolver problemas e interpretar informações para realizar uma ampla gama de tarefas no mundo real mundo.
E agora?
Num mundo onde a inteligência artificial e a robótica serão cada vez mais centrais, o RT-2 mostra-nos que a próxima evolução não será puramente técnica, mas “perceptiva”. As máquinas compreenderão e responderão às nossas necessidades de maneiras que nunca imaginamos.
Se isto é apenas o começo, quem sabe o que o futuro reserva.