DeepMind apresenta RT-2: robôs que veem, aprendem e agem

30 Julho 2023

628644ed1fd288f73df6d946 IMG 0831 1 escalado

Robotica, Tecnologia

O modelo de IA desenvolvido pela DeepMind, que combina visão e linguagem para controlar máquinas, abrirá novos horizontes na robótica.

comparatilhe

Num ambiente luminoso, repleto de monitores e equipamentos tecnológicos, um robô se destaca como protagonista. A sua estrutura metálica reflecte a luz, mas é nos seus “olhos” que se esconde a verdadeira magia. Esses olhos, alimentados pelo modelo RT-2 da DeepMind, são capazes de ver, interpretar e agir.

À medida que o robô se move graciosamente, os cientistas ao seu redor examinam cada movimento seu. Não é apenas uma peça de metal e um circuito, mas a personificação de uma inteligência que une o vasto mundo da web com a realidade tangível.

A evolução do RT-2

A robótica percorreu um longo caminho nos últimos anos, mas DeepMind apenas levou o jogo a um nível totalmente novo. ilustrado em um papel acaba de lançar chega RT-2. Coisas? É um modelo de visão-linguagem-ação (VLA) que não aprende apenas com dados da web, mas também com dados robóticos, traduzindo esse conhecimento em instruções generalizadas para controle robótico.

Numa era em que a tecnologia avança a passos largos, o RT-2 representa um salto significativo, prometendo revolucionar não só o campo da robótica, mas também a forma como vivemos e trabalhamos todos os dias. Mas o que isso significa na prática?

DeepMind RT-2, da visão à ação

Os modelos de linguagem de visão de alta capacidade (VLM) eles são treinados em grandes conjuntos de dados, e isso também os torna extraordinariamente bons em reconhecer padrões visuais ou linguísticos (operando, por exemplo, em diferentes idiomas). Mas imagine poder fazer os robôs fazerem o que esses modelos fazem. De fato, pare de imaginar: a DeepMind está tornando isso possível com o RT-2.

Transformadores Robóticos 1 (RT-1) foi uma maravilha por si só, mas o RT-2 vai além, exibindo recursos aprimorados de generalização e compreensão semântica e visual que vai além dos dados robóticos aos quais foi exposto.

Raciocínio em cadeia

Um dos aspectos mais fascinantes do RT-2 é sua capacidade de raciocínio em cadeia. Ele pode decidir qual objeto pode ser usado como um martelo improvisado ou que tipo de bebida é melhor para uma pessoa cansada. Essa capacidade de raciocínio profundo pode revolucionar a maneira como interagimos com os robôs.

E o pior de tudo, você ainda pode pedir a um robô que prepare um bom café para recuperar um pouco de clareza.

Mas como o DeepMind RT-2 controla um robô?

A resposta está em como ele foi treinado. Na verdade, ele usa uma representação não muito diferente dos tokens de idioma que são explorados por modelos como o ChatGPT.

O RT-2 demonstrou incríveis capacidades emergentes, como compreensão de símbolos, raciocínio e reconhecimento humano. Habilidades que atualmente apresentam uma melhora de mais de 3x em relação aos modelos anteriores.

Com RT-2, DeepMind não apenas mostrou que os modelos de linguagem de visão podem ser transformados em poderosos modelos de linguagem de visão e ação, mas também abriu as portas para um futuro no qual os robôs podem raciocinar, resolver problemas e interpretar informações para realizar uma ampla gama de tarefas no mundo real mundo.

E agora?

Num mundo onde a inteligência artificial e a robótica serão cada vez mais centrais, o RT-2 mostra-nos que a próxima evolução não será puramente técnica, mas “perceptiva”. As máquinas compreenderão e responderão às nossas necessidades de maneiras que nunca imaginamos.

Se isto é apenas o começo, quem sabe o que o futuro reserva.

Gianluca Riccio, diretora criativa da Melancia adv, redatora e jornalista. Faz parte do Instituto Italiano para o Futuro, World Future Society e H+. Desde 2006 dirige Futuroprossimo.it, o recurso italiano de Futurologia.

Para relatar pesquisas, descobertas e invenções, entre em contato com a equipe editorial! Siga Futuro Próssimo no Whatsapp: notícias e atualizações exclusivas (gratuitas).

FP em Fatto Quotidiano
Alberto Robiati e Gianluca Riccio guiam os leitores através de cenários do futuro: as oportunidades, riscos e possibilidades que temos para criar um amanhã possível.

No mesmo tópico:

O último

DeepMind apresenta RT-2: robôs que veem, aprendem e agem

Robotica, Tecnologia

comparatilhe

A evolução do RT-2

DeepMind RT-2, da visão à ação

Raciocínio em cadeia

Mas como o DeepMind RT-2 controla um robô?

E agora?

A misteriosa IA superpoderosa aparece e desaparece imediatamente: este é um teste GPT-5?

Armas autônomas, a conferência de Viena: “agir agora para proteger a humanidade”

Osteoartrite, exame de sangue com IA supera os raios X e prevê isso 10 anos antes

Banhistas em perigo? TY-3R, o drone salva-vidas voa e nada para salvá-los

MEAPLANT: a invenção italiana para crescer em paredes e telhados

Usinas nucleares chinesas no Mar da China Meridional: o pesadelo da América

A misteriosa IA superpoderosa aparece e desaparece imediatamente: este é um teste GPT-5?

Vaulted Deep: Injete resíduos orgânicos no solo para capturar CO2