Google acaba de apresentar Gêmeos, sua nova fronteira em inteligência artificial, com uma demonstração que surpreendeu o mundo. Um vídeo postado no YouTube mostra a extraordinária capacidade de Gêmeos de interpretar e responder a estímulos visuais e verbais.
O teste aparentemente simples rapidamente se transforma em uma demonstração incrível das habilidades “quase humanas” desta IA na compreensão e interação com o mundo circundante.
Google Gemini: um salto quântico em inteligência artificial
O surgimento do Google Gemini (que abordamos em setembro passado nos primeiros anúncios) marca um ponto de viragem no panorama da inteligência artificial. A capacidade do Gemini de interpretar e responder a diferentes sinais visuais e verbais supera tudo o que vimos até agora nas tecnologias de IA.
Isto não é simplesmente um avanço no reconhecimento visual ou na compreensão da linguagem natural. O que você vê na demonstração é uma integração extremamente perfeita de ambos os recursos – uma integração que aproxima a IA de uma verdadeira compreensão do contexto humano.
A demonstração do Google Gemini: uma janela para o futuro
Em primeiro lugar, se você perdeu, DEVE ver. Aqui está ela:
A demonstração começa com um participante humano pedindo a Gêmeos que descreva o que vê. A simples ação de colocar um Post-it e desenhar nele uma linha improvisada é prontamente interpretada por Gêmeos. Mas é a continuação do teste que revela o verdadeiro poder de Gêmeos.
Com o desenho evoluindo para uma figura reconhecível, um pato, Gêmeos não só identifica corretamente o objeto, mas também fornece detalhes sobre o ambiente circundante, demonstrando total compreensão do contexto visual.
Além do reconhecimento: interação e tradução
A inteligência do Google Gemini não se limita à mera interpretação visual. Quando o participante apresenta jogos e solicitações de tradução, Gêmeos responde com precisão. A sua capacidade de traduzir “pato” para vários idiomas, e de compreender e participar em jogos simples, realça um nível de interactividade e versatilidade que antes parecia exclusivo dos humanos.
A aplicação prática de uma tecnologia como o Google Gemini? Eh. É impossível definir seus limites. Da cirurgia à educação, das aplicações domésticas às indústrias criativas, as possibilidades parecem infinitas. Gemini poderá revolucionar a forma como interagimos com a tecnologia, tornando a interface homem-máquina mais intuitiva, natural e eficiente.
Sim, mas quando poderemos usá-lo?
Depois da sincera admiração pelo que vimos na demo, sinceridade por sinceridade devo salientar também que até agora a “gordura” vinda do Google tem sido pouca. Bard, arrastado para a arena do confronto com ChatGPT do OpenAI e Claude da Antrópico, foi apresentado com muitas expectativas. A tecnologia “no campo” é inferior à dos concorrentes (limitada ao modelo de linguagem: outras IA como a da Deepmind ótimos resultados estão chegando). E o fato de o Google Gemini ainda não ter uma data oficial de lançamento produz alguma frustração.
Talvez pareça “avançado demais para ser verdade”, talvez seja porque você mal pode esperar para se familiarizar com isso, mas o tempo das demonstrações acabou. A demonstração do Google Gemini promete superar as atuais limitações das tecnologias de IA: vamos vê-lo em ação, então.
Não me deixe suspeitar que esta é apenas outra maneira de ganhar tempo.
Editar 8/12/2023: Olha Você aqui. Nem mesmo fazendo isso de propósito. Após insistência de muitos usuários, o Google admite que a demonstração real do Gemini foi criada “usando fotos de filmes e mensagens de texto”, em vez de fazer com que o Gemini respondesse a um desenho ou a uma mudança nos objetos na mesa em tempo real, ou mesmo previsse isso. Isso é muito menos impressionante do que o vídeo faz você acreditar e, pior, a falta de uma declaração sobre o método de entrada real torna a prontidão do Gemini bastante questionável, assim como o comportamento do Google.