Google lança IA capaz de ensinar matemática e programar

Gemini é o novo modelo fundacional de inteligência artificial do Google

GOOGLE GEMINI INTELIGENCIA ARTIFICIAL

(Divulgação)

Contrariando rumores sobre um adiamento para o ano que vem, o Google anunciou a chegada do seu novo modelo fundacional Gemini nesta quarta-feira (6). A nova tecnologia é multimodal, chega integrada ao Bard, consegue ensinar matemática e criar códigos de programação, será oferecida nativamente no Android e deve chegar à Busca em 2024.

A partir de hoje, quem acessa o Bard em inglês pode desfrutar de uma tecnologia mais robusta e capaz de realizar diferentes tipos de interação. CEO do Google, Sundar Pichai define o lançamento como “o nosso modelo mais capaz e geral até o momento, com desempenho de última geração em muitas avaliações de ponta”.

O Gemini é o novo modelo fundacional de inteligência artificial do Google. A tecnologia foi anunciada durante o I/O de 2023 e era bastante aguardada pelo mercado por seu potencial de acirrar a disputa entre Google e suas rivais no setor de IA — especialmente OpenAI (ChatGPT) e Microsoft (Bing e Copilot).

De forma resumida, modelo fundacional é a tecnologia que serve de base para uma inteligência artificial generativa funcionar a partir dos comandos (de texto ou não) executados por seus usuários. Esses modelos são treinados com uma vasta quantidade de conteúdo variado e são operados por redes neurais complexas. O Gemini foi treinado usando os modelos v4 e V5e dos chips TPU (Tensor Processing Units), do próprio Google, e a companhia também anunciou hoje a chegada dos novos TPU v5p.

Nano, Pro e Ultra

O novo modelo estará disponível em três tamanhos distintos “para que seja capaz de rodar em qualquer coisa, de data centers a dispositivos móveis”, explica o Google.

São eles:

O novo modelo é uma IA multimodal, ou seja, tem suporte para interações por voz, vídeo, texto, imagem e códigos, e promete recursos avançados de resolução de problemas matemáticos. Esse suporte a várias modalidades foi pensado para ele desde o início, algo diferente do habitual no setor, que geralmente desenvolve capacidades de suporte a diferentes conteúdos de forma separada e “junta” tudo em uma coisa só depois.

“Isso ajuda o Gemini a compreender de forma direta e raciocinar sobre todos os tipos de informações desde o início de forma muito melhor do que os modelos multimodais existentes — e suas capacidades são de última geração em quase todos os domínios”, explica o CEO da divisão Google DeepMind Demis Hassabis.

O Google promete um modelo capaz de avaliar informações textuais e visuais complexas, com capacidade única de discernir coisas em meio a um grande volume de dados, algo útil para resumir documentos com precisão e encontrar dados em meio a páginas, sites e livros, por exemplo.

Essas habilidades de avaliação também permitem que o Gemini compreenda mais de uma modalidade ao mesmo tempo, como áudio, vídeo e texto combinados, outro avanço significativo e capaz de render frutos em diferentes áreas de estudo para além do uso como um passatempo.

Numa demonstração feita pela empresa (abaixo), uma pessoa desenha um pato num pedaço de papel e aquilo é entendido pela tecnologia. Durante a conversa, a IA traz informações extras para contexto de forma proativa, interage de diferentes maneiras conforme o papo evoluia e identifica a posição das mãos do demonstrador em um mapa mundi, para ficar em alguns exemplos. Tudo isso de maneira absolutamente natural, sem engasgos e produzindo respostas em texto e áudio numa cena que parecia retirada de um filme de ficção científica.

Desempenho de ponta

Ainda conforme o Google, o Gemini Ultra obteve performance de última geração em 30 dos 32 benchmarks acadêmicos amplamente usados para pesquisa e desenvolvimento em grandes modelos de linguagem (LLM).

Como exemplo da capacidade da versão mais potente, a companhia revela que ela obteve uma pontuação de 90% no teste MMLU (compreensão de linguagem e multitarefa massiva, em tradução livre), que reúne questões de 57 diferentes áreas para medir conhecimento e capacidade de solução de problemas de um indivíduo.

Tal desempenho faz do modelo do Google o primeiro a superar o desempenho de seres humanos especializados no MMLU.

Programação

Como não poderia deixar de ser, o Gemini chega com capacidades avançadas de criação de códigos de programação. A tecnologia é capaz de gerar conteúdo em algumas das linguagens mais populares do momento, como Java, Python e C++, e o Google promete aqui a mesma habilidade de lidar com grandes volumes de informação complexa e multimodal (como transformar imagens em códigos).

Ainda não disponível, o modelo Ultra alcançou desempenho de excelência em vários testes de padrão da indústria, como o HumanEval, revela o Google.

Para completar o pacote de código, a Gigante da Web apresentou hoje o AlphaCode 2, sua nova IA dedicada a criar códigos de programação que agora também utiliza a tecnologia do Gemini. A nova versão do AlphaCode consegue desempenho superior em até 50% em relação à sua antecessora e, na comparação com humanos, a estimativa é de uma atuação até 85% mais eficaz na realização de certas tarefas.

Segurança

Segundo a empresa, “o Gemini tem as avaliações de segurança mais abrangentes de qualquer modelo de IA do Google até o momento, inclusive em relação a viés e toxicidade”. A companhia garante ter realizado pesquisas intensas, com auxílio de grupos externos, a fim de identificar e mitigar potenciais problemas de segurança durante a criação do novo modelo.

A Gigante de Mountain View revela que realiza verificações de segurança e confiabilidade no Gemini Ultra e, portanto, a versão mais poderosa de seu novo modelo chega em breve. Até lá, ela segue em avaliação junto a especialistas de segurança, desenvolvedores e clientes selecionados.

A previsão é de que, no início do ano que vem, o Ultra esteja disponível para o público por meio do “Bard Advanced”, possivelmente o “ChatGPT Plus do Google”.

Com informações do Canal Tech.

Sair da versão mobile