quinta-feira, 7 de dezembro de 2023

Gemini, novo modelo de IA do Google, chega ao Brasil

Imagem: reprodução

Modelo de IA multimodal, com capacidade de organizar, compreender, operar e combinar diferentes tipos de informação, chega a mais de 170 países, inserido no Bard.

O Google anunciou na quarta-feira (6), novo modelo de inteligência artificial (IA), que tem funcionalidades mais avançadas.

É o Gemini. Segundo a empresa, esse é o maior projeto científico e tecnológico que já desenvolveu até agora.

E, para tal, envolveu diversos times, incluindo as equipes do Google DeepMind e Google Research.

O Gemini é um modelo de IA multimodal com várias habilidades, como organizar, compreender, operar e combinar diferentes tipos de informação, incluindo textos, imagens, áudios, vídeos e linguagens de programação.

De acordo com o Google, o novo modelo ” vai melhorar significativamente a forma como os desenvolvedores e empresas constroem e escalam soluções com IA”.

Ademais, a primeira versão do modelo, o Gemini 1.0, é o modelo mais flexível da companhia até agora, capaz de funcionar com eficiência desde dispositivos móveis até data centers.

Com isso, é otimizado para três tamanhos diferentes: Gemini Ultra, maior e mais hábil, para tarefas altamente complexas; Gemini Pro, melhor modelo para escalar grande variedade de tarefas; e Gemini Nano, modelo mais eficiente para realizar tarefas em dispositivos.

Lançamento em fases

O novo modelo está sendo lançado no Bard, na maior atualização até agora, em duas fases.

A primeira começa nesta quarta-feira, 6, com o Google disponibilizando o Bard com Gemini Pro em inglês, para usuários de mais de 170 países e territórios, incluindo o Brasil.

Dessa forma, o Gemini também já está disponível para o smartphone Android Pixel.

O Pixel 8 Pro é o primeiro smartphone projetado para rodar o Gemini Nano, que potencializa  recursos como “Summarize no aplicativo Recorder” e lança o “Smart Reply” no Gboard, começando pelo WhatsApp e, no próximo ano, em mais aplicativos de mensagens.

Próximos meses

Além disso, nos próximos meses, o Google disponibilizará o Gemini em outros produtos e serviços do Google, como Busca, Ads, Chrome e Duet AI.

Já a segunda fase começa no início do próximo ano, quando o Google apresentará o Bard Advanced.

O Bard Advanced dará acesso aos modelos mais avançados, começando pelo Gemini Ultra.

Ainda, o desempenho do Gemini Ultra supera 30 dos 32 pontos das referências acadêmicas  utilizadas na pesquisa e no desenvolvimento de grandes modelos de linguagem.

Recursos para clientes e desenvolvedores

A partir da próxima quarta-feira, 13, desenvolvedores e clientes corporativos poderão acessar o Gemini Pro na API no Google AI Studio ou Vertex AI.

Assim, o Google AI Studio é uma ferramenta gratuita baseada na web que ajuda desenvolvedores e clientes corporativos a criar protótipos e lançar aplicativos rapidamente com  chave de API.

Portanto, a Vertex AI permitirá a personalização do Gemini com controle total de dados, se beneficiando de recursos adicionais do Google Cloud para segurança empresarial, proteção, privacidade e governança e conformidade de dados.

Ademais, os desenvolvedores de Android também poderão criar com o Gemini Nano via AICore, novo recurso de sistema disponível no Android 14, começando em dispositivos Pixel 8 Pro.

Assim, já para o Gemini Ultra, o Google disponibilizará a possibilidade de experimentar e dar feedback antes do lançamento para desenvolvedores e clientes corporativos em 2024.

Isso será feito para um grupo seleto de clientes, desenvolvedores, parceiros e especialistas em segurança e responsabilidade.

Recursos de última geração

Assim, até o momento, o mecanismo padrão para a criação de modelos multimodais envolvia treinar componentes separados para diferentes modalidades.

Depois, o padrão os juntava para imitar algumas dessas funcionalidades.

Contudo, apesar de serem bons na execução de certas tarefas, como descrever imagens, às vezes, esses modelos enfrentam problemas com raciocínios mais conceituais e complexos.

Ademais, para resolver esse problema, o Google projetou o Gemini como modelo multimodal nativo. Isso significa que a IA foi treinada previamente em diferentes modalidades.

Dados multimodais

Ainda, posteriormente, o Google o aperfeiçoou com dados multimodais adicionais para refinar ainda mais a sua eficácia.

Dessa forma, o Gemini consegue compreender e raciocinar perfeitamente sobre todos os tipos de informações desde o começo.


“A nova era dos modelos de IA representa um dos maiores esforços científicos e de engenharia que empreendemos como empresa".

 

“Estou genuinamente animado com o que está por vir e com as oportunidades que o Gemini abrirá para as pessoas em todos os lugares”, disse Sundar Pichai, CEO do Google e da Alphabet, em nota publicada no blog post da empresa.

Fonte: meioemensagem