Google Gemini: proposta alternativa ao ChatGPT?

Consultoria em IA e tecnologias emergentes Consultoria em IA e tecnologias emergentes, IA 5 minutos de leitura

Em dezembro de 2023, o Google, mais uma vez, deu passos largos na “corrida mundial” de Inteligência Artificial que estamos assistindo nos últimos tempos. Como? Através do lançamento do Google Gemini.

O CEO, Sundar Pichai, chegou a mencionar no artigo de lançamento que:

“(...) o ritmo do progresso está acelerando: milhões de pessoas estão agora usando IA generativa em nossos produtos para fazer coisas que não conseguiam há um ano, desde encontrar respostas e soluções para questões complexas até o uso de novas ferramentas para colaborar e criar (...)”

E isso, de fato, é uma realidade que as empresas e profissionais de diversos setores e indústrias, inclusive de marketing digital, vem acompanhando.

A maratona pelo progresso em IA deve ser feita com responsabilidade e com transparência, e é por esse motivo que estamos acompanhando ativamente todos os pormenores desse contexto. Transformações impactantes continuarão relevantes para o sucesso das empresas e do nosso trabalho, seja em performance e/ou agilidade.

O Google Gemini, então, foi uma maneira desse motor de busca continuar investindo em formas de otimizar suas ferramentas, os modelos de base e toda a infraestrutura de seus produtos – tudo isso baseado, claro, nos princípios para confecção de IA, já disponibilizados há algum tempo.

Novamente, segundo Sundar Pichai:

“Agora, estamos dando o próximo passo em nossa jornada com o Gemini, nosso modelo mais hábil até agora, com desempenho de última geração nos melhores benchmarks da indústria.”

Certo, mas qual é o avanço com o Gemini? O que ele faz exatamente?

Continue acompanhando o artigo, pois é sobre isso que ele trata.

O que é o Google Gemini? Qual sua funcionalidade?

O Gemini vem para impulsionar o trabalho do Google DeepMind – “área” responsável por criar algoritmos por machine learning, com foco na realização de tarefas e resolução de uma variedade de problemas – desde jogos de tabuleiro, questões matemáticas ou de lógica, até problemas complexos que envolvam medicina, por exemplo.

O DeepMind, então, foi responsável pelo lançamento do Gemini – uma IA capaz de “compreender, operar e combinar diferentes tipos de informações, incluindo texto, imagem, áudio e vídeo” – o que é um grande diferencial dentre todas as disponíveis de forma gratuita até então.

O Gemini, ainda, pode ser dividido em três “versões”, sendo a Ultra a mais robusta (prevista para começo de 2024), capaz de fazer tarefas altamente complexas. Depois, temos a versão Pro – com potencial para escalar grande variedade de projetos – e a Nano, que é mais focada em trazer eficiência para tarefas mais rotineiras.

Porém, independentemente do seu tipo, o Gemini foi desenvolvido desde o início para a multimodalidade – ou seja, casar o raciocínio em texto, imagens, vídeo, áudio e/ou código e a capacidade de ser útil aos usuários em qualquer circunstância.

Qual seu grande diferencial?

O principal diferencial do Gemini é a geração de texto de forma mais natural e a compreensão de imagens e vídeos. Dessa forma, é uma ferramenta que é capaz de gerar, acima de tudo, insights.

Segundo o CEO do Google, o avanço está no fato de seus recursos ajudarem a “(...) compreender informações complexas, sejam elas escritas ou visuais. Isso o torna excepcionalmente hábil em descobrir conhecimentos que podem ser difíceis de discernir em meio a grandes quantidades de dados.”

E como usar essa inteligência artificial?

O Google indica que o Gemini Pro está sendo disponibilizado junto a outros recursos. Diante disso, para acessá-lo, é preciso navegar pelo Bard, por exemplo, via uma conta Gmail.

No entanto, não consegui testá-lo dessa forma – perguntei ao meu Bard se ele já usava o Gemini e ele disse que não.

Diante disso, fiz login pelo link disponibilizado na página do AI for Developers.

O que perguntar para essa IA?

Como mencionado em diversos artigos da web a respeito do Gemini, os prompts direcionados a ele podem ser diversos. Abaixo, estão os principais:

Problemas matemáticos;
Códigos de programação;
Conceitos complexos;
Análises e interpretações de texto, imagem e vídeo;
Perguntas criativas;
Gerar texto e imagens;
"Destravar" a criatividade;
Otimização de trechos de conteúdos textuais;
Automação de processos;
Ganho de agilidade;
Correção ortográfica;
Verificação da qualidade de imagens;
Etc.

Nesse sentido, basta esperar alguns segundos para que o Gemini entregue uma resposta a partir do prompt colocado – que pode ser feito por texto ou comando de voz.

Os próximos passos da IA são relacionados ao aumento de sua janela de contexto para que ele consiga processar ainda mais informações.

Eu aproveitei o acesso ao Gemini e resolvi fazer alguns testes com os mesmos prompts para entender como, na prática, ele se difere do GPT 3.5. Confira a seguir.

Perguntas sobre uma imagem específica

O primeiro teste foi com uma imagem. Usei uma figura qualquer de um corpo humano e risquei uma parte específica nela.

O Gemini (usando prompt livre) me respondeu de forma sucinta, repetindo parte da minha pergunta e sem mais detalhamento.

No caso do ChatGPT 3.5, eu não tive abertura da interface para compartilhar a imagem e apenas perguntei se sua versão free já fazia leitura de imagens e essa foi a resposta:

Válido destacar que a versão paga do GPT (a 4 em diante) faz leitura de imagens da mesma forma. Mas, nesse caso, estamos comparando ambas as ferramentas considerando suas versões free.

Perguntas sobre interpretação de texto e imagem

Aproveitei o recurso de imagem para entender se o Gemini conseguia interpretar um texto aleatório, aliar isso a leitura e compreensão de uma imagem e, claro, me dar uma resposta assertiva.

Para isso, colei no Gemini o print de uma das questões de português do Enem de um ano aleatório.

Novamente, ele acertou, mas foi super sucinto – o que é ótimo para quem quer consumir uma resposta rápida e continuar com as demandas do trabalho ou estudos.

Perguntas mais técnicas (no caso, sobre Química)

Para uma pergunta sobre Química (retirada de uma das provas disponibilizados no site do

Instituto Tecnológico de Aeronáutica (ITA)), foi utilizado o prompt model – que mais se assemelha a uma conversa mesmo, como no GPT.

Aqui estão as respostas:

Gemini

ChatGPT

O Chat da OpenAI, no caso, chegou ao mesmo resultado indicado pelo Gemini e em uma estrutura bastante parecida, mas sua linguagem pareceu bem menos técnica e mais didática. Além disso, ele me apresentou uma conclusão – nesse caso, eu poderia ler apenas o último parágrafo para ter minha pergunta respondida diretamente.

Google Gemini versus ChatGPT?

É claro que, diante dessa jornada pelo universo de IAs, muitos profissionais já começaram a perceber diferenças entre as aplicações, habilidade e resolutividade de ferramentas como o ChatGPT.

Em um report disponibilizado pela New Atlas, foi destacado, mediante um teste de compreensão massiva de linguagem multitarefa (composto por cerca de 57 situações problema das áreas da história, matemática, direito e medicina), que Gemini tem uma capacidade resolutiva muito maior que outras IAs generativas.

A IA do Google foi capaz de superar o GPT-4, que fechou o teste com uma pontuação de acerto de 86,4%. Nesse mesmo teste, especialistas humanos alcançaram 89,8%.

Na minha experiência pessoal, achei a interface do GPT 3.5, por enquanto, um pouco mais prática – o que colabora com o dia a dia de trabalho que é, em sua maioria, mais corrido. Porém, ele tende a alucinar em alguns momentos a depender do prompt indicado.

Mas, será que o fato do chat ser mais “resolutivo” colabora com seu uso massivo? Mesmo com as alucinações ou sem a opção de leitura de imagens, ou utilização de comandos por voz em sua versão free? Será que o Gemini não é, então, muito mais convidativo e, consequentemente, será muito mais popular?

Não sabemos ainda. O que sabemos, por enquanto, é que o Gemini ainda está sendo lançado e, provavelmente, passará por muitos aprimoramentos.

Vamos seguir acompanhando!

Conteúdos Relacionados

Faça nosso coração digital bater mais rápido

Receba nosso boletim informativo com insights acionáveis sobre as últimas tendências, projetos e muito mais.

Obrigado por se inscrever!

Acesse seu e-mail para saber mais.

Continuar explorando

A Monks precisa das informações de contato que você nos fornece para entrar em contato com você sobre nossos produtos e serviços. Você pode cancelar a assinatura dessas comunicações a qualquer momento. Para obter informações sobre como cancelar a assinatura, bem como sobre nossas práticas de privacidade e nosso compromisso com a proteção de sua privacidade, consulte nossa Política de Privacidade.