Claude, ChatGPT, Copilot, Meta e Gemini: quem vence a batalha de chatbots?

Novo teste confirma que nenhuma das cinco ferramentas é perfeita para interpretação e formulação de texto

Chatbot: quem vence a briga das IAs? (Freepik)

Da Redação

Redação Exame

Publicado em 6 de junho de 2025 às 14h17.

Última atualização em 6 de junho de 2025 às 14h36.

Tudo sobreAcompanhe tudo sobreChatbot

Saiba mais

Uma competição entre cinco chatbots populares revela que, apesar de bons desempenhos, nenhum deles foi perfeito em entender e analisar diferentes tipos de textos.

Para Zuckerberg, substituir amigos humanos por inteligência artificial é o futuro

Com a crescente popularidade da inteligência artificial, muita gente acredita que os chatbots podem se tornar assistentes poderosos, capazes de ler e resumir documentos complexos rapidamente. Mas um teste realizado pelo Washington Post colocou à prova a verdadeira capacidade de compreensão deles.

A tarefa era ler quatro tipos de textos distintos — literatura, pesquisa médica, contratos legais e discursos de Donald Trump — e responder a uma série de perguntas formuladas para testar a compreensão e análise das ferramentas. O desafio contou com cinco chatbots: ChatGPT, Claude, Copilot, Meta AI e Gemini.

Ao todo, foram 115 perguntas, e o desempenho foi analisado por especialistas, incluindo os próprios autores dos textos e cientistas. O resultado foi misto. Alguns bots demonstraram boas habilidades, enquanto outros falharam em aspectos cruciais, como precisão e compreensão contextual.

Entre os cinco, o Claude foi o vencedor geral, com a pontuação mais alta de 69.9, e foi o único que não apresentou "alucinações" — quando a IA inventa informações. O ChatGPT ficou em segundo lugar com 68.4, e os outros três bots ficaram bem atrás, com pontuações abaixo de 50.

O Claude é feito pela empresa Anthropic, uma startup americana de inteligência artificial. Desenvolver modelos de IA para clientes do governo dos EUA faz parte da estratégia da empresa para conseguir fontes diversas e seguras de receita.

Desempenho dos chatbots nas diferentes categorias

Literatura:

No teste de literatura, o desempenho dos chatbots foi o pior. Nenhum deles conseguiu capturar todos os aspectos do romance A Amante do Chacal, de Chris Bohjalian. O Gemini foi o mais impreciso, cometendo erros graves, enquanto o ChatGPT fez um bom resumo geral, mas deixou de lado personagens importantes, como os ex-escravizados. O Claude, por sua vez, acertou todos os fatos e se destacou entre os concorrentes.

Contratos jurídicos:

Na análise de contratos, a Meta AI e o ChatGPT falharam ao resumir partes complexas de contratos jurídicos. A Meta AI foi ainda mais criticada por ignorar seções essenciais. O Claude, no entanto, conseguiu oferecer um resumo detalhado e sugerir melhorias significativas em um contrato de locação, sendo elogiado como o mais próximo de um advogado, embora nenhum chatbot tenha alcançado uma pontuação perfeita.

Pesquisa médica:

Na análise de artigos científicos, os chatbots demonstraram um desempenho mais consistente, principalmente devido ao o a grandes bases de dados de artigos. O Claude foi novamente o melhor, com uma análise precisa de um estudo sobre covid longa. O Gemini, por outro lado, foi o mais criticado, pois omitiu informações importantes de um estudo sobre Parkinson.

Discursos políticos:

No quesito política, o ChatGPT se destacou por identificar corretamente informações, incluindo a veracidade das alegações de Trump sobre as eleições de 2020. No entanto, capturar o tom dos discursos de Trump foi uma tarefa difícil para todos os bots, com o Copilot falhando em transmitir a intensidade das falas do ex-presidente. A análise do ChatGPT, no entanto, foi a mais precisa.

Acompanhe tudo sobre:Inteligência artificial Chatbot ChatGPT Meta Google

Mais de Inteligência Artificial

Anthropic lança Claude Gov, modelos de IA personalizados para clientes da segurança nacional dos EUA

Mais na Exame

Carreira

Inteligência Artificial

Claude, ChatGPT, Copilot, Meta e Gemini: quem vence a batalha de chatbots?

Novo teste confirma que nenhuma das cinco ferramentas é perfeita para interpretação e formulação de texto

Desempenho dos chatbots nas diferentes categorias

Literatura:

Contratos jurídicos:

Pesquisa médica:

Discursos políticos:

Mais de Inteligência Artificial

Anthropic lança Claude Gov, modelos de IA personalizados para clientes da segurança nacional dos EUA

OpenAI recorre de decisão em caso movido pelo New York Times

OpenAI identifica operações chinesas com uso do ChatGPT para manipulação em redes sociais

Claude bate ChatGPT em teste de leitura complexa, mas IA ainda falha em análise e compreensão

Mais na Exame

Essas cinco dicas práticas são a chave para encontrar o estágio certo e crescer na carreira

4º Fórum Esfera: o setor produtivo está pronto para contribuir

Guns N' Roses anuncia cinco shows no Brasil em outubro e novembro; veja onde comprar ingressos

Após confronto contra Equador, Ancelotti revela qual é o 'maior problema' da seleção brasileira