Novo teste confirma que nenhuma das cinco ferramentas é perfeita para interpretação e formulação de texto
Chatbot: quem vence a briga das IAs? (Freepik)
Da Redação

Redação Exame

Publicado em 6 de junho de 2025 às 14h17.

Última atualização em 6 de junho de 2025 às 14h36.

Uma competição entre cinco chatbots populares revela que, apesar de bons desempenhos, nenhum deles foi perfeito em entender e analisar diferentes tipos de textos.

Para Zuckerberg, substituir amigos humanos por inteligência artificial é o futuro

Veja também

Com a crescente popularidade da inteligência artificial, muita gente acredita que os chatbots podem se tornar assistentes poderosos, capazes de ler e resumir documentos complexos rapidamente. Mas um teste realizado pelo Washington Post colocou à prova a verdadeira capacidade de compreensão deles.

A tarefa era ler quatro tipos de textos distintos — literatura, pesquisa médica, contratos legais e discursos de Donald Trump — e responder a uma série de perguntas formuladas para testar a compreensão e análise das ferramentas. O desafio contou com cinco chatbots:ChatGPT, Claude, Copilot, Meta AI e Gemini.

Ao todo, foram 115 perguntas, e o desempenho foi analisado por especialistas, incluindo os próprios autores dos textos e cientistas. O resultado foi misto. Alguns bots demonstraram boas habilidades, enquanto outros falharam em aspectos cruciais, como precisão e compreensão contextual.

Entre os cinco, oClaudefoi o vencedor geral, com a pontuação mais alta de 69.9, e foi o único que não apresentou "alucinações" — quando a IA inventa informações. O ChatGPT ficou em segundo lugar com 68.4, e os outros três bots ficaram bem atrás, com pontuações abaixo de 50.

O Claude é feito pela empresa Anthropic, uma startup americana de inteligência artificial. Desenvolver modelos de IA para clientes do governo dos EUA faz parte da estratégia da empresa para conseguir fontes diversas e seguras de receita.

Desempenho dos chatbots nas diferentes categorias

Literatura:

No teste de literatura, o desempenho dos chatbots foi o pior. Nenhum deles conseguiu capturar todos os aspectos do romance A Amante do Chacal, de Chris Bohjalian. O Gemini foi o mais impreciso, cometendo erros graves, enquanto o ChatGPT fez um bom resumo geral, mas deixou de lado personagens importantes, como os ex-escravizados. O Claude, por sua vez, acertou todos os fatos e se destacou entre os concorrentes.

Contratos jurídicos:

Na análise de contratos, a Meta AI e o ChatGPT falharam ao resumir partes complexas de contratos jurídicos. A Meta AI foi ainda mais criticada por ignorar seções essenciais. O Claude, no entanto, conseguiu oferecer um resumo detalhado e sugerir melhorias significativas em um contrato de locação, sendo elogiado como o mais próximo de um advogado, embora nenhum chatbot tenha alcançado uma pontuação perfeita.

Pesquisa médica:

Na análise de artigos científicos, os chatbots demonstraram um desempenho mais consistente, principalmente devido ao o a grandes bases de dados de artigos. O Claude foi novamente o melhor, com uma análise precisa de um estudo sobre covid longa. O Gemini, por outro lado, foi o mais criticado, pois omitiu informações importantes de um estudo sobre Parkinson.

Discursos políticos:

No quesito política, o ChatGPT se destacou por identificar corretamente informações, incluindo a veracidade das alegações de Trump sobre as eleições de 2020. No entanto, capturar o tom dos discursos de Trump foi uma tarefa difícil para todos os bots, com o Copilot falhando em transmitir a intensidade das falas do ex-presidente. A análise do ChatGPT, no entanto, foi a mais precisa.

Acompanhe tudo sobre:Inteligência artificialChatbotChatGPTMetaGoogle
Próximo

Mais lidas

exame no whatsapp

Receba as notícias da Exame no seu WhatsApp

Inscreva-se
Desperta

Fique ligado

Nos acontecimentos mais relevantes do Brasil e mundo.

Inscreva-se agora

Mais de Inteligência Artificial

Mais na Exame