Chatbot: quem vence a briga das IAs? (Freepik)
Redação Exame
Publicado em 6 de junho de 2025 às 14h17.
Última atualização em 6 de junho de 2025 às 14h36.
Uma competição entre cinco chatbots populares revela que, apesar de bons desempenhos, nenhum deles foi perfeito em entender e analisar diferentes tipos de textos.
Para Zuckerberg, substituir amigos humanos por inteligência artificial é o futuro
Com a crescente popularidade da inteligência artificial, muita gente acredita que os chatbots podem se tornar assistentes poderosos, capazes de ler e resumir documentos complexos rapidamente. Mas um teste realizado pelo Washington Post colocou à prova a verdadeira capacidade de compreensão deles.
A tarefa era ler quatro tipos de textos distintos — literatura, pesquisa médica, contratos legais e discursos de Donald Trump — e responder a uma série de perguntas formuladas para testar a compreensão e análise das ferramentas. O desafio contou com cinco chatbots: ChatGPT, Claude, Copilot, Meta AI e Gemini.
Ao todo, foram 115 perguntas, e o desempenho foi analisado por especialistas, incluindo os próprios autores dos textos e cientistas. O resultado foi misto. Alguns bots demonstraram boas habilidades, enquanto outros falharam em aspectos cruciais, como precisão e compreensão contextual.
Entre os cinco, o Claude foi o vencedor geral, com a pontuação mais alta de 69.9, e foi o único que não apresentou "alucinações" — quando a IA inventa informações. O ChatGPT ficou em segundo lugar com 68.4, e os outros três bots ficaram bem atrás, com pontuações abaixo de 50.
O Claude é feito pela empresa Anthropic, uma startup americana de inteligência artificial. Desenvolver modelos de IA para clientes do governo dos EUA faz parte da estratégia da empresa para conseguir fontes diversas e seguras de receita.
No teste de literatura, o desempenho dos chatbots foi o pior. Nenhum deles conseguiu capturar todos os aspectos do romance A Amante do Chacal, de Chris Bohjalian. O Gemini foi o mais impreciso, cometendo erros graves, enquanto o ChatGPT fez um bom resumo geral, mas deixou de lado personagens importantes, como os ex-escravizados. O Claude, por sua vez, acertou todos os fatos e se destacou entre os concorrentes.
Na análise de contratos, a Meta AI e o ChatGPT falharam ao resumir partes complexas de contratos jurídicos. A Meta AI foi ainda mais criticada por ignorar seções essenciais. O Claude, no entanto, conseguiu oferecer um resumo detalhado e sugerir melhorias significativas em um contrato de locação, sendo elogiado como o mais próximo de um advogado, embora nenhum chatbot tenha alcançado uma pontuação perfeita.
Na análise de artigos científicos, os chatbots demonstraram um desempenho mais consistente, principalmente devido ao o a grandes bases de dados de artigos. O Claude foi novamente o melhor, com uma análise precisa de um estudo sobre covid longa. O Gemini, por outro lado, foi o mais criticado, pois omitiu informações importantes de um estudo sobre Parkinson.
No quesito política, o ChatGPT se destacou por identificar corretamente informações, incluindo a veracidade das alegações de Trump sobre as eleições de 2020. No entanto, capturar o tom dos discursos de Trump foi uma tarefa difícil para todos os bots, com o Copilot falhando em transmitir a intensidade das falas do ex-presidente. A análise do ChatGPT, no entanto, foi a mais precisa.