Claude, ChatGPT, Copilot, Meta e Gemini: quem vence a batalha de chatbots? | Exame

Uma competição entre cinco chatbots populares revela que, apesar de bons desempenhos, nenhum deles foi perfeito em entender e analisar diferentes tipos de textos.

Para Zuckerberg, substituir amigos humanos por inteligência artificial é o futuro

Veja também

O último striptease da internet: o futuro (sem humanos) da pornografia digital
Marisa Maiô: quem é a apresentadora de IA que viralizou nas redes sociais — e já fechou até 'publi'
Marisa Maiô, apresentadora de IA viral nas redes sociais, fecha publicidade com Magalu

Com a crescente popularidade da inteligência artificial, muita gente acredita que os chatbots podem se tornar assistentes poderosos, capazes de ler e resumir documentos complexos rapidamente. Mas um teste realizado pelo Washington Post colocou à prova a verdadeira capacidade de compreensão deles.

A tarefa era ler quatro tipos de textos distintos — literatura, pesquisa médica, contratos legais e discursos de Donald Trump — e responder a uma série de perguntas formuladas para testar a compreensão e análise das ferramentas. O desafio contou com cinco chatbots:ChatGPT, Claude, Copilot, Meta AI e Gemini.

Ao todo, foram 115 perguntas, e o desempenho foi analisado por especialistas, incluindo os próprios autores dos textos e cientistas. O resultado foi misto. Alguns bots demonstraram boas habilidades, enquanto outros falharam em aspectos cruciais, como precisão e compreensão contextual.

Entre os cinco, oClaudefoi o vencedor geral, com a pontuação mais alta de 69.9, e foi o único que não apresentou "alucinações" — quando a IA inventa informações. O ChatGPT ficou em segundo lugar com 68.4, e os outros três bots ficaram bem atrás, com pontuações abaixo de 50.

O Claude é feito pela empresa Anthropic, uma startup americana de inteligência artificial. Desenvolver modelos de IA para clientes do governo dos EUA faz parte da estratégia da empresa para conseguir fontes diversas e seguras de receita.

Desempenho dos chatbots nas diferentes categorias

Literatura:

No teste de literatura, o desempenho dos chatbots foi o pior. Nenhum deles conseguiu capturar todos os aspectos do romance A Amante do Chacal, de Chris Bohjalian. O Gemini foi o mais impreciso, cometendo erros graves, enquanto o ChatGPT fez um bom resumo geral, mas deixou de lado personagens importantes, como os ex-escravizados. O Claude, por sua vez, acertou todos os fatos e se destacou entre os concorrentes.

Contratos jurídicos:

Na análise de contratos, a Meta AI e o ChatGPT falharam ao resumir partes complexas de contratos jurídicos. A Meta AI foi ainda mais criticada por ignorar seções essenciais. O Claude, no entanto, conseguiu oferecer um resumo detalhado e sugerir melhorias significativas em um contrato de locação, sendo elogiado como o mais próximo de um advogado, embora nenhum chatbot tenha alcançado uma pontuação perfeita.

Pesquisa médica:

Na análise de artigos científicos, os chatbots demonstraram um desempenho mais consistente, principalmente devido ao o a grandes bases de dados de artigos. O Claude foi novamente o melhor, com uma análise precisa de um estudo sobre covid longa. O Gemini, por outro lado, foi o mais criticado, pois omitiu informações importantes de um estudo sobre Parkinson.

Discursos políticos:

No quesito política, o ChatGPT se destacou por identificar corretamente informações, incluindo a veracidade das alegações de Trump sobre as eleições de 2020. No entanto, capturar o tom dos discursos de Trump foi uma tarefa difícil para todos os bots, com o Copilot falhando em transmitir a intensidade das falas do ex-presidente. A análise do ChatGPT, no entanto, foi a mais precisa.

Veja também

Desempenho dos chatbots nas diferentes categorias

Literatura:

Contratos jurídicos:

Pesquisa médica:

Discursos políticos:

Mais lidas

Mais de Inteligência Artificial

Mais na Exame

Veja também

Desempenho dos chatbots nas diferentes categorias

Literatura:

Contratos jurídicos:

Pesquisa médica:

Discursos políticos:

Mais lidas

Fique ligado

Mais de Inteligência Artificial

Mais na Exame