Ranking de Inteligências Artificiais – Em um cenário dominado pelo avanço acelerado da Inteligência Artificial, um recente estudo se propôs a decifrar a eficácia de algumas das mais renomadas ferramentas do mercado. E se você já se perguntou qual dessas tecnologias é a mais avançada ou qual enfrenta mais desafios, a resposta pode estar mais próxima do que imagina.

O teste realizado pelo grupo de pesquisadores da Arthur AI avaliou diversas inteligências artificiais, como Llama 2, Cohere, GPT-4 e Claude 2, revelando quais tinham o melhor e o pior desempenho. Foto: divulgação

Quais as melhores inteligências artificiais?

O ambiente competitivo da Inteligência Artificial tem nomes como Meta, OpenAI, Cohere e Anthropic liderando a vanguarda. Contudo, uma investigação realizada pela Arthur AI, focando especialmente na análise de cobertura de respostas e nas inconsistências identificadas como “alucinações”, buscou estabelecer um panorama mais claro do desempenho dessas tecnologias. O estudo, segundo o portal da Arthur AI, examinou as fortalezas e vulnerabilidades dos modelos de linguagem oferecidos por titãs do setor, além de outras soluções de código aberto.

Em uma entrevista à CNBC, Adam Wenchel, fundador e CEO da Arthur, ressaltou a relevância do estudo. Ele mencionou que esta foi uma das primeiras iniciativas a oferecer uma compreensão ampla das taxas de alucinação desses modelos, em oposição a apenas compartilhar uma métrica isolada que determinaria a posição deles em um ranking específico.

Para a realização desse estudo, os modelos Llama 2 da Meta, Cohere, GPT-4, empregado pelo ChatGPT da OpenAI, e Claude 2 da Anthropic foram submetidos a um conjunto rigoroso de questões. Estas abordaram tópicos complexos, desde matemática combinatória até questões relacionadas a presidentes norte-americanos e líderes políticos marroquinos.

Contrastes significativos

Os resultados mostraram contrastes significativos entre as ferramentas avaliadas. A tecnologia de Inteligência Artificial da Cohere foi apontada como aquela com desempenho menos satisfatório. Tal constatação não passou despercebida pela empresa, que rapidamente respondeu por meio de um porta-voz. Segundo declarações recolhidas pela CNBC, o porta-voz sublinhou que a “tecnologia de geração aumentada de recuperação da Cohere, que estava ausente do modelo testado, é altamente eficiente em fornecer citações verificadas, permitindo que as empresas confirmem fontes de informação”.

Por outro lado, o GPT-4 do ChatGPT, uma criação da OpenAI, destacou-se de forma positiva. Os pesquisadores concluíram que essa tecnologia apresentava um índice menor de alucinações se comparado ao seu antecessor, o GPT-3.5. Wenchel, ao comentar sobre a importância dos achados do estudo, salientou que é crucial entender os modelos em relação ao propósito específico para o qual são empregados, bem como “compreender como funcionam para o que estão tentando alcançar”.

Este estudo, sem dúvida, é um marco no campo da Inteligência Artificial. Enquanto a tecnologia avança, a busca contínua por transparência e eficácia se torna cada vez mais crucial. A medida que essas ferramentas desempenham papéis mais significativos em diversos setores, desde o entretenimento à medicina, a necessidade de estudos robustos e imparciais como este da Arthur AI se torna cada vez mais evidente.

