WOLFRAM

Wolfram LLM
Projeto de Avaliação
do Desempenho

Usando a Wolfram Language para avaliar o desempenho dos principais LLMs

Como usuários principais e analistas da tecnologia de grandes modelos de linguagem (LLM), temos monitorado continuamente o desempenho de LLMs. Este projeto envolve a liberação de nossos resultados em andamento, inicialmente para uma tarefa específica e bem caracterizada de geração de código.

A tarefa consiste em converter especificações em inglês para código em Wolfram Language. Os casos de teste são exercícios do livro An Elementary Introduction to the Wolfram Language de Stephen Wolfram. Esses exercícios foram realizados online por milhões de pessoas, e desenvolvemos ferramentas eficazes para determinar a correção funcional do código, que agora estamos aplicando aos LLMs.

Esta tabela e versões anteriores estão disponíveis em formato computável no Wolfram Data Repository.

Saiba como a Wolfram Language pode aprimorar seus resultados com LLMs.

Para desenvolvedores de LLMs: Entre em contato conosco para obter o conjunto de dados e as ferramentas ou para coordenar a inclusão de seu LLM.