Wolfram LLM Benchmarking Project

Como usuarios y analistas principales de la tecnología de modelos de lenguaje de gran tamaño (LLM) hemos monitoreado continuamente el rendimiento de los LLM. Este proyecto involucra la publicación de nuestros resultados en curso, inicialmente para una tarea de generación de código específica y bien caracterizada.

La tarea consiste de pasar de especificaciones en inglés a código de Wolfram Language. Los casos de prueba son ejercicios de Una Introducción Elemental a Wolfram Language, de Stephen Wolfram. Estos ejercicios han sido realizados en línea por millones de humanos, y hemos desarrollado herramientas efectivas para determinar la correctitud funcional del código, la cual ahora aplicamos a los LLM.

Esta tabla y sus versiones anteriores están disponibles en forma computable en Wolfram Data Repository.

Descubra cómo Wolfram Language puede mejorar sus resultados de LLM.

Para desarrolladores de LLM: contáctenos para obtener el conjunto de datos y las herramientas, o para que se incluya su LLM.

Más aprendizaje

Soporte técnico

Programas educativos para adultos

Programas educativos para jóvenes

Eventos

Iniciativas Wolfram

Recursos educativos

Pasatiempos y proyectos

Soluciones Wolfram

Soluciones Wolfram para la educación

Primeros pasos

Desarrolle sus habilidades

Trabaje con nosotros

Lectura

Programas educativos para adultos

Programas educativos para jóvenes

Eventos

Wolfram LLM
Benchmarking Project

Usamos Wolfram Language para evaluar el rendimiento de los LLM principales

Recursos relacionados: