Wolfram LLM
Benchmarking Project
Usamos Wolfram Language para evaluar el rendimiento de los LLM principales
Como usuarios y analistas principales de la tecnología de modelos de lenguaje de gran tamaño (LLM) hemos monitoreado continuamente el rendimiento de los LLM. Este proyecto involucra la publicación de nuestros resultados en curso, inicialmente para una tarea de generación de código específica y bien caracterizada.
La tarea consiste de pasar de especificaciones en inglés a código de Wolfram Language. Los casos de prueba son ejercicios de Una Introducción Elemental a Wolfram Language, de Stephen Wolfram. Estos ejercicios han sido realizados en línea por millones de humanos, y hemos desarrollado herramientas efectivas para determinar la correctitud funcional del código, la cual ahora aplicamos a los LLM.
Esta tabla y sus versiones anteriores están disponibles en forma computable en Wolfram Data Repository.
Descubra cómo Wolfram Language puede mejorar sus resultados de LLM.
Para desarrolladores de LLM: contáctenos para obtener el conjunto de datos y las herramientas, o para que se incluya su LLM.