Wolfram LLM
Benchmarking-Projekt
Mit Wolfram Language die Leistung von großen LLMs testen
Da wir Large Language Model (LLM)-Technologie stark nutzen und analysieren, verfolgen wir die Leistung von LLMs kontinuierlich. In diesem Projekt veröffentlichen wir unsere laufenden Ergebnisse, zunächst für eine spezifische, wohldefinierte Aufgabe zur Codegenerierung.
Die Aufgabe besteht darin, von englischsprachigen Spezifikationen zu Wolfram Language-Code zu gelangen. Die Testfälle sind Übungen aus Stephen Wolframs An Elementary Introduction to the Wolfram Language. Diese Übungen wurden online von Millionen von Menschen durchgeführt. Zudem haben wir effektive Werkzeuge zur Bestimmung der funktionalen Korrektheit von Code entwickelt, die wir nun auf LLMs anwenden.
Diese Tabelle und frühere Versionen sind in berechenbarer Form im Wolfram Data Repository verfügbar.
So kann Wolfram Language Ihre LLM-Ergebnisse verbessern.
Für LLM-Entwickler: Kontaktieren Sie uns, um den Datensatz und die Tools zu erhalten oder um Ihr LLM miteinzubeziehen.