Wolfram LLM Benchmarking-Projekt

Da wir Large Language Model (LLM)-Technologie stark nutzen und analysieren, verfolgen wir die Leistung von LLMs kontinuierlich. In diesem Projekt veröffentlichen wir unsere laufenden Ergebnisse, zunächst für eine spezifische, wohldefinierte Aufgabe zur Codegenerierung.

Die Aufgabe besteht darin, von englischsprachigen Spezifikationen zu Wolfram Language-Code zu gelangen. Die Testfälle sind Übungen aus Stephen Wolframs An Elementary Introduction to the Wolfram Language. Diese Übungen wurden online von Millionen von Menschen durchgeführt. Zudem haben wir effektive Werkzeuge zur Bestimmung der funktionalen Korrektheit von Code entwickelt, die wir nun auf LLMs anwenden.

Diese Tabelle und frühere Versionen sind in berechenbarer Form im Wolfram Data Repository verfügbar.

So kann Wolfram Language Ihre LLM-Ergebnisse verbessern.

Für LLM-Entwickler: Kontaktieren Sie uns, um den Datensatz und die Tools zu erhalten oder um Ihr LLM miteinzubeziehen.

Weitere Angebote im Bereich Lernen

Technischer Support

Erwachsenenbildung

Bildungsprogramme für Jugendliche

Veranstaltungen

Wolfram-Initiativen

Unterrichtsressourcen

Hobbies & Projekte

Wolfram-Lösungen

Wolfram-Lösungen für den Bildungsbereich

Los geht's'

Erweitern Sie Ihre Kompetenzen

Arbeiten Sie mit uns

Lesen

Erwachsenenbildung

Bildungsprogramme für Jugendliche

Veranstaltungen

Wolfram LLM
Benchmarking-Projekt

Mit Wolfram Language die Leistung von großen LLMs testen

Verwandte Ressourcen: