Wolfram LLM
ベンチマークプロジェクト
Wolfram言語を使って主要な大規模言語モデル(LLM)の性能を評価する
Wolframは,LLMテクノロジーのユーザとしてまた解析者として,継続的にLLMの性能を追跡しています.このプロジェクトでは,まずよく特徴付けられた特定のコード生成タスクについて進行中の調査の結果を公開します.
このタスクでは英語で指定したものをWolfram言語コードに変換します. テストにはStephen Wolframの「An Elementary Introduction to the Wolfram Language」の練習問題を使います. これらの練習問題はオンラインで何百万人もの人によって利用されており,Wolframはコードの機能的な正確性を確かめるための効率的なツールを開発してきました.これをLLMに適用しています.
このベンチマークの結果は,Wolfram Data Repositoryで計算可能な形式で利用できます.
Wolfram言語でお使いのLLMの結果を向上させる方法をご覧ください.
LLM開発者の方へ: データセットやツールについてご質問がおありの場合や,お客様のLLMをこのベンチマークプロジェクトに含めることをご希望の場合はこちらまでお問い合せください.