Wolfram LLM
基準專案

使用 Wolfram 語言對主要的大型語言模型表現進行基準測試

作為大語言模型（LLM）技術的主要使用者和分析者，我們一直在追蹤 LLM 的表現。這個專案包含發表我們正在進行的結果，最初是針對一個特定的特徵明確的程式碼產生任務。

此任務包括從英語規範到 Wolfram 語言代碼。測試案例是 Stephen Wolfram 的 Wolfram 語言基本介紹 中的練習題。這些練習已在線上由數百萬人完成，而且我們開發了有效工具來確定程式碼的功能正確性，現在正將其應用在 LLM 上。

此表格和先前的版本都可以在 Wolfram 資料儲存庫以可計算的形式提供。

查詢 Wolfram 語言 如何加强您的 LLM 結果。

針對 LLM 開發人員: 聯絡我們以取得資料集和工具，或安排包括納入您的 LLM。