Wolfram LLM
基準專案
使用 Wolfram 語言對主要的大型語言模型表現進行基準測試
作為大語言模型(LLM)技術的主要使用者和分析者, 我們一直在追蹤 LLM 的表現。這個專案包含發表我們正在進行的結果, 最初是針對一個特定的特徵明確的程式碼產生任務。
此任務包括從英語規範到 Wolfram 語言代碼。 測試案例是 Stephen Wolfram 的 Wolfram 語言基本介紹 中的練習題。 這些練習已在線上由數百萬人完成,而且我們開發了有效工具來確定程式碼的功能正確性, 現在正將其應用在 LLM 上。
此表格和先前的版本都可以在 Wolfram 資料儲存庫以可計算的形式提供。
查詢 Wolfram 語言 如何 加强您的 LLM 結果。
針對 LLM 開發人員: 聯絡我們 以取得資料集和工具,或安排包括納入您的 LLM。