Wolfram LLM
基准项目
用 Wolfram 语言对主流 LLM 的性能进行基准测试
作为大语言模型 (LLM) 技术的主要用户和分析者,我们一直在关注 LLM 的性能。该项目将发布我们持续追踪测评的结果,在初始阶段,将仅限于特定的明确定义的代码生成任务。
任务是根据英语说明生成 Wolfram 语言代码。测试用例是 Stephen Wolfram 所著的《Wolfram 语言入门》一书中的练习题。 这些习题已经由数百万人在线完成,我们已经开发出有效的工具来判定代码在功能上是否正确。 现在我们将其应用于 LLM。
可从 Wolfram 数据存储库中获取可计算形式的表格和以前的版本。
了解 Wolfram 语言如何帮助您改进 LLM 的性能。
LLM 研发人员:联系我们,获取数据集和工具,或将您的 LLM 包括在表格中。