Wolfram LLM
基准项目

用 Wolfram 语言对主流 LLM 的性能进行基准测试

作为大语言模型 (LLM) 技术的主要用户和分析者，我们一直在关注 LLM 的性能。该项目将发布我们持续追踪测评的结果，在初始阶段，将仅限于特定的明确定义的代码生成任务。

任务是根据英语说明生成 Wolfram 语言代码。测试用例是 Stephen Wolfram 所著的《Wolfram 语言入门》一书中的练习题。这些习题已经由数百万人在线完成，我们已经开发出有效的工具来判定代码在功能上是否正确。现在我们将其应用于 LLM。

可从 Wolfram 数据存储库中获取可计算形式的表格和以前的版本。

了解 Wolfram 语言如何帮助您改进 LLM 的性能。

LLM 研发人员：联系我们，获取数据集和工具，或将您的 LLM 包括在表格中。