WOLFRAM

Wolfram LLM
基准项目

用 Wolfram 语言对主流 LLM 的性能进行基准测试

作为大语言模型 (LLM) 技术的主要用户和分析者,我们一直在关注 LLM 的性能。该项目将发布我们持续追踪测评的结果,在初始阶段,将仅限于特定的明确定义的代码生成任务。

任务是根据英语说明生成 Wolfram 语言代码。测试用例是 Stephen Wolfram 所著的《Wolfram 语言入门》一书中的练习题。 这些习题已经由数百万人在线完成,我们已经开发出有效的工具来判定代码在功能上是否正确。 现在我们将其应用于 LLM。

可从 Wolfram 数据存储库中获取可计算形式的表格和以前的版本。

了解 Wolfram 语言如何帮助您改进 LLM 的性能

LLM 研发人员联系我们,获取数据集和工具,或将您的 LLM 包括在表格中。