Wolfram LLM
벤치마킹 프로젝트
Wolfram 언어를 사용하여 주요 대규모 언어 모델 (LLM)의 성능 평가
Wolfram은 LLM 기술의 주요 사용자이자 분석자로서 지속적으로 LLM의 성능을 추적해 왔습니다. 이 프로젝트는 특성화된 특정 코드 생성 작업에 대한 진행중인 조사 결과의 공개를 포함합니다.
이 작업은 영어로 지정된 사양을 Wolfram 언어 코드로 변환합니다. 테스트를 위해 Stephen Wolfram의 An Elementary Introduction to the Wolfram Language에서 발취한 연습 문제를 사용합니다. 이러한 연습 문제는 수백만 명이 온라인에서 사용하고 있으며, Wolram은 코드의 기능적 정확성을 판별하기 위한 효과적인 도구를 개발했으며, 이제 이를 LLM에 적용하고 있습니다.
이 벤치마크 결과는 Wolfram Data Repository에서 계산 가능한 형식으로 사용할 수 있습니다.
Wolfram 언어에서 LLM의 결과를 개선하는 방법을 알아보세요.
LLM 개발자에게: 데이터세트와 도구에 대해 궁금한 점이 있거나 자신의 LLM을 이 벤치마크 프로젝트에 포함하려는 경우 여기로 문의하세요.