Projet d'évaluation comparative
des LLM de Wolfram
Utilisation de Wolfram Language pour évaluer les performances des principaux LLM
Nous sommes les principaux utilisateurs et analystes de la technologie des grands modèles de langage (LLM) et nous suivons en permanence les performances des LLM. Ce projet implique la publication de nos résultats en cours, initialement pour une tâche spécifique de génération de code bien caractérisée.
Cette tâche consiste à passer de spécifications en langue anglaise à un code en Wolfram Language. Les tests sont des exercices tirés de l'ouvrage An Elementary Introduction to the Wolfram Language de Stephen Wolfram. Ces exercices ont été réalisés en ligne par des millions de personnes et nous avons développé des outils efficaces pour déterminer la correction fonctionnelle du code, que nous appliquons maintenant aux LLM.
Ce tableau et les versions précédentes sont disponibles sous forme calculable dans Wolfram Data Repository.
Découvrez comment Wolfram Language peut améliorer vos résultats de LLM.
Pour les développeurs de LLM : contactez-nous pour obtenir le jeu de données et les outils ou pour faire en sorte que votre LLM soit inclus.