Évaluation LLM basée sur les données avec tests statistiques

Auteur (s): Robert Martin-Short
Publié à l’origine sur Vers l’IA.
Aider les projets itératifs se déplacer dans la bonne direction.
Dans cet article, nous utiliserons un exemple simple pour montrer comment il est possible d’utiliser des techniques statistiques empiriques – à savoir les tests de permutation et de bootstrap – pour évaluer les résultats d’un LLM-Mépreuve et permettez la confiance dans toute déclaration d’amélioration faite. Il y a un compromis intéressant entre la rigueur et le coût ici, et les besoins de chaque projet seront probablement différents. Veuillez consulter ici pour le code associé à cet article.
En tant que candidats alimentés par Modèles de grande langue (LLMS) deviennent plus compliqués, en plusieurs étapes et autorisés à prendre des décisions importantes, l’évaluation de leurs résultats devient de plus en plus importante. L’évaluation est difficile en raison de la nature non déterministe des résultats des modèles génératifs, et du fait qu’il est souvent difficile de quantifier la qualité d’une sortie avec un score numérique. Contrairement aux plus traditionnels Mlil y a peu de conditions préalables liées aux données pour commencer avec un projet LLM, ce qui signifie qu’il est possible de devenir assez loin sans même penser à définir et à calculer des mesures. Néanmoins, une approche basée sur les métriques est importante pour une amélioration itérative significative et… Lisez le blog complet gratuitement sur Medium.
Publié via Vers l’IA