L’analyse comparative générative avec | Le podcast Twiml AI

 L’analyse comparative générative avec | Le podcast Twiml AI


Dans cet épisode, Kelly Hong, chercheuse chez Chroma, se joint à nous pour discuter de «génération d’analyse comparative», une nouvelle approche pour évaluer les systèmes de récupération, comme les applications de chiffon, en utilisant des données synthétiques. Kelly explique comment les repères traditionnels comme le MTEB ne représentent pas les modèles de requête du monde réel et comment les modèles d’intégration qui fonctionnent bien sur les références publiques sous-performent souvent en production. La conversation explore le processus en deux étapes de l’analyse comparative générative: filtrage des documents pour se concentrer sur le contenu pertinent et générer des requêtes qui imitent le comportement réel de l’utilisateur. Kelly partage les informations de l’application de cette approche au bot de support technique des poids et biais, révélant comment l’évaluation spécifique au domaine fournit des évaluations plus précises des performances du modèle d’intégration. Nous discutons également de l’importance de l’alignement des juges LLM sur les préférences humaines, de l’impact des stratégies de chasse sur l’efficacité de la récupération et de la façon dont les requêtes de production diffèrent des requêtes de référence dans l’ambiguïté et le style. Tout au long de l’épisode, Kelly souligne la nécessité d’approches d’évaluation systématiques qui vont au-delà des «chèques d’ambiance» pour aider les développeurs à créer des applications de chiffon plus efficaces.



Source link

Related post