Des invites aux politiques: comment RL construit de meilleurs agents d’IA avec

Aujourd’hui, nous sommes rejoints par Mahesh Sathiamoorthy, co-fondateur et PDG de Bespoke Labs, pour discuter de la façon dont l’apprentissage du renforcement (RL) remodèle la façon dont nous construisons des agents personnalisés en plus des modèles de fondation. Mahesh met en évidence le rôle crucial de la conservation des données, de l’évaluation et de l’analyse des erreurs dans les performances du modèle, et explique pourquoi RL offre une alternative plus robuste à l’incitation, et comment elle peut améliorer les capacités d’utilisation des outils en plusieurs étapes. Nous explorons également les limites du réglage fin supervisé (SFT) pour les tâches de raisonnement auprès de l’outil, les stratégies de récompense qu’ils ont utilisées et les bibliothèques open-source de Betpoke Labs comme le conservateur. Nous abordons également les modèles Minicheck pour la détection des hallucinations et Minichart pour l’AQ basée sur les graphiques.