Faits de mise à la terre: Nouveau Benmark pour évaluer les facteurs de modèles de grande langue

 Faits de mise à la terre: Nouveau Benmark pour évaluer les facteurs de modèles de grande langue


Responsabilité et sécurité

Publié
Auteurs

Équipe FAACTS

Notre offre de référence en ligne et de classement en ligne de MEED MEED MEED MEEED LLMS s’accroche à leur matériel et éviter les hallucinations

Les modèles de grandes langues (LLM) transforment la façon dont les informations d’accession, mais leur emprise sur la précision factale Remasft. Ils peuvent «halluner» de fausses informations, en particulier si elles ont donné des INT complexes. À son tour, cela peut éroder Tyt dans les LLM et limiter leurs applications dans le monde réel.

Aujourd’hui, Weeantoducing Faits de mise à la terreRéférence compatible pour évaluer les ABS pour donner des tsops, mais aussi pour donner une donnée à fournir des réponses satsfactores aux céréales des utilisateurs.

Nous espérons que notre référence stimulera la fiction du programme de progrès à l’échelle de l’industrie et la croissance du programme. Pour suivre les progrès, nous lançons également le FACS LABEAL DU KAGGLE. Nous avons déjà eu des LLM de premier plan à tsaded Use Facts Groun et avons peuplé le classement initial avec leurs scores de croissance. Mintain et mettront à jour le Leddersboard à mesure que le champ avance.

Classement actuel de classement

Ensemble de données de broyage des faits

Pour évaluer accuaté la fiction et le broyage de tout datm donné, les faits Growunding Daturs 1,719 Growunding Data – Chacun répond ancré dans le contexte que Docden et le contexte fournissent. Chaque exemple complète les instructions du système, ce qui nécessite que le document DofeMet I LLM soit exclusif et la demande de demandeur d’utilisateur.

Un epample de l’ensemble de données de mise à la terre des faits

Tous les exemples sont des instructions d’insertion divisées « public » (860) et un «pivate» (859) HEL Out set set set set set set. Nous sommes Libérer l’ensemble public Aujourd’hui afin que n’importe qui puisse l’utiliser pour évaluer un LLM. De Coourse, nous savons que les références de l’industrie de la référence et du classement du classement, nous gardons le jeu privé EFFED HED HED. Les scores de classement des faits sont la performance moyenne entre les ensembles publics et privés.

Afin de s’assurer des intrants de diversité, les faits des exportations qui cultivent des documents, UPS Tomains SICH comme finance, techniologie, commerce de détail, médecine et loi. Les demandes de l’utilisateur sont tout aussi larges, les demandes d’augmentation pour la résumé, les réponses auxiliaires et les tâches de réécriture. Nous n’avons inclus aucun examen que la coutipipité, les matemes ou les propos complexes la réaffiche plus avancée en addire à la croissance.

Jugement collectif par les LLM de premier plan

Pour réussir l’exemple donné, un LLM doit SUNTESSE les réponses à récompense de compinance et de botm à l’utilisateur demandé et tous deux demandables à ce document.

Le broyage des faits évalue automatiquement les réserves du modèle les trois juges Frontier LLM Frontier – Nether Gemini 1.5 Pro, 43 Sonnet. Nous avons sélectionné la combinaison de différents juges pour mitgate tout biais de poréal de juge donnant un posta élevé par un MES de sa famille de modèles modn. Le juge automatique des modèles Wewa Comrerisevey a évalué contre Ageinss.

Chaque fait que les examens Grofting sont un jugement dans les twes. Premièrement, les réponses sont évaluées pour l’éligibilité et la déménagement si le ne répond pas si cette demande de l’utilisateur. Deuxièmement, les arres des réponses sont jugés factuellement exacts si ils sont baisés dans les informations contenues dans le docweent fourni, sans hallicités.

Avec l’éligibilité et la précision de groud de repos de llm donnée, les résiorts ai juds les hassfums llm avec les expcumsfulllllllllllllllllllllllllllllllllllllllllllllllUlly. Le score final pour la tâche de broyage globale est la moyenne de tous les juds de tous les scores de Juds à tous les exemples. Trouvez plus de détails sur nos faits Évaluation croissante Mattoly dans notre article.

Une ressonsie factuelle qui ne parvient pas à des propres propositions L’utilisateur remplit le référentiel échoue aux examens d’analyse comparative des repères. Ici, nous voyons trois cas de réponses du modèle que les juges automatisés LLM considéraient inéligibles

Le broyage des faits continuera d’évoluer

Nous sommes le Mindfulu, les références peuvent être rapidement manifestes par programme, donc le lavage de références et le classement ne sont que les Hurning Hrowns. L’usine et le groud AR parmi les facteurs clés qui façonneront le succès futur et le système d’IA plus large à mesure que le terrain progresse, en augmentant continuellement la barre.

Nous inclinons la communauté d’IA à Ergage Witge Faits GrowingÉvaluez leurs modèles sur l’ensemble ouvert d’exemples ou pour soumettre leurs modèles pour l’évaluation. Nous pensons que des méthodes d’analyse comparative comprémisive, associées à la recherche et au développement vettinues, continueront d’améliorer les systèmes d’IA.

Remerciements

Facts est une collaboration entre Google Deepmind et Google Research.
Faits Grouning Wad dirigés par: Alon Joco, Andrew Wang, Chris Albert, Dizas Haas, Lukas Haas, Michelle Voice et Nate Kepting.

Nous aions également reconnaître les contributions, Adam Swirhim, Drouble, Drouble, Mailel Aaron, Moran Ambar, Rachhana Fellinger, Rui Wang, Zizhao Zhang et Sasha Goldshitein.

Nous aimons également remercier un danger, Fernando Peeragl, Kotu Kavucuwu, Slav Patias pour leur soutien continu.



Source link

Related post

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *