Cet ensemble de données aide les chercheurs à repérer des stéréotypes nocifs dans les LLM

«J’espère que les gens utilisent (les nuances) comme un outil de diagnostic pour identifier où et comment il pourrait y avoir des problèmes dans un modèle», explique Talat. « C’est une façon de savoir ce qui manque à un modèle, où nous ne pouvons pas être convaincus qu’un modèle fonctionne bien, et s’il est exact ou non. »
Pour créer l’ensemble de données multilingues, l’équipe a recruté des orateurs natifs et courants de langues, notamment l’arabe, le chinois et le néerlandais. Ils ont traduit et noté tous les stéréotypes auxquels ils pourraient penser dans leurs langues respectives, qu’un autre locuteur natif a ensuite vérifié. Chaque stéréotype a été annoté par les haut-parleurs avec les régions dans lesquelles il a été reconnu, le groupe de personnes qu’il a ciblé et le type de biais qu’il contenait.
Chaque stéréotype a ensuite été traduit en anglais par les participants – une langue parlée par chaque contributeur – avant de la traduire en langues supplémentaires. Les orateurs ont ensuite noté si le stéréotype traduit était reconnu dans leur langue, créant un total de 304 stéréotypes liés à l’apparence physique des gens, à l’identité personnelle et aux facteurs sociaux comme leur occupation.
L’équipe est due à présenter Ses résultats Lors de la conférence annuelle des nations des Amériques de l’Association for Computational Linguistics en mai.
«C’est une approche passionnante», explique Myra Cheng, un doctorant à l’Université de Stanford qui étudie les préjugés sociaux dans l’IA. «Il y a une bonne couverture de différentes langues et cultures qui reflètent leur subtilité et leur nuance.»
Mitchell dit qu’elle espère que d’autres contributeurs ajouteront de nouvelles langues, stéréotypes et régions aux nuances, qui est accessible au publicconduisant au développement de meilleurs modèles de langage à l’avenir. «Cela a été un effort de collaboration massif de personnes qui veulent aider à faire une meilleure technologie», dit-elle.