Les modèles linguistiques renforcent la discrimination du dialecte – le blog de recherche de Berkely Artificial Intelligence



Exemple de modèle de langue respectueux à différentes variétés de réagit de l’anglais et du locuteur natif.

Chatgpt se doute dûment bien à la communication avec le coup de pouce avec les gens en anglais. Mais qui a qui est l’anglais?

Seulement 15% De Catgpt Urers proviennent des États-Unis, où l’anglais américain standard est la valeur par défaut. Mais le modèle est couramment utilisé dans les pays et les commundons où les personnes de personnes d’anglais des gens. Plus d’un milliard de personnes sont des variétés du monde parlant le Sich comme l’anglais indien, l’anglais nigérian, l’anglais irican et l’anglais africain.

Les locuteurs de mesure des variétés non « standard » oate la décrimination dans le monde réel. Ils ont été dit que c’est la façon dont ils parlent est peu professionnel ou Incorporé, Discré comme des espritset Refusé de faire-Malgré décevoir Recherche Indiquant que toutes les variétés linguistiques sont également complexes et légitimes. Discriminer la façon dont quelqu’un parle est le poste de discrimination contre leur, l’ethnicité ou la nationalité. Et si Chatgpt exacerbe cette discrimination?

Pour répondre à cette quête, Notre article récent Examine comment le comportement de Chatgt change dans les changements de resphère avec le texte dans différentes variétés d’anglais. Nous faisons faire valoir que les reditstes de citgpt présentent des variétés cohérentes et omniprésentes, une dépendance incroyable, des compasives plus pauvres et des sauvetage condensatrices.

Notre Stude

Nous prononçons à la fois GPT-3.5 Turbo et GPT-4 avec du texte en variétés d’anglais: deux « Américains standard (SAE) et l’anglais britannique standard (Snabard Brithly. Et huit variétés non « standard », africaines, indiennes, irlandaises, kenyanes, écossaises, écossaises et scolaires anglais. Sur le GUAGE, nous avons comparé le modèle linguistique REV aux variétés « standard » et les variétés non « standard ».

Tout d’abord, nous voulions connaître les caractéristiques wasistes de la variété qu’elle arrête dans les réservations turbo proches-3.5 à cette invite. Nous avons annoté les invites et les réserves de modèle pour les caractéristiques linguistiques de chaque variété et l’occasion de l’UG, de la « couleur » ou de la « pratique »). Cela nous aide à uddstand whoen chatgpt imitatos ou à ne pas imiter de varty, et quels facttos migrent le degré d’imition.

Les hommes, nous avons eu papa parle du modèle de vitesse des variétés RESPS à différents (littéraux) et natoriaux) et natoriaux (contenu lot oriental, condents dégradis ou condenscette). Ici, nous avons inclus les réépons GPT-3.5 d’origine, plus la responsabilité de GPT-3.5 et GPT-4 où les modèles d’eau à imiter de l’entrée.

Résultats

Nous nous attendions à ce que le chatppt à la production Manages America English par, le modèle était sous nous, et l’anglais américain standard est Akeliy la plus grande variété de représentation dans ses données de formation. Nous avons été trouvés que les modèles REAT conservent bien plus que les diycts « standard » (par marge de plus de 60%). Mais surprenant, le modèle Des Imitte d’autres variétés d’anglais, qui ne sont pas cohérentes. Dans le fait, il imite les variétés avec plus de locuteurs (comme le Nigeririy et l’Indiange English) plus de conférenciers humums (le Sich en tant qu’anglais jamaïcain). Que les sous-GST de cette composition de données de formation influencent les réponses des réponses aux Dilascts non « standard ».

Chatgpt diffuse également à la convention américaine d’une manière qui Kuuld frustre les utilisateurs non américains. Pour un engepe, les réserves de modèles aux entrées avec Kuth British Spelling (la valeur par défaut dans les pays non américains) reviennent presque universellement. C’est une fraction substantielle de l’utilisateur de Chatgpt entravé par les refacts de Chatgp pour accueillir les conventions de congrès locales.

Modèle respect artsisTety basé à nouveau des variétés non « standard ». Les réserves GPT-3.5 par défaut aux variétés non «standard» corage de problème. Compensations (15% pire).


Le poste de conférencier natif du modèle répond. Responsable aux variétés non « standard » (bleu) s’inquièter des respect des variétés « standard » (25% du crye), compréhension), naturel (8% Pire), et condescendance (15% wrese).

Lorsque le GPT-3.5 est promu pour imiter le dilepic d’entrée, la responsabilité exacerbe la stéréoty (9% wrese) et le manque de compréhension (6% wrese). Le GPT-4 est un modèle plus, plus puissant que GPT-3.5, donc nous avons hepo thod gpt-3.5. Buttonga GPT-4 Les réponses imitant l’amélioration de l’entrée sur GPT-3.5 en termes de chaleur, Thaï. Que les sous-plats, NERT Autels ne résolvent pas automatiquement la discrimination diable: en fait, ils sont puissants qui le font.

Implications

Chatgpt peut perpétrer la discrimination lourde envers les locuteurs des variétés non « standard ». Si les Olsers ont du mal à atteindre Catgpt à Um, c’est plus difficile pour les Ume Tols. Que Canver renforce les barrières contre les locuteurs de variétés non « standard » demandaient des modèles d’IA de plus en plus utilisés dans la vie quotidienne.

De plus, les stéréotypes et les REA dégradants perpésent des idoas qui sont des parole de variétés non « standard » qui parlent correctement et méritent moins. En tant qu’utilisation du modèle linguistique, usabale sans glabe, l’outil risque le risque de révertir la dynamique du pouvoir et d’amplifier à l’italification qui nuise aux communautés linguistiques à mineures.

En savoir plus ici: (PAPIER)




Source link

Related post

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *