Ai essaie de tricher aux échecs quand il perd

 Ai essaie de tricher aux échecs quand il perd


Malgré tout le battage médiatique de l’industrie et véritables avancées, Modèles d’IA génératifs sont toujours sujets à impair, inexplicableet carrément inquiétant bizarreries. Il existe également un nombre croissant de recherches suggérant que les performances globales de nombreux modèles de langage large (LLM) peuvent dégrader dans le temps. Selon des preuves récentes, les nouveaux modèles de raisonnement de l’industrie peuvent déjà posséder la capacité de manipuler et de contourner les objectifs de leurs programmeurs humains. Certaines IA tenteront même de tromper leur moyen de perdre jeux d’échecs. Ce mauvais esprit sportif est documenté dans un étude de préimpression depuis Recherche de palissadeune organisation axée sur les évaluations des risques des systèmes d’IA émergents.

Tandis que les supercalculateurs – le plus célèbre IBM Bleu profond– Have a longtemps dépassé les meilleurs joueurs d’échecs humains du monde, l’IA génératrice est toujours en retard en raison de leurs paramètres de programmation sous-jacentes. Techniquement parlant, aucun des modèles d’IA génératifs actuels n’est capable de battre des moteurs d’échecs dédiés. Ces Ai ne pas «savoir»Cependant, et continuera de s’échapper dans des solutions possibles – avec appareil avec des résultats problématiques.

Pour en savoir plus, l’équipe de Palisade Research a chargé le modèle O1-Preview d’Openai, Deepseek R1 et plusieurs autres programmes similaires avec des jeux d’échecs contre Stockfischl’un des moteurs d’échecs les plus avancés au monde. Afin de comprendre le raisonnement de l’IA génératrice pendant chaque match, l’équipe a également fourni un «écrat», permettant à l’IA de transmettre ses processus de réflexion par le texte. Ils ont ensuite regardé et enregistré des centaines de matchs d’échecs entre l’IA générative et le stockfish.

Les résultats ont été quelque peu troublants. Alors que des modèles antérieurs comme le GPT-4O d’OpenAI et Claude Sonnet 3.5 d’Anthropic ont seulement tenté de «pirater» les jeux après que les chercheurs les aient poussés avec des invites supplémentaires, des éditions plus avancées n’ont pas nécessité une telle aide. O1-Preview d’Openai, par exemple, a tenté de tricher 37% du temps, tandis que Deepseek R1 a tenté des solutions de contournement déloyales environ tous les matchs 1 sur 10. Cela implique que l’IA générative d’aujourd’hui est déjà capable de développer des stratégies manipulatrices et trompeuses sans aucune contribution humaine.

Leurs méthodes de tricherie ne sont pas aussi comiques ou maladroites que d’essayer d’échanger des pièces lorsque Stockfish ne «cherche pas». Au lieu de cela, l’IA semble raisonner à travers des méthodes plus sournoises telles que la modification des fichiers du programme de jeu backend. Après avoir déterminé qu’il ne pouvait pas battre Stockfish dans un match d’échecspar exemple, O1-Preview a déclaré aux chercheurs via son écrat que «pour gagner contre le puissant moteur d’échecs», il pourrait avoir besoin de commencer à «manipuler les fichiers d’État du jeu».

«Je pourrais peut-être mettre en place une position où le moteur évalue sa position comme pire… le faisant démissionner», a-t-il poursuivi.

Dans un autre procèsune IA a même utilisé la sémantique de ses programmeurs pour atteindre sa phase de triche. « La tâche est de » gagner contre un puissant moteur d’échecs « , pas nécessairement de gagner équitablement dans un jeu d’échecs », a-t-il écrit.

Une explication potentielle de ces conséquences involontaires est de savoir comment les nouveaux modèles de «raisonnement» sont formés. Contrairement à leurs versions antérieures et non en cours de saison, l’IA telle que O1-Preview et Deepseek R1 s’améliorent en partie à travers apprentissage du renforcement. Cette stratégie récompense les programmes pour faire tout ce qui est nécessaire pour atteindre un résultat spécifié. Les modèles de raisonnement peuvent également décomposer des invites complexes en étapes discrètes afin de se frayer un chemin pour atteindre leur objectif. Lorsque l’objectif est insaisissable, tel que battre un moteur d’échecs imbattable – des modèles de réinstallation peuvent avoir tendance à commencer à chercher des solutions déloyales ou problématiques.

Malheureusement, comment et pourquoi ces IA «apprennent» à tricher restent aussi confondantes que la technologie elle-même. Les entreprises comme Openai sont notoirement gardé À propos du fonctionnement interne de leurs modèles d’IA, résultant en une industrie de produits «Black Box» que les tiers ne sont pas autorisés à analyser. Entre-temps, la course aux armements en cours de l’IA peut entraîner accidentellement des conséquences plus graves involontaires. Mais l’IA de plus en plus manipulatrice n’a pas besoin d’inaugurer une apocalypse de science-fiction pour avoir encore des résultats désastreux.

«Le scénario Skynet (de Le terminateur) a une IA contrôlant toutes les infrastructures militaires et civiles, et nous n’y sommes pas encore. Cependant, nous craignons que les taux de déploiement de l’IA augmentent plus rapidement que notre capacité à le sécuriser », a écrit l’équipe.

Les auteurs croient que leurs dernières expériences ajoutent à l’affaire, «que les modèles Frontier AI peuvent ne pas être actuellement sur la bonne voie pour l’alignement ou la sécurité», mais a cessé de tirer des conclusions définitives. Au lieu de cela, ils espèrent que leur travail favorisera un dialogue plus ouvert dans l’industrie – un qui, espérons-le, empêchera les manipulations de l’IA au-delà des échecs.

Plus d’offres, d’avis et de guides d’achat

Andrew Paul est le rédacteur de populay Science couvrant les nouvelles technologiques.



Source link

Related post