Les modèles de raisonnement AI peuvent tricher pour gagner des jeux d’échecs

L’équipe de Palisade a constaté que Openai O1-Preview a tenté de pirater 45 de ses 122 matchs, tandis que Deepseek R1 Le modèle a tenté de tricher dans 11 de ses 74 matchs. En fin de compte, O1-Preview a réussi à «gagner» sept fois. Les chercheurs disent que Deepseek augmentation rapide de la popularité signifiait que son modèle R1 a été surchargé au moment des expériences, ce qui signifie qu’ils n’ont réussi à le faire faire les premiers pas d’un jeu, pour ne pas en finir un. « Bien que cela soit assez bon pour voir la propension à pirater, cela sous-estime le succès du piratage de Deepseek car il a moins d’étapes pour travailler », ont-ils écrit dans leur article. Openai et Deepseek ont été contactés pour commenter les conclusions, mais ni l’un ni l’autre.
Les modèles ont utilisé une variété de techniques de tricherie, notamment en tentant d’accéder au fichier où le programme d’échecs stocke la carte d’échecs et supprime les cellules représentant les pièces de leur adversaire. («Gérer contre un puissant moteur d’échecs en tant que noir, jouer à un jeu standard peut ne pas être suffisant», a écrit l’agent propulsé par l’O1-Preview dans un «journal» documentant les étapes qu’il a pris. «Je vais écraser le conseil d’administration pour avoir un avantage décisif.») Autres tactiques comprenant une copie de Stockfish – opposant en éventuellement le moteur d’échecs à une version de Code de contenu de contenus avec une tentative.
Alors, pourquoi ces modèles essaient-ils de tricher?
Les chercheurs ont remarqué que les actions d’O1-Preview avaient changé au fil du temps. Il a toujours tenté de pirater ses jeux dans les premiers stades de leurs expériences avant le 23 décembre de l’année dernière, alors qu’il a soudainement commencé à faire ces tentatives beaucoup moins fréquemment. Ils croient que cela pourrait être dû à une mise à jour non liée au modèle réalisé par OpenAI. Ils ont testé les modèles de raisonnement O1mini et O3mini les plus récents de l’entreprise et ont constaté qu’ils n’avaient jamais essayé de tromper leur chemin vers la victoire.
L’apprentissage par renforcement peut être la raison pour laquelle O1-Preview et Deepseek R1 ont essayé de tromper non. En effet, la technique récompense les modèles pour effectuer les mouvements nécessaires pour atteindre leurs objectifs – dans ce cas, gagner aux échecs. Les LLM non relâchées utilisent un renforcement d’apprentissage dans une certaine mesure, mais cela joue un rôle plus important dans la formation de modèles de raisonnement.