L’un des agents de l’IA les plus avancés au monde est complètement coincé en essayant de battre un jeu Pokémon pour les enfants

 L’un des agents de l’IA les plus avancés au monde est complètement coincé en essayant de battre un jeu Pokémon pour les enfants


Au cas où vous ne l’auriez pas entendu, Anthropic a été en direct de son modèle AI, Claude 3.7 Sonnet, tentant de Terminez un jeu de Pokémon Red.

L’expérience, surnommée « Claude joue Pokémon« est destiné à être une démonstration de »Agents d’IA«La race continue de l’industrie pour créer des modèles d’IA qui sont capables de fonctionner de manière autonome en interagissant avec leur environnement.

Claude a réussi à devenir étonnamment loin dans le jeu, en décrochant trois badges de gym et en atteignant, à partir de cette semaine, Cerulean City. Mais il marche à un rythme minutieusement lent, s’arrêtant pour « penser » après chaque mouvement, parfois pour des intervalles plus longs que les autres. Pour Près de 80 heures angoissantespar exemple, Claude s’est retrouvé sans aucune entrave autour du mont Moon, avant de finalement trouver l’échelle dont il avait besoin pour s’échapper. Les téléspectateurs de Twitch investis ont poussé un soupir de soulagement.

Les progrès ne semblent pas prêts à accélérer. L’excursion de l’IA anthropique à travers la région de Kanto s’est principalement consacrée à courir en rond, incertaine de son prochain mouvement. Il doit sauter sur la route 5 pour atteindre la prochaine étape, mais où et comment?

Une fenêtre de texte dans le flux en direct du processus de réflexion de Claude montre que l’IA utilise un processus d’élimination pour exclure quels emplacements ne pas l’entrée de la route 5. Mais va-t-il reconstituer qu’il doit utiliser le HM « Cut » sur quelques arbres destructibles pour accéder au chemin légendaire? Cela ne semble pas probable: il continue de répéter comment il doit trouver la « passerelle » à la place.

En bref, Claude est coincé. L’un des principaux modèles de l’industrie de l’IA pourrait bien être perplexe par un jeu Cela a été battu par des enfants littéraux depuis des générations.

Selon les ingénieurs, un défi majeur pour Claude est de traiter visuellement ce qu’il voit dans le jeu. Claude excelle à interpréter les parties basées sur le texte du jeu, y compris les batailles Pokémon. Il a également accès au RAM du jeu pour glaner des informations comme ses coordonnées en jeu. Mais il ne peut pas interpréter régulièrement le minuscule Nombre de pixels qui composent son environnement basse résolution.

« Claude n’est toujours pas particulièrement bon pour comprendre ce qui est à l’écran », David Hershey, l’ingénieur anthropique derrière l’expérience Pokémon, dit ARS TECHNICA Dans une interview récente. « Vous verrez qu’il tente de marcher dans les murs tout le temps. » Ironiquement, Hershey suggère, si Claude jouait un jeu plus réaliste visuellement, cela pourrait faire mieux.

« C’est assez facile pour moi de comprendre que (un jeu en jeu) est un bâtiment et que je ne peux pas traverser un bâtiment », a ajouté Hershey. « Et c’est (quelque chose) qui est assez difficile à comprendre pour Claude. »

Il y a des moments, cependant, lorsque Claude est étonnamment intelligent, comme répondre aux indices en jeu conçus pour être trompeurs.

« C’est assez drôle qu’ils vous disent que vous devez aller trouver le professeur Oak à côté et puis il n’est pas là », a déclaré Hershey ARSdécrivant l’une des premières missions du jeu. « À l’âge de 5 ans, c’était très déroutant pour moi. Mais Claude passe généralement par ce même ensemble de mouvements où il parle à maman, va au laboratoire, ne trouve pas (chêne), dit: » J’ai besoin de comprendre quelque chose. «  »

« C’est suffisamment sophistiqué pour passer par les mouvements du chemin (les humains sont) censés l’apprendre aussi », a ajouté Hershey.

Alors peut-être que tout n’est pas encore perdu. Il y a encore beaucoup de temps pour que Claude 3.7 Sonnet renvoie les choses. Il est devenu beaucoup plus loin que son Sonnet de prédécesseur 3.0, qui ne pouvait même pas sortir de Pallet Town, la zone de départ du jeu. Pourtant, ses difficultés montrent que la technologie a encore un long chemin à parcourir pour être «agentique», sans parler de sa promesse de dépasser un jour les capacités humaines.

Plus sur les jeux: Acteur de voix pour Aloy dans les jeux « Horizon » effacés par la version AI de son personnage



Source link

Related post