Modèles mondiaux – AI qui rêve… (et jouent à des jeux) | par Ryan ye min thein | Juin 2025

 Modèles mondiaux – AI qui rêve… (et jouent à des jeux) | par Ryan ye min thein | Juin 2025


Lorsque vous dites l’IA, nous avions l’habitude de penser aux robots. AIS prenant le contrôle du monde, ou du moins des robots qui fonctionnent dans les usines et tout. Mais maintenant, quand vous dites l’IA, nous pensons à ces bavardages. Aujourd’hui, nous avons tous entendu, appris ou utilisé des IA qui peuvent écrire, lire, raisonner et faire des tâches numériques. Mais que se passe-t-il si l’IA pouvait comprendre le monde comme nous? Et si l’IA pouvait rêver et même réaliser les rêves? La prochaine étape de l’IA est d’aller au-delà des mots et des images et apprendre à comprendre le monde – Ses règles, sa physique, sa cause et son effet.

C’est à cela que servent les modèles mondiaux. Notre cerveau humain est comme un super ordinateur. Nous traitons une grande quantité de données grâce à six sens. Ce que nous voyons, entendons, sentant, touchez, goûtez et pensons. Nous ne savons même pas quand nous étions en mode d’entraînement ou en mode d’inférence. Nous courons sur une sorte de «pilote automatique» depuis la naissance, nos actions étant constamment façonnées par les conséquences que nous vivons et les commentaires (ou récompenses) que nous recevons. Apprentissage très renforcé avec la rétroaction humaine (RHLF) dans les IA (certains commentaires humains font plus de mal que d’aide, comme pour l’IA, mais c’est une autre histoire de jours émotionnels). Pour que AIS comprenne tout ce qui se passe dans le monde, ils auront besoin d’un ensemble de données massif (échantillons) pour s’entraîner.

AI a généré une vidéo de robot jouant à jeu

Comment ça a commencé

Ryan, ce n’est pas votre domaine. Que faites-vous ici ? Rêveur! Dreamerv3 de Danijar Hafner et de l’équipe ont été le tout premier modèle mondial que je rencontre et m’intéressait. Cet article couvrira un petit contexte de modèles mondiaux, des détails sur le modèle de Dreamer (mes notes d’étude et ma compréhension) et ma tentative de gérer Dreamerv3 pour former une IA qui joue un jeu Atari d’enfance. Mon déploiement et la configuration d’exécution pourraient être Trouvé sur github.

Dans les années 1990, Jürgen Schmidhuber a proposé une idée de réseaux de neurones pour modéliser le monde (un modèle RNN) pour prédire les actions et les conséquences. Comme un modèle pour simuler le monde, simuler différentes séquences d’action et trouver le meilleur chemin. Ouais, comme ce que le Dr Strange a fait dans l’infini de Marvel. Il a simulé 14 000 605 possibilités et a trouvé le meilleur chemin. Mais dans les années 1990, c’est trop rêveur. Aucune puissance de calcul ou même dans le monde ML n’a nécessité des fondations pour l’essayer. Jusqu’en 2010 avec des accélérateurs beaucoup plus puissants et similaires de David Ha (de Google Brain) et de son expertise avec des autoencoders variationnels (VAES), la façon de prendre des entrées de grande dimension et de la comprimer à un vecteur latent de faible dimension émerge. Ce document très collaboré sur le modèle mondial peut être trouvé ici. Il est très impressionnant que le modèle puisse «rêver» ou «imaginer» le monde, et essayer de prendre une séquence d’actions et d’apprendre les récompenses pour trouver le meilleur chemin vers les meilleures récompenses. (Cela ressemble à un raisonnement?)

Les gens de Google ne se sont pas arrêtés là. Danijar Hafner et Team ont publié plus tard un article sur Planet (papier ici) qui a introduit le modèle récurrent de l’espace d’état (RSSM) – une représentation meilleure et plus compacte du vecteur d’état latent. Et la série de papiers de rêveur suivent. Dreamerv1 était limité aux actions de contrôle continu, où Dreamerv2 a présenté la maîtrise des actions discrètes. Dreamerv3 a été présenté en utilisant un jeu du monde ouvert comme Minecraft et la capacité de Dreamer à évoluer et à apprendre différentes activités «en dehors de la boîte». Un jeu comme Minecraft où toutes les action ne peuvent pas récolter des récompenses ou des pénalités, Dreamer a appris sa série d’action pour réaliser certaines récompenses. C’était un saut de saut.

Dreamer est construit sur trois réseaux de neurones différents.
1 et 1 Modèle mondial – C’est le fondement de l’agent. Il apprend à comprendre l’environnement et à prédire les résultats futurs. Il est mis en œuvre comme un Modèle récurrent de l’espace d’état (RSSM) et a plusieurs parties internes comme l’encodeur, le décodeur, le modèle de séquence et le prédicteur.
2 Le critique – Ce réseau apprend à juger de la valeur des résultats prédits par le modèle mondial. Il estime essentiellement le rendement attendu d’un état donné dans la trajectoire imaginaire.
3 et 3 L’acteur – Ce réseau apprend à choisir les meilleures actions à entreprendre afin d’atteindre les résultats les plus précieux à en juger par le critique.

La formation se produit dans deux boucles différentes où le modèle mondial apprend sur le monde et l’acteur – le critique apprend à agir dans le monde.

(du papier) Figure 3: Processus de formation de Dreamer.

Décomposons ce qui se passe dans cette image.

Boucle 1: Apprendre les règles du monde (figure 3A)

Cette première boucle consiste à construire un modèle mondial précis. L’agent prend des séquences d’expériences réelles qu’elle a collectées dans son tampon de relecture – observations, actions et récompenses et les utilise pour former le modèle mondial. La formation a deux objectifs principaux:

  1. Encoder et reconstruire: Le Encodeur Une partie du modèle écrase l’image d’écran de haute dimension dans un état latent compact. Le Décodeur essaie ensuite de reconstruire l’image d’origine de cet état. Si l’image reconstruite ressemble à l’original, cela signifie que l’état latent a réussi à capturer les informations importantes.
  2. Prédire l’avenir: Le Modèle de séquence (un GRU agissant comme mémoire) prend l’état actuel et l’action pour prédire le suivant état latent. Cela enseigne au modèle la physique et la cause et l’effet du monde – si je me déplace à gauche, à quoi devrait ressembler le monde ensuite?

Toute cette boucle n’est pas supervisée. Son seul travail est de créer un modèle fiable et prédictif de l’environnement.

Boucle 2: Apprendre à gagner dans un rêve (figure 3B)

Une fois que le modèle mondial a une compréhension décente de la réalité, l’agent peut l’utiliser pour apprendre un comportement efficacement. C’est là que l’acteur et le critique entrent en jeu.

  1. Imaginez les trajectoires: Au lieu de jouer dans l’environnement lent et réel, l’agent «Rêves». Il demande au modèle mondial de générer de longues séquences de futurs états purement de l’imagination. Le Acteur suggère des actions et le modèle mondial prédit les états et les récompenses qui en résultent.
  2. Apprenez des rêves: Le Critique regarde ces séquences imaginées et apprend à estimer les récompenses totales d’un état donné. Le Acteur utilise ensuite les jugements du critique pour améliorer sa politique. Si une séquence d’action imaginaire a conduit à un État que le critique a fortement évalué, l’acteur apprend à rendre ces actions plus probables.

En apprenant à l’intérieur de cette simulation interne rapide, l’agent peut pratiquer et jeter des millions de mauvaises stratégies sans jamais avoir à les essayer dans le monde réel. C’est ainsi qu’il peut maîtriser des tâches complexes comme obtenir des diamants dans Minecraft avec une efficacité remarquable. Cela semble fantaisiste, non?

Je ne suis ni chercheur ni ingénieur ML. Je suis juste curieux et je veux essayer de voir des choses. J’ai donc décidé d’essayer d’exécuter l’implémentation de Danijar et de voir comment les choses fonctionnent. L’ensemble du déploiement avec des explications détaillées peut être trouvé sur mon github ici. J’ai essayé de mettre les détails des paramètres de configuration et des explications autant que je l’ai appris lors de mon test.

Ma toute première pensée a été de m’entraîner sur quelque chose que je joue, mais je ne pense pas en savoir assez pour mettre en œuvre un pipeline d’entrée qui peut aligner l’encodeur. J’ai donc décidé d’aller avec l’un des jeux Atari que j’ai joué plusieurs fois dans la vie, et presque tout le monde a joué ou vu. Mme Pacman ! C’est un jeu simple. Je n’aurais pas besoin de m’entraîner comme un demi-milliard de pas, je peux m’en tirer avec quelques étapes seulement, quelques heures de formation.

J’ai eu pas mal d’essais et d’erreurs au début, principalement parce que j’essayais de le former sur L4. Le modèle basé sur la configuration actuelle a nécessité environ 60 Go de mémoire GPU, et la mémoire CPU continue de croître plus elle est effectuée. J’ai obtenu une instance de spot H100 bien-aimée pour m’entraîner, mais j’ai fait une erreur en ne configurant pas le point de contrôle. J’ai donc dû le tuer et redémarrer. L’acteur impatient en moi ne veut pas attendre SPOT ou Instance DWS, donc je suis allé avec 4x L4 à la place avec le parallélisme.

Je gère 32 environnements pendant environ 14 heures, j’ai effectué plus de 7 millions d’étapes. Au tout début, il ne peut terminer que 400 mouvements et le jeu. À mon tout premier point de contrôle, le score moyen était comme 400.

Après 3 millions d’étapes, j’ai utilisé un point de contrôle pour exécuter une évaluation. Il a commencé à comprendre davantage le jeu. Comment se déplacer, quand se déplacer ou s’asseoir immobile. Après 14 heures, j’ai vu qu’il faisait 4 chiffres. C’est là que je voulais l’essayer et le laisser jouer. Vous pouvez trouver les vidéos complètes EVAL sur le github (le même ci-dessus).

C’était une activité de week-end amusante et gratifiante pour moi. J’ai été étonné non seulement par le rêveur, mais aussi par la base de code d’implémentation qu’ils ont repoussée sur GitHub. J’avais juste besoin d’apprendre le flux et de le comprendre afin que je puisse le configurer comme je le veux.

Les modèles mondiaux nous donnent quelque chose de différent. Pas les AIS qui apprennent des modèles, reconnaissez ou générez simplement des modèles. Les modèles mondiaux apprennent la dynamique des mondes, apprennent les règles de cause et d’effet de l’évolution du monde. Avec l’ensemble de règles simples ou les systèmes de récompense (YEAP, pas vraiment simple), cela fournit un modèle fondamental qui n’a pas besoin d’algorithme pour reconstruire pour différentes tâches. Dreamer s’est avéré être un modèle non surveillé et agnostique des tâches.

Les modèles mondiaux ouvrent beaucoup plus de possibilités de l’IA. Ces modèles seront très fondamentaux des futurs robots, je pense. Les robots, lisent «humanoïde» ici, peuvent ne pas avoir six sens comme nous, mais ils vivront et travailleront dans le même monde que nous. Même si cela ne peut pas se sentir, il doit être capable de comprendre complètement dans son ensemble. Et de nombreux autres cas d’utilisation complexes dans des prédictions ou des simulations comme l’échafaudage des protéines dans les sciences de la vie, les prévisions complexes ou la chaîne de prévisions avec cause et effets.

Dreamer (s) a vraiment ouvert la voie. Nous pouvons avoir un modèle mondial unique qui est formé sur plusieurs expertises du domaine, une action multiple – réaction, etc. Avez-vous entendu parler du modèle mondial de transformateur de Google que vous pouvez simplement fournir un schéma ou un diagramme Stickman et cela générera un jeu jouable pour vous. Avez-vous?

Des modèles mondiaux comme Dreamerv3 fournissent un chemin crédible et démontré pour que l’IA ne parle pas seulement de notre monde ou de nos connaissances, mais aussi de comprendre il, acte Dans ce document, et nous aider à trouver le meilleur chemin à suivre – tout comme le Dr Strange l’a fait dans Inifinity War. Reprenons à nouveau au jeu final.



Source link

Related post