Le modèle mondial Meta V-Jepa 2 utilise une vidéo brute pour former des robots

Meta aujourd’hui présenté V-Jepa 2un modèle mondial de 1,2 milliard de paramètres a formé principalement sur la vidéo pour soutenir la compréhension, la prédiction et la planification des systèmes robotiques. Construit sur l’architecture prédictive de l’intégration conjointe (JEPA), le modèle est conçu pour aider les robots et autres «agents d’IA» à naviguer dans des environnements et des tâches inconnus avec une formation spécifique au domaine limité.
V-Jepa 2 suit un processus de formation en deux étapes sans annotation humaine supplémentaire. Dans la première étape auto-supervisée, le modèle apprend de plus d’un million d’heures de vidéo et de 1 million d’images, capturant des modèles d’interaction physique. La deuxième étape introduit l’apprentissage conditionné par l’action en utilisant un petit ensemble de données de contrôle des robots (environ 62 heures), permettant au modèle de prendre en compte les actions d’agent lors de la prévision des résultats. Cela rend le modèle utilisable pour la planification et les tâches de contrôle en boucle fermée.
Meta a déclaré avoir déjà testé ce nouveau modèle sur les robots dans ses laboratoires. Meta rapporte que V-Jepa 2 fonctionne bien sur des tâches robotiques communes comme et pick-and-place, en utilisant des représentations d’objectifs basées sur la vision. Pour des tâches plus simples telles que le pick and lieux, le système génère des actions candidates et les évalue en fonction des résultats prévus. Pour les tâches plus difficiles, comme ramasser un objet et la placer au bon endroit, V-Jepa2 utilise une séquence de sous-Goals visuels pour guider le comportement.
Dans les tests internes, Meta a déclaré que le modèle montrait une capacité prometteuse à généraliser à de nouveaux objets et paramètres, avec des taux de réussite allant de 65% à 80% sur les tâches de pick-and-place dans des environnements auparavant invisibles.
«Nous pensons que les modèles mondiaux inaugureront une nouvelle ère pour la robotique, permettant aux agents de l’IA du monde réel d’aider aux tâches et aux tâches physiques sans avoir besoin de quantités astronomiques de données d’entraînement robotique», a déclaré le scientifique en chef de l’IA de Meta, Yann Lecun.
Bien que V-Jepa 2 montre des améliorations par rapport aux modèles antérieurs, Meta Ai a déclaré qu’il reste un écart notable entre le modèle et les performances humaines sur ces repères. Meta suggère que cela indique la nécessité de modèles qui peuvent fonctionner sur plusieurs échelles de temps et modalités, telles que l’intégration d’informations audio ou tactiles.
Pour évaluer les progrès de la compréhension physique de la vidéo, Meta publie également les trois repères suivants:
- Intphys 2: Évalue la capacité du modèle à distinguer les scénarios physiquement plausibles et invraisemblables.
- MVPBench: Tests si les modèles s’appuient sur une véritable compréhension plutôt que sur les raccourcis de l’ensemble de données dans les questions de questions vidéo.
- Causalvqa: Examine le raisonnement sur la cause et l’effet, l’anticipation et les contrefactuels.
Les points de contrôle du code V-Jepa 2 et des modèles sont disponibles pour une utilisation commerciale et de la recherche, avec Meta visant à encourager une exploration plus large des modèles mondiaux en robotique et une IA incarnée.
Meta rejoint d’autres leaders de la technologie dans le développement de leurs propres modèles mondiaux. Google Deepmind a développé sa propre version, Genie, qui peut simuler des environnements 3D entiers. Et World Labs, une startup fondée par Fei-Fei Li, a levé 230 millions de dollars pour construire de grands modèles mondiaux.