AI2 dit que le nouveau modèle Molmoacte 7B apporte l’IA dans le monde physique

 AI2 dit que le nouveau modèle Molmoacte 7B apporte l’IA dans le monde physique

Le logo d'Ai2 sur un fond bleu avec des champs de données roses et verts derrière. L'Institut a développé Molmoacte pour l'IA robotique.

AI2 a déclaré que son modèle Molmoacte est sûr, interprétable, adaptable et vraiment ouvert. | Source: AI2, Adobe Stock

L’Institut Allen pour l’IA, également connu sous le nom d’AI2, a annoncé hier la sortie de Molmoact 7B, un modèle d’intelligence artificielle incarnée qui, selon lui, apporte des modèles d’intelligence artificielle de pointe dans le monde physique.

Au lieu de raisonner à travers le langage et de convertir cela en mouvement, AI2 a déclaré que Molmoacte voit en fait son environnement; comprend les relations entre l’espace, le mouvement et le temps; et prévoit ses mouvements en conséquence. Le modèle génère des jetons de raisonnement visuel qui transforment les entrées d’image 2D en plans spatiaux 3D, permettant aux robots de naviguer dans le monde physique avec une plus grande intelligence et contrôle.

«L’IA incarnée a besoin d’une nouvelle base qui priorise le raisonnement, la transparence et l’ouverture», a déclaré Ali Farhadi, PDG de l’AI2. «Avec Molmoact, nous ne publions pas seulement un modèle; nous jetons les bases d’une nouvelle ère d’IA, ce qui apporte l’intelligence de modèles d’IA puissants dans le monde physique. C’est un pas vers l’IA qui peut raisonner et naviguer dans le monde de manière plus alignée sur la façon dont les humains font – et collaborer avec nous en toute sécurité et efficacement.»

AI2 est une recherche sur l’IA à but non lucratif basée à Seattle institut avec la mission de construire l’IA pour résoudre les plus gros problèmes du monde. Fondé en 2014 par le regretté co-fondateur de Microsoft, Paul G. Allen, AI2 a déclaré qu’il développe une base fondamentale IA Recherche et nouvelles applications via des modèles ouverts à grande échelle, des données ouvertes, une robotique, des plateformes de conservation, etc.

AI2 affirme que Molmoacte est le premier «modèle de raisonnement d’action»

Bien que le raisonnement spatial ne soit pas nouveau, la plupart des systèmes modernes reposent sur des architectures fermées de bout en bout formées sur des ensembles de données propriétaires massifs. Ces modèles sont difficiles à reproduire, coûteux à évoluer et fonctionnent souvent comme des boîtes noires opaques, selon AI2.

L’Institut a affirmé que Molmoacte offre une approche fondamentalement différente. Le modèle est entièrement formé sur des données ouvertes, est conçue pour la transparence et est conçue pour la généralisation du monde réel. Ses traces de raisonnement visuel étape par étape permettent aux utilisateurs de prévisualiser ce qu’un robot prévoit de faire et de diriger son comportement en temps réel à mesure que les conditions changent, a déclaré AI2.

AI2 a appelé Molmoacte un «modèle de raisonnement d’action» (ARM) pour indiquer qu’il peut interpréter les instructions de haut niveau du langage naturel et la raison à travers une séquence d’actions physiques pour les réaliser dans le monde réel.

Les modèles de robotique de bout en bout traditionnels traitent les tâches comme une étape opaque unique, a déclaré l’institut. Au lieu de cela, les armes interprètent des instructions de haut niveau et les décomposent en une chaîne transparente de décisions spatialement fondées:

  • Perception 3D-Aware: ancrant la compréhension du robot de son environnement à l’aide de la profondeur et du contexte spatial
  • Planification du waypoint visuel: décrivant une trajectoire de tâche étape par étape dans l’espace d’image
  • Décodage d’action: convertir le plan en commandes de contrôle précises et spécifiques au robot

Ce raisonnement en couches permet à Molmoact d’interpréter des commandes comme «trier cette pile de poubelles» non pas en une seule étape, mais comme une série structurée de sous-tâches. Le modèle reconnaît la scène, regroupe des objets par type, les saisit un par un et se répète.

https://www.youtube.com/watch?v=-_wag1x25oe

AI2 construit molmoacte pour évoluer rapidement

Molmoact 7B, le premier de sa famille de modèles, a été formé sur un ensemble de données organisé d’environ 12 000 «épisodes de robots» dans des environnements réels, tels que les cuisines et les chambres. AI2 a transformé ces démonstrations en séquences de renfort des robots qui exposent la façon dont les instructions complexes mappent aux actions ancrées et dirigées par des objectifs.

Avec le modèle, la société publie l’ensemble de données post-formation Molmoacte contenant ~ 12 000 «épisodes de robots» distincts. Les chercheurs de l’AI2 ont passé des mois à conserver des vidéos de robots effectuant des actions dans divers contextes de ménages. Cela comprend tout, de l’organisation des oreillers sur un canapé de salon pour ranger le linge dans une chambre.

Malgré ses fortes performances, AI2 a déclaré avoir entraîné Molmoacte efficacement. Il ne nécessitait que 18 millions d’échantillons, pré-formation sur 256 Nvidia H100 Unités de traitement graphiques (GPU) pendant environ 24 heures et affiner 64 GPU pour seulement deux autres.

En revanche, de nombreux modèles commerciaux nécessitent des centaines de millions d’échantillons et beaucoup plus de calcul. Pourtant, Molmoacte a surpassé bon nombre de ces systèmes sur des références clés, y compris un taux de réussite de 71,9% en plus simple. Cela a démontré que des données de haute qualité et une conception réfléchie peuvent surpasser les modèles formés avec beaucoup plus de données et de calculs, a déclaré AI2.

AI2 maintient molmo-ouverte et transparente

AI2 a déclaré avoir construit Molmoacte pour la transparence. Les utilisateurs peuvent prévisualiser les mouvements planifiés du modèle avant l’exécution, avec mouvement Les trajectoires superposées sur les images de la caméra.

De plus, les utilisateurs peuvent ajuster ces plans en utilisant un langage naturel ou des corrections d’esquisse rapide sur un écran tactile – fournissant un contrôle fin et améliorant la sécurité dans des environnements réels comme les maisons, les hôpitaux et les entrepôts.

Conformément à la mission d’Ai2, Molmoacte est entièrement open source et reproductible. L’Institut publie tout ce qui est nécessaire pour construire, exécuter et étendre le modèle: les pipelines de formation, les ensembles de données pré et post-formation, les points de contrôle du modèle et les références d’évaluation.

Le modèle et Artefacts modèles – y compris les points de contrôle de formation et les évaux – sont disponibles dans le référentiel de visage étreint d’AI2.

Renseignez-vous sur les dernières personnes de l’IA chez Robobusiness

https://www.youtube.com/watch?v=O6X1_GQQ1ZY

Cette année Robobusinessqui aura lieu les 15 et 16 octobre à Santa Clara, en Californie, mettra en vedette le forum physique de l’IA. Cette piste mettra en vedette des discussions sur une gamme de sujets, notamment des conversations autour de la sécurité et de l’IA, de la formation en renforcement de la simulation à la réalité, de la conservation des données, du déploiement de robots alimentés par l’IA, etc.

Les participants peuvent entendre des experts de Dexterity, ABB Robotics, UC Berkeley, Roboto, Graymatter Robotics, Diligent Robotics et Dexman AI. De plus, le spectacle commencera par un couverture De Deepu Talla, vice-président de la robotique à Edge AI à Nvidia, sur la façon dont l’IA physique inaugure une nouvelle ère de robotique.

Robobusiness est le premier événement pour les développeurs et les fournisseurs de robots commerciaux. L’événement est produit par WTWH Media, qui produit également Le rapport robot, Entrepôt automatiséet le Robotics Summit & Expo.

La conférence de cette année comprendra plus de 60 conférenciersun atelier de startup, le concours annuel de pitchfire et de nombreux opportunités de réseautage. Plus de 100 exposants sur le salon présentera leurs dernières technologies, produits et services habilitants pour résoudre vos défis de développement de la robotique.

L’inscription est maintenant ouverte Pour Robobusiness 2025.





Source link

Related post