Les modèles Cosmos World Foundation sont ouvertement disponibles pour les développeurs d’IA physiques

Note de l’éditeur: Ce message a été mis à jour le vendredi 10 janvier, avec les résultats des prix Best of CES.
Nvidia cosmosune plate-forme pour accélérer AI physique développement, introduit une famille de Modèles de fondation mondiale – Réseaux de neurones qui peuvent prédire et générer des vidéos conscientes de la physique de l’état futur d’un environnement virtuel – pour aider les développeurs à construire des robots de nouvelle génération et des véhicules autonomes (AVS).
Les modèles World Foundation, ou WFMS, sont aussi fondamentaux que les modèles de grandes langues. Ils utilisent des données d’entrée, notamment du texte, de l’image, de la vidéo et du mouvement, pour générer et simuler des mondes virtuels d’une manière qui modélise avec précision les relations spatiales des objets dans la scène et leurs interactions physiques.
Annoncé au CESNVIDIA met à disposition la première vague de COSMOS WFMS pour la simulation basée sur la physique et la génération de données synthétiques – ainsi que les tokeniseurs de pointe, les garde-corps, un pipeline de traitement et de conservation des données accélérées, et un cadre pour la personnalisation et l’optimisation du modèle.
Cosmos a remporté la meilleure IA et les meilleures distinctions globales de la Best of CES Awards Par le groupe CNET, partenaire de récompenses pour la Consumer Technology Association, qui produit le CES.
Les chercheurs et les développeurs, quelle que soit la taille de leur entreprise, peuvent utiliser librement les modèles COSMOS sous la licence de modèle ouverte permissive de Nvidia qui permet l’utilisation commerciale. Les entreprises de construction d’IA peuvent également utiliser de nouveaux ouvertures Modèles Nvidia Llama Nemotron et Cosmos Nemotrondévoilé au CES.
L’ouverture des modèles de pointe du Cosmos débloque AI physique Les développeurs créent la robotique et la technologie AV et permet aux entreprises de toutes tailles de mettre plus rapidement leurs applications physiques sur le marché. Les développeurs peuvent utiliser des modèles COSMOS directement pour générer des données synthétiques basées sur la physique, ou ils peuvent exploiter le Framework Nvidia Nemo Pour affiner les modèles avec leurs propres vidéos pour des configurations d’IA physiques spécifiques.
Les chefs d’IA physiques – y compris les entreprises de robotique 1x, Agility Robotics et XPENG, et les développeurs AV Uber et Waabi – travaillent déjà avec Cosmos pour accélérer et améliorer le développement du modèle.
Les développeurs peuvent prévisualiser le premier cosmos autorégressif et diffusion modèles sur le Catalogue API NVIDIAet téléchargez la famille des modèles et le framework de réglage fin du Catalogue Nvidia NGC et Visage étreint.
https://www.youtube.com/watch?v=9uch931cdx8
Modèles fondamentaux mondiaux pour l’IA physique
Les modèles Cosmos World Foundation sont une suite de modèles de transformateurs ouverts et autorégressifs pour la génération de vidéos conscients de la physique. Les modèles ont été formés sur 9 000 billions de jetons, contre 20 millions d’heures d’interactions humaines réelles, l’environnement, l’industrie, la robotique et la conduite des données.
Les modèles sont disponibles en trois catégories: nano, pour les modèles optimisés pour en temps réel, inférence à faible latence et déploiement de bord; Super, pour les modèles de base hautement performants; et ultra, pour une qualité maximale et une fidélité, mieux utilisés pour distiller les modèles personnalisés.
Lorsqu’il est associé à Nvidia Omverse Sorties 3D, les modèles de diffusion génèrent des données vidéo synthétiques contrôlables et de haute qualité pour la formation en bootstrap des modèles de perception robotique et AV. Les modèles autorégressifs prédisent ce qui devrait venir dans une séquence de trames vidéo basées sur les trames d’entrée et le texte. Cela permet une prédiction en temps réel, donnant aux modèles physiques de l’IA de la prévoyance de prédire leur prochaine meilleure action.
Les développeurs peuvent utiliser les modèles ouverts de Cosmos pour la génération de texte en monde et de vidéo au monde. Les versions des modèles de diffusion et autorégressive, avec entre 4 et 14 milliards de paramètres chacun, sont disponibles dès maintenant sur le catalogue NGC et Visage étreint.
Un modèle d’échantillonnage de 12 milliards de paramètres de 12 milliards de dollars pour affiner les invites de texte, un décodeur vidéo de 7 milliards de paramètres optimisé pour la réalité augmentée et des modèles de garde pour assurer une utilisation responsable et sûre.
Pour démontrer des possibilités de personnalisation, NVIDIA publie également des échantillons de modèles affinés pour des applications verticales, telles que la génération de vues multisensorielles pour les AV.
Robotique avancée, applications de véhicules autonomes
Les modèles de fondation Cosmos World peuvent permettre génération de données synthétiques Pour augmenter les ensembles de données d’entraînement, la simulation pour tester et déboguer les modèles d’IA physiques avant d’être déployés dans le monde réel, et le renforcement de l’apprentissage dans des environnements virtuels pour accélérer Apprentissage de l’agent AI.
Les développeurs peuvent générer des quantités massives de données synthétiques contrôlables basées sur la physique en conditionnant le cosmos avec des scènes 3D composées de NVIDIA OMIVERSE.
Waabi, une entreprise pionnière de l’IA générative pour le monde physique, en commençant par des véhicules autonomes, évalue l’utilisation du cosmos pour la recherche et la conservation des données pour le développement et la simulation des logiciels AV. Cela accélérera davantage l’approche de la sécurité de l’industrie de l’entreprise, qui est basée sur Waabi World, un simulateur d’IA génératif qui peut créer n’importe quelle situation qu’un véhicule pourrait rencontrer avec le même niveau de réalisme que si cela se produisait dans le monde réel.
En robotique, les WFMS peuvent générer des environnements virtuels synthétiques ou des mondes pour fournir un espace moins coûteux, plus efficace et contrôlé pour l’apprentissage du robot. Hillbot de démarrage de l’IA incarné stimule son pipeline de données en utilisant le cosmos pour générer des téraoctets d’environnements 3D haute fidélité. Ces données générées par l’IA aideront l’entreprise à affiner sa formation et ses opérations robotiques, permettant des compétences robotiques plus rapides et plus efficaces et des performances améliorées pour les tâches industrielles et domestiques.
Dans les deux industries, les développeurs peuvent utiliser NVIDIA OMIVERSE et COSMOS comme moteur de simulation multivers, permettant à un modèle de stratégie d’IA physique de simuler tous les chemins futurs possibles qu’il pourrait prendre pour exécuter une tâche particulière – qui à son tour aide le modèle à sélectionner le meilleur de ces chemins.
La conservation des données et la formation des modèles COSMOS reposaient sur des milliers de GPU NVIDIA à travers Nuage nvidia dgxune plate-forme d’IA haute performance et entièrement gérée qui fournit des clusters informatiques accélérés dans tous les clouts de premier plan.
Les développeurs adoptant COSMOS peuvent utiliser DGX Cloud pour un moyen facile de déployer des modèles COSMOS, avec un support supplémentaire disponible via le Nvidia AI Enterprise Plateforme logicielle.
Personnaliser et déployer avec Nvidia Cosmos
En plus des modèles de fondation, le Plate-forme Cosmos Comprend un pipeline de traitement des données et de conservation alimenté par Conservateur Nvidia Nemo et optimisé pour les GPU du centre de données NVIDIA.
La robotique et les développeurs AV collectent des millions ou des milliards d’heures de vidéo enregistrée dans le monde réel, ce qui entraîne des pétaoctets de données. Cosmos permet aux développeurs de traiter 20 millions d’heures de données en seulement 40 jours Gpus nvidia topperou aussi peu que 14 jours Gpus nvidia Blackwell. En utilisant des pipelines non optimisés fonctionnant sur un système CPU avec une consommation d’énergie équivalente, le traitement de la même quantité de données prendrait plus de trois ans.
La plate-forme propose également une suite de tokeniseurs vidéo et d’image puissants qui peuvent convertir des vidéos en jetons à différents rapports de compression vidéo pour la formation modèles de transformateur.
Les jetons de cosmos offrent 8 fois plus de compression totale que les méthodes de pointe et une vitesse de traitement 12x plus rapide, qui offre une qualité supérieure et une réduction des coûts de calcul dans la formation et inférence. Les développeurs peuvent accéder à ces tokenzers, disponibles sous la licence de modèle ouvert de Nvidia, via Visage étreint et Github.
Les développeurs utilisant COSMOS peuvent également exploiter des capacités de formation sur le modèle et de réglage des modèles offerts par Framework NEMOun cadre accéléré par le GPU qui permet une formation IA à haut débit.
Développement de modèles d’IA sûrs et responsables
Désormais disponible pour les développeurs dans le cadre du contrat de licence de modèle ouvert de NVIDIA, COSMOS a été développé conformément aux NVIDIA AI digne de confiance Principes, qui comprennent la non-discrimination, la vie privée, la sécurité, la sécurité et la transparence.
La plate-forme COSMOS comprend Cosmos Guar-Rails, une suite dédiée de modèles qui, entre autres capacités, atténue des entrées de texte et d’image nocives pendant le prétraitement et les vidéos générées des écrans pendant le post-traitement pour la sécurité. Les développeurs peuvent encore améliorer ces garde-corps pour leurs applications personnalisées.
Modèles de cosmos sur le Catalogue API NVIDIA Comprennent également un système de filigrane intégré qui permet d’identifier les séquences générées par l’IA.
Nvidia Cosmos a été développé par Recherche Nvidia. Lisez le document de recherche: «Cosmos World Foundation Model Plateforme pour l’IA physique», Pour plus de détails sur le développement du modèle et les repères. Les cartes modèles fournissant des informations supplémentaires sont disponibles sur Visage étreint.
En savoir plus sur les modèles de fondation mondiale dans un Épisode du podcast AI qui comprend Ming-Yu Liu, vice-président de la recherche à Nvidia.
Commencer avec nvidia Cosmos et rejoindre Nvidia au CES. Regardez le Démo cosmos Et le couvert de Huang ci-dessous:
https://www.youtube.com/watch?v=k82rwxqzhy8
Voir avis concernant les informations sur les produits logiciels.