Nvidia prévoit de rendre l’IA de Deepseek 30 fois plus rapide – le PDG Huang explique comment

 Nvidia prévoit de rendre l’IA de Deepseek 30 fois plus rapide – le PDG Huang explique comment


Nvidia

En janvier, l’émergence du programme d’intelligence artificielle R1 de Deepseek a provoqué une vente boursière. Sept semaines plus tard, le géant des puces Nvidia, la force dominante dans le traitement de l’IA, cherche à se placer carrément au milieu de l’économie dramatique de l’IA moins chère que En profondeur représente.

Mardi, au SAP Center de San Jose, en Californie, le co-fondateur et PDG de Nvidia, Jensen Huang, a expliqué comment les chips Blackwell de la société peuvent accélérer considérablement Deepseek R1.

Aussi: Google affirme que Gemma 3 atteint 98% de la précision de Deepseek – en utilisant un seul GPU

Nvidia affirme que ses puces GPU peuvent traiter 30 fois le débit que Deepseek R1 aurait normalement dans un centre de données, mesuré par le nombre de jetons par seconde, en utilisant un nouveau logiciel open source appelé Nvidia Dynamo.

« La dynamo peut capturer ce bénéfice et offrir 30 fois plus de performances dans le même nombre de GPU dans la même architecture pour des modèles de raisonnement comme Deepseek », a déclaré Ian Buck, responsable de l’hypelle et de l’informatique à haute performance de Nvidia, dans un briefing de médias avant l’ouverture de Huang lors de la conférence GTC de la société.

Le logiciel Dynamo, disponible aujourd’hui sur GitHub, distribue des travaux d’inférence sur moins de 1 000 puces GPU NVIDIA. Plus de travail peut être accompli par seconde du temps de la machine en cassant les travaux pour s’exécuter en parallèle.

Le résultat: pour une tâche d’inférence au prix de 1 $ par million de jetons, davantage de jetons peuvent être exécutés chaque seconde, augmentant les revenus par seconde pour les services fournissant les GPU.

Buck a déclaré que les fournisseurs de services peuvent alors décider d’exécuter plus de requêtes client sur Deepseek ou consacrer plus de traitement à un seul utilisateur pour facturer plus pour un service « Premium ».

Services premium

« Les usines d’IA peuvent offrir un service supérieur plus élevé à des jetons de prime par million », a déclaré Buck, « et augmenter également le volume total de jetons de toute leur usine. » Le terme «usine d’IA» est la monnaie de Nvidia pour les services à grande échelle qui exécutent un volume lourd de travaux d’IA en utilisant les puces, les logiciels et l’équipement à base de rack de l’entreprise.

nvidia-gtc-2025-nvidia-dgx-spark-et-nvidia-dgx-station.png

NVIDIA DGX Spark et Station DGX.

Nvidia

La perspective d’utiliser plus de puces pour augmenter le débit (et donc les affaires) pour l’inférence de l’IA est la réponse de Nvidia aux préoccupations des investisseurs selon lesquelles moins de calcul serait utilisé dans l’ensemble, car Deepseek peut réduire la quantité de traitement nécessaire pour chaque requête.

En utilisant Dynamo avec Blackwell, le modèle actuel du GPU AI phare de NVIDIA, le logiciel Dynamo peut faire en sorte que de tels centres de données d’IA produisent 50 fois plus de revenus qu’avec l’ancien modèle, Hopper, a déclaré Buck.

Aussi: Le modèle d’IA de Deepseek s’avère facile à jailbreaker – et pire

Nvidia a publié sa propre version modifiée de Deepseek R1 sur HuggingFace. La version NVIDIA réduit le nombre de bits utilisés par R1 pour manipuler les variables à ce qui est connu sous le nom de « FP4 » ou quatre bits à virgule flottante, qui est une fraction de l’informatique nécessaire pour le point flottant standard 32 ou B-Float 16.

« Cela augmente considérablement les performances de la trémie à Blackwell », a déclaré Buck. « Nous l’avons fait sans aucun changement ou réduction significatif ou perte du modèle de précision. C’est toujours le grand modèle qui produit les jetons de raisonnement intelligent. »

En plus de Dynamo, Huang a dévoilé la dernière version de Blackwell, « Ultra », suivant le premier modèle qui était dévoilé au spectacle de l’année dernière. La nouvelle version améliore divers aspects du Blackwell 200 existant, comme l’augmentation de la mémoire DRAM de 192 Go de la mémoire de la bande passante élevée HBM3E jusqu’à 288 Go.

Aussi: Le PDG de Nvidia, Jensen Huang, dévoile la famille des puces de nouvelle génération de la nouvelle génération au GTC

Lorsqu’il est combiné avec la puce CPU Grace de NVIDIA, un total de 72 ultras Blackwell peuvent être assemblés dans l’ordinateur à base de rack NVL72 de la société. Le système augmentera les performances d’inférence fonctionnant à FP4 de 50% par rapport au NVL72 existant sur la base des puces Grace-Blackwell 200.

Autres annonces faites à GTC

Le petit ordinateur personnel pour les développeurs d’IA, dévoilé au CES en janvier comme Chiffres du projeta reçu sa marque officielle en tant que DGX Spark. L’ordinateur utilise une version du combo Grace-Blackwell appelé GB10. Nvidia prend des réservations pour l’étincelle à partir d’aujourd’hui.

Une nouvelle version de l’ordinateur de bureau DGX « Station », introduit pour la première fois en 2017, a été dévoilée. Le nouveau modèle utilise le Grace-Blackwell Ultra et viendra avec 784 gigaoctets de dram. C’est un grand changement par rapport à la station DGX d’origine, qui reposait sur les processeurs Intel en tant que processeur d’hôte principal. L’ordinateur sera fabriqué par Asus, Boxx, Dell, HP, Lambda et Supermicro, et sera disponible « plus tard cette année ».

Aussi: Pourquoi Mark Zuckerberg veut si mal redéfinir l’open source

Huang a parlé d’une adaptation des modèles de grande langue Llama Open-source de Meta, appelé Llama Nemotron, avec des capacités de «raisonnement»; Autrement dit, pour produire une chaîne de sortie, détaillant les étapes d’une conclusion. NVIDIA affirme que les modèles Nemotron « optimisent la vitesse d’inférence de 5x par rapport aux autres modèles de raisonnement ouvert de premier plan ». Les développeurs peuvent accéder aux modèles sur HuggingFace.

Amélioration des commutateurs réseau

Comme prévu, NVIDIA a proposé pour la première fois une version de son commutateur réseau « Spectrum-X » qui place l’émetteur-récepteur en fibre optique dans le même package que la puce de commutation plutôt que d’utiliser des émetteurs-récepteurs externes standard. Nvidia dit que les commutateurs, qui sont livrés avec des vitesses de port de 200 ou 800 Go / sec, améliorent ses commutateurs existants avec « 3,5 fois plus d’efficacité de puissance, 63 fois plus d’intégrité du signal, 10 fois une meilleure résilience du réseau à grande échelle et 1,3 fois plus rapide ». Les commutateurs ont été développés avec la fabrication de semi-conducteurs de Taïwan, les fabricants de laser cohérents et luutum, le fabricant de fibres corning et l’assembleur de contrat Foxconn.

NVIDIA construit une installation de recherche en informatique quantique à Boston qui intègrera le matériel quantique de premier plan avec les supercalculateurs d’IA en partenariats avec Quantinuum, Quantum Machines et Quera. L’installation donnera aux partenaires de Nvidia l’accès aux racks Grace-Blackwell NVL72.

Oracle fait de Nvidia Logiciel de microservices « Nim » « Disponible nativement » dans la console de gestion du service informatique OCI d’Oracle pour ses clients cloud.

Huang a annoncé de nouveaux partenaires intégrant le logiciel OmIverse de la société pour la collaboration de conception de produits virtuels, notamment Accenture, ANSYS, Cadence Design Systems, Databricks, Dematic, Hexagon, Omron, SAP, Schneider Electric avec ETAP et Siemens.

NVIDIA a dévoilé Mega, un « Blueprint » de conception de logiciels qui se branche sur le logiciel Cosmos de NVIDIA pour la simulation, la formation et les tests de robots. Parmi les premiers clients, Schaeffler et Accenture utilisent Meta pour tester les flottes de mains robotiques pour les tâches de gestion des matériaux.

General Motors travaille maintenant avec NVIDIA sur « des véhicules, des usines et des robots de nouvelle génération » en utilisant OmIverse et Cosmos.

Cartes graphiques mises à jour

NVIDIA a mis à jour sa ligne de carte graphique RTX. La RTX Pro 6000 Blackwell Workstation Edition fournit 96 Go de DRAM et peut accélérer les tâches d’ingénierie telles que les simulations dans les logiciels ANSYS de 20%. Une deuxième version, Pro 6000 Server, est destinée à s’exécuter dans des racks de centre de données. Une troisième version met à jour RTX dans les ordinateurs portables.

Aussi: Les chatbots AI peuvent être détournés pour voler des mots de passe chromés – une nouvelle recherche expose une faille

Poursuivant l’accent sur les « modèles de fondation » pour la robotique, que Huang a discuté pour la première fois au CES lors du dévoilement de Cosmos, il a révélé mardi un modèle de fondation pour les robots humanoïdes appelée Nvidia Isaac Groot N1. Les modèles Groot sont pré-formés par NVIDIA pour réaliser « Système 1 » et « System 2 » Thinking, une référence au livre Penser vite et lent par le scientifique cognitif Daniel Kahneman. Le logiciel peut être téléchargé à partir de HuggingFace et GitHub.

Le géant des dispositifs médicaux GE est parmi les premières parties à utiliser la version ISAAC pour les soins de santé de NVIDIA ISAAC. Le logiciel fournit un environnement médical simulé qui peut être utilisé pour former des robots médicaux. Les applications pourraient inclure des tests de rayons X et d’échographie de fonctionnement dans certaines parties du monde qui manquent de techniciens qualifiés pour ces tâches.

NVIDIA a mis à jour sa technologie Nvidia Earth pour les prévisions météorologiques avec une nouvelle version, OmIverse Blueprint pour Earth-2. Il comprend des «flux de référence» pour aider les entreprises à prototyper les services de prédiction météorologique, les bibliothèques d’accélération GPU, «un cadre physique-AI, des outils de développement et des microservices».

Aussi: La meilleure IA pour le codage (et ce qu’il ne faut pas utiliser – y compris Deepseek R1)

Les vendeurs d’équipements de stockage peuvent intégrer des agents d’IA dans leur équipement via un nouveau partenariat appelé NVIDIA AI Data Platform. Le partenariat signifie que les fournisseurs d’équipement peuvent choisir d’inclure des GPU Blackwell dans leur équipement. Les vendeurs de stockage Nvidia travaillent avec Include DDN, Dell, Hewlett Packard Enterprise, Hitachi Vantara, IBM, NetApp, Nutanix, Pure Storage, Vast Data et Weka. Les premières offres des vendeurs devraient être disponibles ce mois-ci.

Nvidia a déclaré qu’il s’agissait du plus grand événement du GTC à ce jour, avec 25 000 participants attendus en personne et 300 000 en ligne.

Vous voulez plus d’histoires sur l’IA? Inscrivez-vous à l’innovationnotre newsletter hebdomadaire.





Source link

Related post