Nvidia Blackwell mène l’inférence de l’IA, les défis AMD

 Nvidia Blackwell mène l’inférence de l’IA, les défis AMD


Dans la dernière série de apprentissage automatique Les résultats de référence de MLCommons, les ordinateurs construits autour de l’architecture GPU Blackwell de Nvidia ont surpassé toutes les autres. Mais la dernière tournure d’AMD sur son instinct GPUSle MI325, s’est avéré un match pour le Nvidia H200, le produit qu’il devait contrer. Les résultats comparables figuraient principalement sur les tests de l’un des plus petits Modèles de grande langue LLAMA2 70B (pour 70 milliards de paramètres). Cependant, dans le but de suivre un paysage d’IA en évolution rapide, Mlperf Ajout de trois nouveaux repères pour mieux refléter où l’apprentissage automatique est dirigé.

MLPerf exécute l’analyse comparative pour les systèmes d’apprentissage automatique dans le but de fournir une comparaison de pommes-applications entre les systèmes informatiques. Les étudiants utilisent leurs propres logiciels et matériels, mais le sous-jacent réseaux neuronaux doit être le même. Il y a un total de 11 repères pour serveurs Maintenant, avec trois ajoutés cette année.

Il a été «difficile de suivre le développement rapide du domaine», explique Miro Hodak, coprésident de l’inférence du MLPERF. Chatte n’est apparu que fin 2022, Openai a dévoilé son premier modèle de grande langue (LLM) qui peut raisonner à travers les tâches en septembre dernier, et les LLM ont augmenté de façon exponentielle – GPT3 avait 175 milliards de paramètres, tandis que GPT4 aurait près de 2 billions. À la suite de l’innovation vertigineuse, «WE a augmenté le rythme de mettre de nouvelles références sur le terrain », explique Hodak.

Les nouveaux repères comprennent deux LLM. Le LLAMA2-70B populaire et relativement compact est déjà une référence MLPerf établie, mais le consortium voulait quelque chose qui imitait la réactivité que les gens attendent chatbots aujourd’hui. Ainsi, la nouvelle référence «LLAMA2-70B Interactive» resserre les exigences. Les ordinateurs doivent produire au moins 25 jetons par seconde en aucune circonstance et ne peuvent pas prendre plus de 450 millisecondes pour commencer une réponse.

Voir la montée de «AI agentique”—Networks qui peuvent raisonner à travers des tâches complexes – MLPerf a cherché à tester un LLM qui aurait certaines des caractéristiques nécessaires pour cela. Ils ont choisi LLAMA3.1 405b pour le travail. Ce LLM a ce qui est appelé une fenêtre de contexte large. C’est une mesure de la quantité d’informations – des documents, des échantillons de code, etc. comme Llama2 70b.

La nouvelle référence finale, appelée RGAT, est ce qu’on appelle un réseau d’attention de graphiques. Il agit pour classer les informations dans un réseau. Par exemple, l’ensemble de données utilisé pour tester RGAT se compose d’articles scientifiques, qui ont tous des relations entre les auteurs, les institutions et les domaines d’études, composant 2 téraoctets de données. RGAT doit classer les papiers en un peu moins de 3000 sujets.

Blackwell, Résultats de l’instinct

Nvidia a poursuivi sa domination sur les références MLPERF par le biais de ses propres soumissions et de celles de 15 partenaires tels que Tablier, Googleet Supermicro. Sa première et deuxième génération Trémie Les GPU de l’architecture – le H100 et le H200 amélioré par la mémoire – ont fait de solides spectacles. «Nous avons pu obtenir une autre performance de 60% au cours de la dernière année» de Hopper, qui est entré en production en 2022, explique Dave Salvatordirecteur des produits informatiques accélérés chez NVIDIA. «Il a encore une certaine hauteur en termes de performances.»

Mais c’était Nvidia Blackwell Architecture GPU, le B200, qui a vraiment dominé. «La seule chose plus rapide que Hopper est Blackwell», explique Salvator. Le B200 emballe 36% de mémoire à largeur de bande élevée que le H200, mais plus important encore, il peut effectuer des mathématiques à apprentissage automatique clés en utilisant des nombres avec une précision aussi faible que 4 bits au lieu de la trémie de 8 bits pionnière. Les unités de calcul de précision plus faible sont plus petites, donc plus ajustées sur le GPU, ce qui conduit à l’informatique AI plus rapide.

Dans la référence LLAMA3.1 405B, un système de huit-B200 de Supermicro a livré près de quatre fois les jetons par seconde d’un système de huit H200 par Cisco. Et le même système Supermicro était trois fois plus rapide que l’ordinateur H200 le plus rapide de la version interactive de LLAMA2-70B.

Nvidia a utilisé sa combinaison de GPU Blackwell et CPU Graceappelé GB200, pour démontrer dans quelle mesure ses liens de données NVL72 peuvent intégrer plusieurs serveurs dans un rack, de sorte qu’ils fonctionnent comme s’ils étaient un GPU géant. Dans un résultat non vérifié que la société a partagé avec les journalistes, un rack complet d’ordinateurs basés sur GB 200 offre 869 200 jetons / s sur LLAMA2 70B. Le système le plus rapide signalé dans ce tour de MLPerf était un serveur NVIDIA B200 qui a livré 98 443 jetons / s.

DMLApositionne son dernier Instinct GPU, le MI325X, comme offrant des performances compétitives au H200 de Nvidia. Le MI325X a la même architecture que son prédécesseur MI300 mais ajoute encore plus de mémoire de la bande passante et de bande passante de mémoire – 256 gigaoctets et 6 téraoctets par seconde (une augmentation de 33% et 13% respectivement).

L’ajout de plus de mémoire est un jeu pour gérer les LLM de plus en plus grands. « Les modèles plus grands sont capables de profiter de ces GPU car le modèle peut s’intégrer dans un seul GPU ou un seul serveur », explique Mahesh Balasubramaniandirecteur du marketing GPU du centre de données chez AMD. «Vous n’avez donc pas besoin d’avoir cette fin de communication de passer d’un GPU à un autre GPU ou un serveur à un autre serveur. Lorsque vous tAssez ces communications, votre latence s’améliore un peu. » AMD a pu profiter de la mémoire supplémentaire grâce à l’optimisation des logiciels pour augmenter la vitesse d’inférence de Deepseek-R1 8 fois.

Sur le test LLAMA2-70B, un ordinateur MI325X de huit gpu a connu 3 à 7% à la vitesse d’un système basé sur H200 trompé de manière similaire. Et sur la génération d’images, le système MI325X était à 10% de l’ordinateur NVIDIA H200.

L’autre marque notable d’AMD ce tour provenait de son partenaire, Mangoboost, qui a montré près de quatre fois les performances du test LLAMA2-70B en faisant le calcul sur quatre ordinateurs.

Intel Historiquement, a présenté des systèmes CPU uniquement dans le concours d’inférence pour montrer que pour certaines charges de travail, vous n’avez pas vraiment besoin d’un GPU. Cette fois-ci, a vu les premières données des puces Xeon 6 d’Intel, qui étaient autrefois connues sous le nom de rapides de granit et sont fabriquées Processus d’Intel à 3 nanomètres. À 40 285 échantillons par seconde, le meilleur reconnaissance d’image Les résultats d’un ordinateur à double Xeon 6 représentaient environ un tiers les performances d’un ordinateur Cisco avec deux NVIDIA H100S.

Par rapport aux résultats de Xeon 5 d’octobre 2024, le nouveau processeur fournit une augmentation d’environ 80% sur cette référence et une augmentation encore plus importante de la détection d’objets et imagerie médicale. Depuis qu’il a commencé à soumettre les résultats de Xeon en 2021 (le Xeon 3), la société a atteint une augmentation de 11 fois les performances sur Resnet.

Pour l’instant, il semble qu’Intel ait quitté le terrain dans la bataille de la puce de l’accélérateur AI. Son alternative au Nvidia H100, Gaudi 3n’a pas fait une apparition dans les nouveaux résultats MLPERF ni dans la version 4.1, publiée en octobre dernier. Gaudi 3 a obtenu une libération plus tard que prévue parce que c’est Le logiciel n’était pas prêt. Dans les remarques d’ouverture à Intel Vision 2025la conférence client sur invitation de l’entreprise, le PDG nouvellement créé, Lip Bu Tan, semblait s’excuser pour les efforts d’Intel. «Je ne suis pas satisfait de notre position actuelle», il Tell aux participants. «Tu n’es pas non plus.

GoogleTPU V6E Chip a également fait une affiche, bien que les résultats n’étaient limités qu’à la tâche de génération d’images. À 5,48 requêtes par seconde, le système 4-TPU a vu un augmentation de 2,5x par rapport à un ordinateur similaire en utilisant son prédécesseur TPU V5E dans les résultats d’octobre 2024. Malgré cela, 5,48 requêtes par seconde étaient à peu près conformes à une Lenovo Ordinateur utilisant NVIDIA H100S.

Ce poste a été corrigé le 2 avril 2025 pour donner la bonne valeur pour la mémoire à large bande passante dans le MI325X.

À partir des articles de votre site

Articles connexes sur le Web



Source link

Related post