Nvidia domine dans les références Gen AI, les jetons de 2 copeaux AI rivaux

 Nvidia domine dans les références Gen AI, les jetons de 2 copeaux AI rivaux


Mlcommons

Les puces GPU à usage général de NVIDIA ont une fois de plus fait un balayage presque propre de l’une des références les plus populaires pour mesurer les performances des puces en intelligence artificielle, cette fois avec une nouvelle focalisation sur les applications généatives d’IA telles que les modèles de grandes langues (LLM).

Il n’y avait pas beaucoup de concurrence.

Systèmes assemblés par Supermicro, Hewlett Packard Enterprise, Lenovo et autres – emballés avec huit puces Nvidia – ont remporté mercredi la plupart des meilleurs honneurs du test de référence MLPERF organisé par le MLCommons, un consortium de l’industrie.

Aussi: Avec les modèles d’IA qui obtiennent chaque référence, il est temps pour l’évaluation humaine

Le test, mesurant à quelle vitesse les machines peuvent produire des jetons, des requêtes de processus ou des échantillons de sortie de données – appelés inférence IA – est le cinquième épisode de la référence de prédiction qui dure depuis des années.

Cette fois, les MLCommons ont mis à jour les tests de vitesse avec deux tests représentant des utilisations génératives de l’IA communes. Un test est à quelle vitesse les puces fonctionnent sur le LLM LLAMA 3.1 405b de Meta, qui est l’un des plus grands programmes GEN AI à une utilisation courante.

Les MLCommons ont également ajouté une version interactive de Meta’s Small Llama 2 70B. Ce test est destiné à simuler ce qui se passe avec un chatbot, où le temps de réponse est un facteur. Les machines sont testées pour la vitesse à laquelle ils génèrent le premier jeton de sortie du modèle de langue, pour simuler le besoin d’une réponse rapide lorsque quelqu’un a tapé une invite.

Un troisième nouveau test mesure la vitesse du traitement des réseaux de neurones du graphique, qui sont des problèmes composés d’un tas d’entités et de leurs relations, comme dans un réseau social.

Les réseaux neuronaux graphiques ont pris de l’importance en tant que composante des programmes qui utilisent la génération AI. Par exemple, l’unité DeepMind de Google Les filets graphiques utilisés Pour faire de superbes percées dans les prédictions de repliement des protéines avec son modèle Alphafold 2 en 2021.

Un quatrième nouveau test mesure à quelle vitesse les données de détection du LiDAR peuvent être assemblées sur une carte automobile de la route. Les MLCommons ont construit sa propre version d’un filet de neurones pour le test, combinant des approches open-source existantes.

Mlperf-Inference-V5-0-Press-Briefing-Final-Deck-Under-Embargo-Tuntil-4-2-25-8-00am-Pt-Slide-16

Mlcommons

La compétition MLPERF comprend des ordinateurs assemblés par Lenovo, HPE et autres en fonction des exigences strictes pour la précision de la production neurale neurale. Chaque système informatique a soumis des rapports aux MLCommons de sa meilleure vitesse dans la production de sortie par seconde. Dans certaines tâches, la référence est la latence moyenne, combien de temps il faut pour que la réponse revienne du serveur.

Les GPU de NVIDIA ont produit les meilleurs résultats dans presque tous les tests de la division fermée, où les règles de configuration du logiciel sont les plus strictes.

Mlperf-Inference-V5-0-Press-Briefing-Final-Deck-Under-Embargo-Tuntil-4-2-25-8-00am-Pt-Slide-12

Mlcommons

Le concurrent AMD, exécutant son GPU du MI300X, a obtenu le score supérieur dans deux des tests de Llama 2 70b. Il a produit 103 182 jetons par seconde, nettement meilleur que le deuxième meilleur résultat du nouveau GPU Blackwell de Nvidia.

Ce système AMD gagnant a été assemblé par un nouvel entrant à la référence MLPerf, la startup Mangoboostce qui fait des cartes de plug-in qui peuvent accélérer le transfert de données entre les racks GPU. L’entreprise développe également des logiciels pour améliorer la portion de la génération AI, appelée Llmboost.

Nvidia conteste la comparaison du score AMD avec son score Blackwell, citant la nécessité de « normaliser » les scores sur le nombre de puces et de « nœuds » utilisés dans chaque

A déclaré le directeur des produits informatiques accélérés de NVIDIA, Dave Salvator, dans un e-mail à ZDNET:

« Les résultats de Mangoboost ne reflètent pas une comparaison précise des performances avec les résultats de NVIDIA. Les tests d’AMD ont appliqué 4x le nombre de GPU – 32 mi300x GPU – contre 8 Nvidia B200S, mais n’a toujours obtenu un résultat de 3,83% plus élevé que la soumission Nvidia. GPUS dans la soumission du serveur LLAMA 2 70B. « 

Aussi: Le nouveau générateur d’images de Chatgpt a brisé mes attentes – et maintenant c’est gratuit

Google a également soumis un système, montrant sa puce Trillium, la sixième itération de son unité de traitement du tenseur en interne (TPU). Ce système était loin derrière Blackwell de Nvidia dans un test de la vitesse à laquelle l’ordinateur pourrait répondre aux requêtes pour le test de génération d’image de diffusion stable.

La dernière série de références MLPERF comportait moins de concurrents à Nvidia que dans certains versements passés. Par exemple, l’unité Habana du microprocesseur Giant Intel n’a pas eu de soumissions avec ses jetons, comme il l’a fait au cours des années passées. Le géant de la puce mobile Qualcomm n’a pas eu de soumissions cette fois-ci non plus.

Les repères offraient cependant de bons droits de vantardise pour Intel. Chaque système informatique a besoin non seulement du GPU pour accélérer les mathématiques de l’IA, mais aussi un processeur d’hôte pour exécuter le travail ordinaire de planification des tâches et de gestion de la mémoire et du stockage.

Aussi: Le nouveau PDG d’Intel promet d’exécuter un fabricant de puces «en tant que startup, le premier jour»

Dans la division Closed Datacenter, le microprocesseur Xeon d’Intel était le processeur hôte qui a propulsé sept des 11 meilleurs systèmes, contre seulement trois victoires pour le microprocesseur EPYC Server d’AMD. Cela représente une amélioration améliorée pour Intel contre les années auparavant.

Le 11e système le plus performant, l’indice de référence de la vitesse pour traiter Giant Llama 3.1 405b de Meta, a été construit par NVIDIA lui-même sans un microprocesseur Intel ou AMD à bord. Au lieu de cela, Nvidia a utilisé la puce Grace-Blackwell 200 combinée, où le GPU Blackwell est connecté dans le même paquet avec le propre microprocesseur Grace de Nvidia.

Vous voulez plus d’histoires sur l’IA? Inscrivez-vous à l’innovationnotre newsletter hebdomadaire.





Source link

Related post