NVIDIA dévoile l’interrupteur de réseau optique qui change la donne

 NVIDIA dévoile l’interrupteur de réseau optique qui change la donne


Un composant de réseau informatique émergent tant attendu peut enfin avoir son moment. À GTC de Nvidia événement la semaine dernière San Josela société a annoncé qu’elle produirait un commutateur de réseau optique conçu pour réduire considérablement la consommation d’énergie de l’IA centres de données. Le système – a appelé un co-emballé optiqueou CPO, commutateur –peut acheminer des dizaines de térabits par seconde à partir d’ordinateurs dans un rack à des ordinateurs dans un autre. En même temps, startup Réseaux de micasa annoncé qu’il était en production de volume avec un commutateur CPO basé sur Technologie de Broadcom.

Dans les centres de données aujourd’hui, les commutateurs réseau dans un rack d’ordinateurs sont constitués de puces spécialisées liées électriquement à l’optique émetteurs-récepteurs Cet branche sur le système. (Les connexions dans un rack sont électriques, mais Plusieurs startups J’espère changer cela.) Les émetteurs-récepteurs enfichables combinent lasers, circuits optiquessignal numérique processeurset autres électroniques. Ils établissent un lien électrique vers l’interrupteur et traduisent les données entre les bits électroniques du côté de l’interrupteur et les photons qui volent dans le centre de données le long fibres optiques.

L’optique co-emballée est un effort pour augmenter la bande passante et réduire la consommation d’énergie en déplaçant la conversion des données optiques / électriques aussi près que possible à la puce de commutation. Cela simplifie la configuration et économise de l’énergie en réduisant le nombre de composants distincts nécessaires et les signaux électroniques de distance doivent voyager. Emballage avancé La technologie permet aux fabricants de puces d’entourer la puce du réseau avec plusieurs émetteurs-récepteurs optiques en silicium chiplet. Les fibres optiques se fixent directement à l’emballage. Ainsi, tous les composants sont intégrés dans un seul package à l’exception des lasers, qui restent externes car ils sont fabriqués à l’aide de matériaux et de technologies non silicium. (Malgré cela, les CPO ne nécessitent qu’un seul laser pour huit liens de données dans le matériel de Nvidia.)

«Une IA supercalculateur avec 400 000 GPUS est en fait un laser de 24 mégawatts. » —Ian Buck, Nvidia

Aussi attrayante d’une technologie que cela semble, son économie l’a empêché de déploier. «Nous attendons le CPO depuis toujours», dit Clint Schowun expert en optique co-emballé et Fellow IEE à l’Université de Californie Santa Barbara, qui a été Recherche de la technologie pendant 20 ans. En parlant de l’approbation de la technologie par Nvidia, il a déclaré que la société «ne le ferait pas à moins que le moment était là où (les centres de données gardés par GPU) ne pouvaient pas dépenser le pouvoir». L’ingénierie impliquée est si complexe, Schow ne pense pas que cela en vaut la peine à moins que «de faire les choses à l’ancienne est cassée».

Et en effet, Nvidia a souligné la consommation d’énergie dans les centres de données d’IA à venir comme une motivation. L’optique enfichable consomme «10% de la puissance totale de calcul du GPU» dans un centre de données d’IA, dit Ian BuckVice-président de Nvidia de l’hyperscale et informatique haute performance. Dans une usine de 400 000-GPU qui se traduirait par 40 mégawatts, et plus de la moitié va juste pour alimenter les lasers dans un émetteur-récepteur d’optique enfichable. «Un supercalculateur de l’IA avec 400 000 GPU est en fait un laser de 24 mégawatts», dit-il.

Modulateurs optiques

Une différence fondamentale entre le programme de Broadcom et celle de Nvidia est le modulateur optique Technologie qui code pour les bits électroniques sur des faisceaux de lumière. Dans Photonique en silicium Il existe deux principaux types de modulateurs –Mach-zenderlequel À Broadcom utilise et est la base de l’optique enfichable et du microration résonateurque Nvidia a choisi. Dans le premier, lumière voyageant à travers un guide d’onde est divisé en deux bras parallèles. Chaque bras peut ensuite être modulé par un champ électriquece qui change la phase de la lumière qui passe. Les bras rejoignent ensuite pour former un seul guide d’onde. Selon que les deux signaux sont maintenant en phase ou hors phase, ils s’annuleront ou se combineront. Et donc les bits électroniques peuvent être codés sur la lumière.

Les modulateurs de microration sont beaucoup plus compacts. Au lieu de diviser la lumière le long de deux chemins parallèles, un guide d’onde en forme d’anneau est suspendu sur le côté du chemin principal de la lumière. Si la lumière est d’une longueur d’onde qui peut former une onde debout dans l’anneau, elle sera siphonée, filtrant cette longueur d’onde du guide d’onde principal. Exactement quelle longueur d’onde résonne avec l’anneau dépend de la structure indice de réfractionqui peut être manipulé électroniquement.

Cependant, la compacité du microration comporte un coût. Les modulateurs de microration sont sensibles à la température, de sorte que chacun nécessite un circuit de chauffage intégré, qui doit être soigneusement contrôlé et consomme de l’énergie. D’un autre côté, les appareils Mach-Zender sont considérablement plus grands, ce qui entraîne une lumière plus perdue et certains problèmes de conception, explique Schow.

Que Nvidia a réussi à commercialiser un silicium basé sur un microration photonique Le moteur est «un exploit d’ingénierie incroyable», explique Schow.

Commutateurs NVIDIA CPO

Selon NVIDIA, l’adoption des commutateurs CPO dans un nouveau centre de données d’IA entraînerait un quart du nombre de lasers, boost efficacité énergétique Pour les données de trafic de 3,5 fois, améliorez la fiabilité des signaux en le faisant d’un ordinateur à un autre à temps de 63 fois, rendez les réseaux 10 fois plus résilients aux perturbations et permettez aux clients de déployer un nouveau matériel de centre de données 30% plus rapidement.

« En intégrant la photonique de silicium directement dans les commutateurs, Nvidia brise l’ancienne limitation des réseaux d’hyperscale et d’entreprise et d’ouvrir la porte à des usines de Million-GPU AI », a déclaré le PDG de Nvidia Jensen Huang.

https://www.youtube.com/watch?v=ks8r7ucexjuYoutubeyoutu.be

La société prévoit deux classes de commutation, Spectrum-X et Quantum-X. Quantum-X, qui, selon la société, sera disponible plus tard cette année, est basé sur Infiniband La technologie du réseau, un schéma de réseau plus orienté vers l’informatique haute performance. Il délivre 800 Go / s à partir de chacun des 144 ports, et ses deux puces CPO sont refroidies par liquide au lieu de refroidissement à l’air, tout comme une fraction croissante de nouveaux centres de données d’IA. Le réseau ASIC comprend les nvidia Sharp FP8 La technologie, qui permet aux CPU et aux GPU de décharger certaines tâches sur la puce réseau.

Spectrum-X est un commutateur basé sur Ethernet qui peut fournir une bande passante totale d’environ 100 térabits par seconde, contre un total de 128 ou 512 ports et 400 To / s à partir de 512 ou 2048 ports. Les fabricants de matériel devraient avoir des commutateurs Spectrum-X prêts en 2026.

Nvidia travaille sur la technologie photonique fondamentale depuis des années. Mais il a fallu une collaboration avec 11 partenaires, y compris Tsmc, Corninget Foxconn—Pour passer à un état commercial.

Ashkan Seyedi, directeur des produits d’interconnexion optique chez NVIDIA, a souligné à quel point il était important que les technologies que ces partenaires aient apportées à la table aient été cooptimisées pour satisfaire les besoins du centre de données d’IA plutôt que simplement assemblées à partir des technologies existantes de ces partenaires.

«Les innovations et les économies de puissance activées par CPO sont intimement liées à votre schéma d’emballage, à vos partenaires d’emballage, à votre flux d’emballage», explique Seyedi. « La nouveauté n’est pas seulement directement dans les composants optiques, c’est dans la façon dont ils sont emballés de manière à compter à haut rendement que vous pouvez gérer à bon coût. »

Les tests sont particulièrement importants, car le système est une intégration de tant de composants coûteux. Par exemple, il y a 18 chiplets photoniques de silicium dans chacun des deux CPO dans le système Quantum-X. Et chacun d’eux doit se connecter à deux lasers et 16 fibres optiques. Seyedi dit que l’équipe a dû développer plusieurs nouvelles procédures de test pour faire les choses correctement et tracer où les erreurs se glissaient.

Commutateurs de réseaux MICas

Micas Networks est déjà en production avec un commutateur basé sur la technologie CPO de Broadcom.Micas Network

Broadcom a choisi les modulateurs Mach-Zender les plus établis pour ses Interrupteur Bailly CPOen partie parce qu’il s’agit d’une technologie plus standardisée, ce qui facilite l’intégration plus facile à l’infrastructure de l’émetteur-récepteur enfichable existant, explique Robert Hannahdirecteur principal du marketing produit dans la division des systèmes optiques de Broadcom.

Système de Micas utilise un seul composant CPO, qui est composé de Broadcom Tomahawk 5 Ethernet Chifle de commutation entourée de huit moteurs optiques photoniques en silicium de 6,4 To / s. Le matériel refroidi par air est en pleine production maintenant, le mettant avant les commutateurs CPO de NVIDIA.

Hannah appelle l’implication de Nvidia une approbation du timing de Micas et Broadcom. «Il y a plusieurs années, nous avons pris la décision de patiner là où la rondelle allait être», dit Mitch GalbraithDirecteur des opérations de Micas. Les opérateurs de centres de données se précipitant pour alimenter leur infrastructure, le temps de CPO semble être venu, dit-il.

Le nouveau commutateur promet une économie de puissance de 40% par rapport aux systèmes peuplés de rédacteurs en jeu standard. Cependant, Charlie Houvice-président de la stratégie d’entreprise chez MICas, affirme que la fiabilité plus élevée de CPO est tout aussi importante. « Volet de liaison», Le terme pour une défaillance transitoire des liens optiques enfichables est l’un des coupables responsables de l’allongement des séries d’entraînement déjà longs, dit-il. CPO devrait avoir moins de liens de liens car il y a moins de composants dans le chemin du signal, entre autres raisons.

CPOS dans le futur

Les grands centres de données d’économie d’énergie cherchent à obtenir du CPO est principalement un avantage unique, suggère Schow. Après cela, « je pense que ce sera juste la nouvelle normale. » Cependant, les améliorations des autres fonctionnalités de l’électronique permettront aux fabricants de CPO continuer à augmenter la bande passante – pour un temps au moins.

Schow doute des modulateurs de silicium individuels – qui se déroulent à 200 Go / s dans les moteurs photoniques de NVIDIA – pourront passer bien plus de 400 Go / s. Cependant, d’autres matériaux, comme niobate de lithium et phosphure d’indium devrait être en mesure de dépasser cela. L’astuce sera de les intégrer abordable avec des composants en silicium, ce que Santa Barbara Couvercle travaille sur, parmi autres groupes.

En attendant, les optiques enfichables ne sont pas immobiles. Cette semaine, Broadcom a dévoilé un nouveau processeur de signal numérique Cela pourrait entraîner une réduction de plus de 20% de puissance pour les émetteurs-récepteurs de 1,6 To / s, en partie en raison d’un processus de silicium plus avancé.

Et startups tel que Avicena, Labs Ayaret Moulin à lumière travaillent pour apporter interconnexions optiques jusqu’au GPU lui-même. Les deux premiers ont développé des chiplets destinés à entrer dans le même package qu’un processeur GPU ou un autre processeur. LightMatter va plus loin, faisant du moteur photonique en silicium le substrat d’emballage sur lequel les futures puces sont empilées en 3D.

À partir des articles de votre site

Articles connexes sur le Web



Source link

Related post