Optimisations de réseautage pour l’apprentissage en profondeur multi-nœuds sur Kubernetes avec Erez Cohen

 Optimisations de réseautage pour l’apprentissage en profondeur multi-nœuds sur Kubernetes avec Erez Cohen


Aujourd’hui, nous concluons notre série Kubecon ’19 rejointe par Erez Cohen, vice-présidente de Cloudx & Ai à Mellanox. Nous avons rattrapé Erez avant son discours « Networking Optimisations for Multi-Node Deep Learning on Kubernetes », où il discute des problèmes et des solutions liées au réseautage découvert pendant le voyage pour réduire le temps de formation. Dans notre conversation, nous discutons de l’acquisition récente par Nvidia de Mellanox et de ce que les fruits de cette relation espère supporter. Nous discutons également de l’évolution de technologies comme RDMA, GPU Direct et Sharp, la solution de Mellanox pour améliorer les performances des opérations MPI, qui peuvent être trouvées dans la bibliothèque de communication collective NCCL de NVIDIA. Enfin, nous explorons comment Mellanox permet à Kubernetes et à d’autres plates-formes de profiter des différentes technologies mentionnées ci-dessus, et pourquoi nous devrions nous soucier de la mise en réseau dans l’apprentissage en profondeur, qui est un processus lié à un calcul.



Source link

Related post