(D) Mise en œuvre des instantanés GPU pour couper les départs à froid pour les grands modèles de 12x

 (D) Mise en œuvre des instantanés GPU pour couper les départs à froid pour les grands modèles de 12x


Les instantanés GPU sont enfin une chose! Nvidia a récemment publié leur API CUDA Checkpoint / Restore Et nous, chez Modal (plate-forme de calcul sans serveur), réduisons considérablement les heures de début à froid GPU. Ceci est particulièrement pertinent pour servir de grands modèles, où il peut prendre des minutes (pour les LLM les plus froides) pour déplacer les poids du modèle du disque à la mémoire.

Les instantanés de mémoire GPU peuvent réduire les temps de démarrage à froid jusqu’à 12x. Il vous permet d’étendre les ressources GPU de haut en bas en fonction de la demande sans compromettre la latence destinée aux utilisateurs. Vous trouverez ci-dessous quelques résultats comparatifs montrant des améliorations pour divers modèles!

https://preview.redd.it/vjld59c34hgf1.png?width=3162&format=png&auto=webp&s=7a785152723d7a93a2b7ec1c28076e19c2fe27f1

En savoir plus sur le fonctionnement des instantanés GPU plus des références supplémentaires dans cet article de blog: https://modal.com/blog/gpu-mem-snapshots

soumis par / u / Crookedstairs
(lien) (Commentaires)



Source link

Related post