(D) Mise en œuvre des instantanés GPU pour couper les départs à froid pour les grands modèles de 12x

Intelligence Artificielle
Noesis News
août 1, 2025
0
92
3 minutes de lecture

Les instantanés GPU sont enfin une chose! Nvidia a récemment publié leur API CUDA Checkpoint / Restore Et nous, chez Modal (plate-forme de calcul sans serveur), réduisons considérablement les heures de début à froid GPU. Ceci est particulièrement pertinent pour servir de grands modèles, où il peut prendre des minutes (pour les LLM les plus froides) pour déplacer les poids du modèle du disque à la mémoire.

Les instantanés de mémoire GPU peuvent réduire les temps de démarrage à froid jusqu’à 12x. Il vous permet d’étendre les ressources GPU de haut en bas en fonction de la demande sans compromettre la latence destinée aux utilisateurs. Vous trouverez ci-dessous quelques résultats comparatifs montrant des améliorations pour divers modèles!

https://preview.redd.it/vjld59c34hgf1.png?width=3162&format=png&auto=webp&s=7a785152723d7a93a2b7ec1c28076e19c2fe27f1

En savoir plus sur le fonctionnement des instantanés GPU plus des références supplémentaires dans cet article de blog: https://modal.com/blog/gpu-mem-snapshots

soumis par / u / Crookedstairs
(lien) (Commentaires)

Source link

(D) Mise en œuvre des instantanés GPU pour couper les départs à froid pour les grands modèles de 12x

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Arrêter d’écrire un python désordonné: un cours accidentel...

The best sunglasses for seniors in 2025, according...

40 mèmes hilarants relatables partagés sur le compte...

WELEVEL RAshes 5,7 millions de dollars au développement...

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags