(D) Les nouveaux modèles Gemma 3 de Google de Google lors de notre fonctionnement d’inférence – sous-seconde commence

Intelligence Artificielle
Noesis News
juin 26, 2025
0
29
3 minutes de lecture

Nous avons récemment exécuté des repères à froid pour les nouveaux modèles GEMMA-3 4B (Text + Vision Variants) en utilisant un runtime de conteneur basé sur un instantané sur A6000 (40 Go VRAM). Alors que la plupart des discussions se concentrent sur le débit, le début de la latence de démarrage reste un gros goulot d’étranglement dans les environnements dynamiques ou multi-locataires.

Voici ce que nous avons testé:

Modèle: * Gemma-3 4b (texte et image)
Matériel: A6000 (40 Go VRAM)
Latence de démarrage à froid: ~ 1,8s (texte), ~ 2,1s (vision)
Configuration: Exécution personnalisée Les poids d’instantané et l’état de mémoire au disque. Le premier jeton apparaît ~ 2S après le spin-up du conteneur.

Quelques observations:

Le froid commence à partir du disque est possible en <2s même avec des modèles 4B +, avec un accord minimal.
Cela peut débloquer une meilleure utilisation du GPU pour les charges de travail épineuses ou les cas d’utilisation agentiques.
Nous ne faisons rien de magique, juste des modèles d’instantané en mémoire et de restaurer directement sur le démarrage.

Curieux si d’autres ont essayé des techniques similaires (par exemple, Vllm, Deeppeed Zero, Torchserve Tricks) pour réduire la latence froide.

Comment manipulez-vous tous les démarrages à froid dans des environnements de production ou sans serveur? J’adorerais entendre ce qui fonctionne (ou non).

(Également heureux de partager plus sur la configuration si utile.)

soumis par / u / pmv143
(lien) (Commentaires)

Source link

(D) Les nouveaux modèles Gemma 3 de Google de Google lors de notre fonctionnement d’inférence – sous-seconde commence

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Ce que vous avez peut-être manqué à propos...

Explication du modèle réel avec Rayid Ghani

Apple annonce un programme de fabrication américaine de...

AI dans chaque entreprise: réalité nette

Ce que vous avez peut-être manqué à propos...

Explication du modèle réel avec Rayid Ghani

Apple annonce un programme de fabrication américaine de...

AI dans chaque entreprise: réalité nette

Cinq personnes voient une couleur sans vue auparavant...

Magie du film

Jim Cramer exhorte les investisseurs à rester sur...

Repenser la connectivité globale: pourquoi les dratosphériques des...

L’IA d’Elon Musk propose des

Last Week in AI #297

Pump.fun déploie le Pumpswap Dex

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags