(D) Les nouveaux modèles Gemma 3 de Google de Google lors de notre fonctionnement d’inférence – sous-seconde commence

 (D) Les nouveaux modèles Gemma 3 de Google de Google lors de notre fonctionnement d’inférence – sous-seconde commence


Nous avons récemment exécuté des repères à froid pour les nouveaux modèles GEMMA-3 4B (Text + Vision Variants) en utilisant un runtime de conteneur basé sur un instantané sur A6000 (40 Go VRAM). Alors que la plupart des discussions se concentrent sur le débit, le début de la latence de démarrage reste un gros goulot d’étranglement dans les environnements dynamiques ou multi-locataires.

Voici ce que nous avons testé:

  • Modèle: * Gemma-3 4b (texte et image)

  • Matériel: A6000 (40 Go VRAM)

  • Latence de démarrage à froid: ~ 1,8s (texte), ~ 2,1s (vision)

  • Configuration: Exécution personnalisée Les poids d’instantané et l’état de mémoire au disque. Le premier jeton apparaît ~ 2S après le spin-up du conteneur.

Quelques observations:

  • Le froid commence à partir du disque est possible en <2s même avec des modèles 4B +, avec un accord minimal.

  • Cela peut débloquer une meilleure utilisation du GPU pour les charges de travail épineuses ou les cas d’utilisation agentiques.

  • Nous ne faisons rien de magique, juste des modèles d’instantané en mémoire et de restaurer directement sur le démarrage.

Curieux si d’autres ont essayé des techniques similaires (par exemple, Vllm, Deeppeed Zero, Torchserve Tricks) pour réduire la latence froide.

Comment manipulez-vous tous les démarrages à froid dans des environnements de production ou sans serveur? J’adorerais entendre ce qui fonctionne (ou non).

(Également heureux de partager plus sur la configuration si utile.)

soumis par / u / pmv143
(lien) (Commentaires)



Source link

Related post