(R) KVZIP: Expulsion du cache KV de requête-AGNOSTIQUE – 3 ~ 4 × réduction de la mémoire et 2 × latence de décodage inférieur
|
Salut! Nous présentons KVZIP, une méthode de compression de cache KV conçue pour prendre en charge diverses requêtes futures. Vous pouvez essayer la démo sur Github! Les modèles pris en charge incluent Qwen3 / 2.5, Gemma3 et LLAMA3. La taille du cache KV peut atteindre des dizaines de gigaoctets, même pour une entrée relativement petite (par exemple, un texte de 1 Mo), ce qui rend l’inférence LLM coûteuse. Une tentative majeure de relever ce défi consiste à tirer parti de la rareté observée dans l’utilisation de la paire KV pendant l’attention. Dans cette ligne de travail (par exemple, H2O, Snapkv, etc.), les méthodes utilisent des scores d’attention précédemment calculés pendant le préfiltrage ou le décodage pour identifier les paires KV redondantes. Cependant, la dépendance à ces scores d’attention est intrinsèquement biaisée vers les requêtes d’entrée actuellement traitées. Bien que ces approches soient efficaces dans les références à une seule gère telles que les aiguilles dans un haystack, elles échouent souvent dans des paramètres multi-requins, car le cache KV comprimé a tendance à surfixer à la première requête. Ce qui se différencie Kvzip est qu’il traite le cache KV de contexte comme des codes codés par le transformateur LLMS. Nous invitons ensuite le LLM à décoder le cache KV en utilisant des invites répétées telles que « Répétez le contexte précédent. » Cette perspective permet à la LLM et au cache KV de fonctionner comme une forme de stockage de contexte, conduisant à notre méthode d’expulsion du cache KV de requête. L’observation clé que nous soulignons est que les schémas d’attention sur le contexte pendant le préfiltrage et le décodage diffèrent considérablement. Pendant le préfiltrage, le modèle s’occupe de manière densément des jetons pour générer des représentations contextualisées, tandis que pendant le décodage, il accède clairement aux caractéristiques de contexte de haut niveau qui en résultent. En outre, nous observons que ce modèle d’utilisation de la paire KV présente un chevauchement substantiel sur diverses tâches en aval, notamment la réponse aux questions, la récupération, le codage et le raisonnement. Ces observations motivent notre approche de l’identification de la redondance des paires de KV à travers un processus de reconstruction de contexte. Papier: https://arxiv.org/abs/2505.23416 soumis par / u / janghyun1230 |
