(R) KVZIP: Expulsion du cache KV de requête-AGNOSTIQUE – 3 ~ 4 × réduction de la mémoire et 2 × latence de décodage inférieur

Intelligence Artificielle
Noesis News
juin 17, 2025
0
43
5 minutes de lecture

https://preview.redd.it/4qrmmzskjh7f1.png?width=1964&format=png&auto=webp&s=18473fd20cb120ea599d634f5b6d1c4ee887cf62

Salut! Nous présentons KVZIP, une méthode de compression de cache KV conçue pour prendre en charge diverses requêtes futures. Vous pouvez essayer la démo sur Github! Les modèles pris en charge incluent Qwen3 / 2.5, Gemma3 et LLAMA3.

La taille du cache KV peut atteindre des dizaines de gigaoctets, même pour une entrée relativement petite (par exemple, un texte de 1 Mo), ce qui rend l’inférence LLM coûteuse. Une tentative majeure de relever ce défi consiste à tirer parti de la rareté observée dans l’utilisation de la paire KV pendant l’attention. Dans cette ligne de travail (par exemple, H2O, Snapkv, etc.), les méthodes utilisent des scores d’attention précédemment calculés pendant le préfiltrage ou le décodage pour identifier les paires KV redondantes. Cependant, la dépendance à ces scores d’attention est intrinsèquement biaisée vers les requêtes d’entrée actuellement traitées. Bien que ces approches soient efficaces dans les références à une seule gère telles que les aiguilles dans un haystack, elles échouent souvent dans des paramètres multi-requins, car le cache KV comprimé a tendance à surfixer à la première requête.

Ce qui se différencie Kvzip est qu’il traite le cache KV de contexte comme des codes codés par le transformateur LLMS. Nous invitons ensuite le LLM à décoder le cache KV en utilisant des invites répétées telles que « Répétez le contexte précédent. » Cette perspective permet à la LLM et au cache KV de fonctionner comme une forme de stockage de contexte, conduisant à notre méthode d’expulsion du cache KV de requête.

https://preview.redd.it/izoyk3ofjh7f1.png?width=2356&format=png&auto=webp&s=957a68204f5c702ee3980cd82f559aff0f7ece2f

L’observation clé que nous soulignons est que les schémas d’attention sur le contexte pendant le préfiltrage et le décodage diffèrent considérablement. Pendant le préfiltrage, le modèle s’occupe de manière densément des jetons pour générer des représentations contextualisées, tandis que pendant le décodage, il accède clairement aux caractéristiques de contexte de haut niveau qui en résultent. En outre, nous observons que ce modèle d’utilisation de la paire KV présente un chevauchement substantiel sur diverses tâches en aval, notamment la réponse aux questions, la récupération, le codage et le raisonnement. Ces observations motivent notre approche de l’identification de la redondance des paires de KV à travers un processus de reconstruction de contexte.

Papier: https://arxiv.org/abs/2505.23416

Code: https://github.com/snu-mllab/kvzip

soumis par / u / janghyun1230
(lien) (Commentaires)

Source link

(R) KVZIP: Expulsion du cache KV de requête-AGNOSTIQUE – 3 ~ 4 × réduction de la mémoire et 2 × latence de décodage inférieur

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Bitcoin Open Interest plonge de 43% à 24,5...

Pourquoi le droit et l’ordre: Huang de SVU...

Jim Gates: supersymétrie, théorie des cordes et prouvant...

Points de contrôle pour la formation du modèle...

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags