(P) Nous avons construit ce projet pour augmenter le débit LLM par 3x. Maintenant, il a été adopté par IBM dans leur pile de service LLM!

Intelligence Artificielle
Noesis News
juillet 6, 2025
0
28
3 minutes de lecture

Salut les gars, notre équipe a construit ce projet open source, LMCACH, pour réduire le calcul répétitif dans l’inférence LLM et faire des systèmes servir plus de personnes (3x plus de débit dans les applications de chat) et il a été utilisé dans la pile d’idées Open Source LLM d’Open source d’IBM.

Dans LLM Serving, l’entrée est calculée dans des états intermédiaires appelés KV Cache pour fournir davantage des réponses. Ces données sont relativement importantes (~ 1 à 2 Go pour un contexte long) et sont souvent expulsées lorsque la mémoire GPU ne suffit pas. Dans ces cas, lorsque les utilisateurs posent une question de suivi, le logiciel doit recomputer le même cache KV. LMCACH est conçu pour lutter contre cela en déchargeant et en chargeant efficacement ces caches KV vers et depuis DRAM et DISK. Cela est particulièrement utile dans les paramètres d’AQ à plusieurs tourments lorsque la réutilisation du contexte est importante, mais la mémoire GPU ne suffit pas.

Demandez-nous n’importe quoi!

Github: https://github.com/lmcache/lmcache

soumis par / U / Nice-Fachfortable-650
(lien) (Commentaires)

Source link

(P) Nous avons construit ce projet pour augmenter le débit LLM par 3x. Maintenant, il a été adopté par IBM dans leur pile de service LLM!

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Recycler les matériaux de lame d’éoliennes pour faire...

(D) Boîte de délimitation sous forme

Octopus inspires new suction mechanism for robots

Cybertruck a brûlé si gravement que les os...

L’IA d’Elon Musk propose des

Last Week in AI #297

Pump.fun déploie le Pumpswap Dex

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags