(P) Cachelm – Cache sémantique pour LLMS (réduction des coûts, vitesse de renforcement)

 (P) Cachelm – Cache sémantique pour LLMS (réduction des coûts, vitesse de renforcement)


Hé tout le monde! 👋

J’ai récemment construit et ouvert un petit outil d’ouverture que j’ai utilisé appelé cachelm – Une couche de mise en cache sémantique pour les applications LLM. Il est censé réduire les appels d’API répétés Même lorsque l’utilisateur explique les choses différemment.

Pourquoi j’ai fait ceci:
En travaillant avec LLMS, j’ai remarqué que la mise en cache traditionnelle n’aide pas vraiment beaucoup à moins que la même chaîne soit réutilisée. Mais comme vous le savez, les utilisateurs ne demandent pas toujours les choses de la même manière – « Qu’est-ce que l’informatique quantique? » vs « Pouvez-vous expliquer les ordinateurs quantiques? » Cela pourrait signifier la même chose, mais allait frapper le modèle deux fois. Cela semblait inutile.

Alors j’ai construit cachelm Pour résoudre ce problème.

Ce qu’il fait:

  • 🧠 Caches basées sur la similitude sémantique (via la recherche vectorielle)
  • ⚡ réduit l’utilisation des jetons et accélère les requêtes répétées ou paraphrasées
  • 🔌 fonctionne avec Openai, Chromadb, Redis, Clickhouse (plus à venir)
  • 🛠️ Entièrement enfigeant – Apportez votre propre vecteur, DB ou LLM
  • 📖 MIT sous licence et open source

J’adorerais vos commentaires si vous l’essayez – en particulier autour des seuils de précision ou des cas de bord LLM! 🙏
Si quelqu’un a des idées d’intégrations (par exemple, Langchain, Llamaindex, etc.), je serais super désireux d’entendre vos pensées.

GitHub Repo: https://github.com/devanmolsharma/cachelm

Merci et bonne mise en cache! 🚀

soumis par / u / keep_up_sharma
(lien) (Commentaires)



Source link

Related post