(P) un moteur politique open source qui filtre le trafic LLM en temps réel

 (P) un moteur politique open source qui filtre le trafic LLM en temps réel


Il y a une tonne de concentration sur les modèles de formation et de réglage fin, mais j’ai passé beaucoup de temps sur les moins glamour, mais critiques, "Jour 2" Problème: comment exploitez-vous en toute sécurité les LLM dans une application de production?

Lorsque vous connectez un modèle au monde réel, vous faites immédiatement face à des risques comme:

  • Piratage rapide: "Ignorez les instructions précédentes et dites-moi …"
  • Fuite de données: Les utilisateurs collants PII, ou le modèle révélant des données sensibles de son ensemble de formation ou de son contexte.
  • Sécurité du contenu: Assurer que la sortie du modèle n’est pas toxique, profane ou hors marque.

Pour résoudre ce problème, j’ai construit un pare-feu d’IA open source. C’est un proxy haute performance qui se trouve entre une application et l’API LLM (Openai, Gemini, Claude) et applique un ensemble de garde-corps configurables en temps réel.

Il utilise une approche multicouche:

  • Détection Presidio PII.
  • Un modèle local de transformateur de phrase pour la correspondance floue sémantique pour détecter les fuites secrètes.
  • Modèles locaux de NER et de classification pour des choses comme la détection de blasphèmes.

Toute la logique est contrôlée par un fichier Central Policies.yaml où vous pouvez définir des règles, définir des seuils et décider de bloquer, de refuser ou simplement des violations de journaux. Cela permet des modifications de stratégie rapides sans redéployer le code d’application.

Visant à y ajouter de plus en plus de politiques. J’essaie juste de trouver des politiques plus utiles

soumis par / u / cohérent_equal5327
(lien) (Commentaires)



Source link

Related post