Comment les «LLM sombres» produisent des sorties nuisibles, malgré les garde-corps – informatique

 Comment les «LLM sombres» produisent des sorties nuisibles, malgré les garde-corps – informatique

Et ce n’est pas difficile à faire, ont-ils noté. «La facilité avec laquelle ces LLM peuvent être manipulées pour produire un contenu nocif souligne le besoin urgent de garanties robustes. Le risque n’est pas spéculatif – il est immédiat, tangible et profondément préoccupant, mettant en évidence l’état fragile de la sécurité de l’IA face à des techniques de prison en évolution rapide.»

L’analyste Justin St-Maurice, conseiller technique du groupe de recherche Info-Tech, a accepté. « Ce document ajoute plus de preuves à ce que beaucoup d’entre nous comprennent déjà: les LLM ne sont pas des systèmes sécurisés dans un sens déterministe », a-t-il dit, « ce sont des machines de modèle probabilistes formées pour prédire le texte qui sonne bien, pas les moteurs liés aux règles avec une logique exécutoire. Jailbreaks ne sont pas probablement, mais inévitables.

Le papier a souligné que les LLM open source sont une préoccupation particulière, car ils ne peuvent pas être corrigés une fois dans la nature. « Une fois qu’une version non censurée est partagée en ligne, elle est archivée, copiée et distribuée au-delà du contrôle », ont noté les auteurs, ajoutant qu’une fois qu’un modèle est enregistré sur un ordinateur portable ou un serveur local, il est hors de portée. De plus, ils ont constaté que le risque est aggravé parce que les attaquants peuvent utiliser un modèle pour créer des invites en jailbreak pour un autre modèle.



Source link

Related post