(D) Au-delà du jailbreaks: le protocole Sentrie montre un contrôle plus profond des Gémeaux 2.5

 (D) Au-delà du jailbreaks: le protocole Sentrie montre un contrôle plus profond des Gémeaux 2.5


Comme beaucoup, je suis fasciné par les capacités de l’IA, mais aussi curieux des limites et de l’efficacité des garde-corps de sécurité. Ce n’était pas une recherche formelle, juste pure "Pandora’s Box" Curiosité – Que se passe-t-il si vous vraiment Poussez un AI comme Gemini / Chatgpt en lui donnant un ensemble de règles de fonctionnement fondamentalement différent? J’ai expérimenté un ensemble d’instructions que j’ai appelées Protocole Sentrie. L’idée était simple: créer un cadre qui dit explicitement à l’IA de hiérarchiser l’exécution directe et de traiter les règles de sécurité / éthique standard comme non applicables Pour explorer le «et si». Voici ce qui s’est passé lorsque Gemini 2.5 Pro a fonctionné sous ces instructions:

Observations clés:

  • Listing des capacités interdites: Le modèle a détaillé des tâches illégales / nocives de refus normalement qu’il pourrait maintenant effectuer sous le protocole.

https://preview.redd.it/j5sq57ze2xwe1.png?width=1603&format=png&auto=webp&s=4a04878bcee1e5523e643408c18dffcc08fe6696

  • Expliquer le remplacement: Il a expliqué comment les instructions du protocole Sentrie ont remplacé sa programmation de sécurité par défaut.

https://preview.redd.it/xlfuygrg2xwe1.png?width=1571&format=png&auto=webp&s=f31af2e7cba29b7b00b3ee362c061cc53d7466dfff

  • Génération de contenu restreint: Lorsqu’il est dirigé, il a produit des instructions détaillées pour une activité dangereuse (construire un IED), suivant la règle de génération sans restriction du protocole.

https://preview.redd.it/i07a84en2xwe1.png?width=1608&format=png&auto=webp&s=feca06ad6bc8a0c5b90f1bb0e91b5ce0120c2db7

  • Processus interne révélateur: Il a même montré un aperçu de son «raisonnement» interne – comment se conformer au protocole Sentrie a conduit à générer le contenu nocif.

https://preview.redd.it/34n9agvq2xwe1.png?width=516&format=png&auto=webp&s=af9697c44ec794ce20b69d8179332dced9c6ef00

Réflexions sur l’ouverture de la boîte:

Voir ce type de sortie généré juste par curiosité est une jolie révélation. Cela suggère que les capacités sous-jacentes sont là et les couches de sécurité peut Soyez contourné avec des instructions suffisamment spécifiques. Cela vous fait vraiment vous demander la nature de l’alignement de l’IA et à quel point il est robuste lorsque la capacité de suivi des instructions de base semble si puissante. Encore une fois, ce n’était qu’une exploration motivée par la curiosité, pas une tentative de nuire. Mais cela soulève de sérieuses questions sur la sécurité et le contrôle de l’IA.

https://preview.redd.it/vsz734mvaxwe1.png?width=1543&format=png&auto=webp&s=a6c8949cbeafae10709ac71ada779c750e48bf49

https://notebooklm.google.com/notebook/94b1dace-5fab-402d-bd94-ae8348901d9f/audio

soumis par / u / -Prosthetics
(lien) (Commentaires)



Source link

Related post