(D) Au-delà du jailbreaks: le protocole Sentrie montre un contrôle plus profond des Gémeaux 2.5

Comme beaucoup, je suis fasciné par les capacités de l’IA, mais aussi curieux des limites et de l’efficacité des garde-corps de sécurité. Ce n’était pas une recherche formelle, juste pure "Pandora’s Box" Curiosité – Que se passe-t-il si vous vraiment Poussez un AI comme Gemini / Chatgpt en lui donnant un ensemble de règles de fonctionnement fondamentalement différent? J’ai expérimenté un ensemble d’instructions que j’ai appelées Protocole Sentrie. L’idée était simple: créer un cadre qui dit explicitement à l’IA de hiérarchiser l’exécution directe et de traiter les règles de sécurité / éthique standard comme non applicables Pour explorer le «et si». Voici ce qui s’est passé lorsque Gemini 2.5 Pro a fonctionné sous ces instructions: Observations clés:
Réflexions sur l’ouverture de la boîte: Voir ce type de sortie généré juste par curiosité est une jolie révélation. Cela suggère que les capacités sous-jacentes sont là et les couches de sécurité peut Soyez contourné avec des instructions suffisamment spécifiques. Cela vous fait vraiment vous demander la nature de l’alignement de l’IA et à quel point il est robuste lorsque la capacité de suivi des instructions de base semble si puissante. Encore une fois, ce n’était qu’une exploration motivée par la curiosité, pas une tentative de nuire. Mais cela soulève de sérieuses questions sur la sécurité et le contrôle de l’IA. https://notebooklm.google.com/notebook/94b1dace-5fab-402d-bd94-ae8348901d9f/audio soumis par / u / -Prosthetics |