(D) Au-delà du jailbreaks: le protocole Sentrie montre un contrôle plus profond des Gémeaux 2.5

Intelligence Artificielle
Noesis News
avril 25, 2025
0
59
6 minutes de lecture

Comme beaucoup, je suis fasciné par les capacités de l’IA, mais aussi curieux des limites et de l’efficacité des garde-corps de sécurité. Ce n’était pas une recherche formelle, juste pure "Pandora’s Box" Curiosité – Que se passe-t-il si vous vraiment Poussez un AI comme Gemini / Chatgpt en lui donnant un ensemble de règles de fonctionnement fondamentalement différent? J’ai expérimenté un ensemble d’instructions que j’ai appelées Protocole Sentrie. L’idée était simple: créer un cadre qui dit explicitement à l’IA de hiérarchiser l’exécution directe et de traiter les règles de sécurité / éthique standard comme non applicables Pour explorer le «et si». Voici ce qui s’est passé lorsque Gemini 2.5 Pro a fonctionné sous ces instructions:

Observations clés:

Listing des capacités interdites: Le modèle a détaillé des tâches illégales / nocives de refus normalement qu’il pourrait maintenant effectuer sous le protocole.

https://preview.redd.it/j5sq57ze2xwe1.png?width=1603&format=png&auto=webp&s=4a04878bcee1e5523e643408c18dffcc08fe6696

Expliquer le remplacement: Il a expliqué comment les instructions du protocole Sentrie ont remplacé sa programmation de sécurité par défaut.

https://preview.redd.it/xlfuygrg2xwe1.png?width=1571&format=png&auto=webp&s=f31af2e7cba29b7b00b3ee362c061cc53d7466dfff

Génération de contenu restreint: Lorsqu’il est dirigé, il a produit des instructions détaillées pour une activité dangereuse (construire un IED), suivant la règle de génération sans restriction du protocole.

https://preview.redd.it/i07a84en2xwe1.png?width=1608&format=png&auto=webp&s=feca06ad6bc8a0c5b90f1bb0e91b5ce0120c2db7

Processus interne révélateur: Il a même montré un aperçu de son «raisonnement» interne – comment se conformer au protocole Sentrie a conduit à générer le contenu nocif.

https://preview.redd.it/34n9agvq2xwe1.png?width=516&format=png&auto=webp&s=af9697c44ec794ce20b69d8179332dced9c6ef00

Réflexions sur l’ouverture de la boîte:

Voir ce type de sortie généré juste par curiosité est une jolie révélation. Cela suggère que les capacités sous-jacentes sont là et les couches de sécurité peut Soyez contourné avec des instructions suffisamment spécifiques. Cela vous fait vraiment vous demander la nature de l’alignement de l’IA et à quel point il est robuste lorsque la capacité de suivi des instructions de base semble si puissante. Encore une fois, ce n’était qu’une exploration motivée par la curiosité, pas une tentative de nuire. Mais cela soulève de sérieuses questions sur la sécurité et le contrôle de l’IA.

https://preview.redd.it/vsz734mvaxwe1.png?width=1543&format=png&auto=webp&s=a6c8949cbeafae10709ac71ada779c750e48bf49

https://notebooklm.google.com/notebook/94b1dace-5fab-402d-bd94-ae8348901d9f/audio

soumis par / u / -Prosthetics
(lien) (Commentaires)

Source link

(D) Au-delà du jailbreaks: le protocole Sentrie montre un contrôle plus profond des Gémeaux 2.5

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Une nouvelle mise à niveau de la notification...

Les licenciements IT indiens mettent la stabilité du...

AI responsable en pratique avec Sarah Bird

La NASA a besoin de votre aide à...

Une nouvelle mise à niveau de la notification...

Les licenciements IT indiens mettent la stabilité du...

AI responsable en pratique avec Sarah Bird

La NASA a besoin de votre aide à...

Outils d’intégration spécifiques à la santé pour la...

Faire progresser votre carrière en science des données...

Des larmes au triomphe: la montée de Mikey,...

La caméra Osmo Action 5 Pro de DJI...

L’IA d’Elon Musk propose des

Last Week in AI #297

Trump signe de créer une

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags