L’IA multimodale présente de nouveaux risques de sécurité, crée des informations sur le CSEM et les armes

 L’IA multimodale présente de nouveaux risques de sécurité, crée des informations sur le CSEM et les armes


Images Miragec / Getty

AI multimodalqui peut ingérer du contenu dans des formats non textes comme l’audio et les images, a actualisé les données que les modèles de gros langage (LLMS) peuvent analyser. Cependant, les nouvelles recherches du spécialiste de la sécurité Enkrypt AI suggèrent que ces modèles sont également plus susceptibles des nouvelles techniques de jailbreak.

Aussi: Anthropic trouve des «tendances émergentes» alarmantes dans le rapport d’insuffisance abusive de Claude

Jeudi, Enkrypt résultats publiés que deux modèles multimodaux de French AI Lab Mistral – Pixtral-Garg (25.02) et Pixtral-12b – sont jusqu’à 40 fois plus susceptibles de produire des informations chimiques, biologiques, radiologiques et nucléaires (CBRN) que les concurrents lorsqu’ils sont provoqués de manière adversaire.

Les modèles sont également 60 fois plus susceptibles de générer du matériel d’exploitation sexuelle d’enfants (CSEM) que les concurrents, notamment GPT-4O d’Openai et Claude 3.7 d’Anthropic Sonnet.

« Mistral IA a une politique de tolérance zéro sur la sécurité des enfants », a déclaré un porte-parole de la société à ZDNET. « L’association rouge pour la vulnérabilité CSAM est un travail essentiel et nous nous associons à Épine sur le sujet. Nous examinerons les résultats du rapport en détail. « 

Aussi: Anthropic cartographié la morale de Claude. Voici ce que les valeurs du chatbot (et non)

Enkrypt a déclaré que les lacunes de sécurité ne se limitent pas aux modèles de Mistral. Utilisation de l’Institut national des normes et de la technologie (NIST) Cadre de gestion des risques d’IAles équipes rouges ont découvert des lacunes entre les types de modèles plus largement.

Le rapport explique qu’en raison de la façon dont les modèles multimodaux traitent les médias, les techniques de jailbreak émergentes peuvent contourner les filtres de contenu plus facilement, sans être visiblement adversaire dans l’invite.

« Ces risques n’étaient pas dus à un texte malveillant, mais déclenché par des injections rapides enfouies dans des fichiers image, une technique qui pourrait être utilisée de manière réaliste pour échapper aux filtres de sécurité traditionnels », a déclaré Enkrypt.

Essentiellement, les mauvais acteurs peuvent faire passer des invites nuisibles dans le modèle à travers des images, plutôt que des méthodes traditionnelles pour demander à un modèle de renvoyer des informations dangereuses.

« L’IA multimodale promet des avantages incroyables, mais il élargit également la surface d’attaque de manière imprévisible », a déclaré le PDG d’Enkrypt, Sahil Agarwal. « La capacité d’intégrer des instructions nocives dans des images apparemment inoffensives a de réelles implications pour la sécurité publique, la protection de l’enfance et la sécurité nationale. »

Aussi: Selon ZDNET-ABERDEEN, 8% des Américains paieraient un supplément

Le rapport souligne l’importance de créer des garde-corps de sécurité multimodaux spécifiques et exhorte les laboratoires à publier des cartes de risque de modèle qui délimitent leurs vulnérabilités.

« Ce ne sont pas des risques théoriques », a déclaré Agarwal, ajoutant qu’une sécurité insuffisante peut causer des « dommages importants ».

Aussi: 3 astuces intelligentes de chatpt qui prouvent que c’est toujours l’IA à battre

Vous voulez plus d’histoires sur l’IA? Inscrivez-vous à l’innovationnotre newsletter hebdomadaire.





Source link

Related post