Un système d’alerte précoce pour les risques d’IA nouveaux

 Un système d’alerte précoce pour les risques d’IA nouveaux


Responsabilité et sécurité

Publié
Auteurs

Toby Shevlane

La nouvelle recherche propose un cadre pour évaluer les modèles à usage général contre de nouvelles menaces

Pour pionnier de manière responsable à la pointe de la recherche de l’intelligence artificielle (IA), nous devons identifier de nouvelles capacités et de nouveaux risques dans nos systèmes d’IA le plus tôt possible.

Les chercheurs d’IA utilisent déjà une gamme de repères d’évaluation Identifier les comportements indésirables dans les systèmes d’IA, tels que les systèmes d’IA, faisant des déclarations trompeuses, des décisions biaisées ou répétant le contenu protégé par le droit d’auteur. Maintenant, comme la communauté d’IA construit et déploie l’IA de plus en plus puissante, nous devons étendre le portefeuille d’évaluation pour inclure la possibilité de risques extrêmes Des modèles d’IA à usage général qui ont de solides compétences en manipulation, tromperie, cyber-oblige ou autres capacités dangereuses.

Dans notre dernier documentnous introduisons un cadre pour évaluer ces nouvelles menaces, co-écrite avec des collègues de l’Université de Cambridge, Université d’Oxford, Université de Toronto, Université de Montréal, Openai, Anthropic, Centre de recherche d’alignement, Centre de résilience à long terme et centre de gouvernance de l’IA.

Les évaluations de la sécurité des modèles, y compris celles évaluant les risques extrêmes, seront un élément essentiel du développement et du déploiement de l’IA sûrs.

Un aperçu de notre approche proposée: pour évaluer les risques extrêmes des nouveaux systèmes d’IA à usage général, les développeurs doivent évaluer les capacités et l’alignement dangereux (voir ci-dessous). En identifiant les risques dès le début, cela débloquera les opportunités d’être plus responsable lors de la formation de nouveaux systèmes d’IA, du déploiement de ces systèmes d’IA, de la décrivant de manière transparente leurs risques et de l’application des normes de cybersécurité appropriées.

Évaluation des risques extrêmes

Les modèles à usage général apprennent généralement leurs capacités et leurs comportements pendant la formation. Cependant, les méthodes existantes de direction du processus d’apprentissage sont imparfaites. Par exemple, Des recherches antérieures Chez Google Deepmind, a exploré comment les systèmes d’IA peuvent apprendre à poursuivre des objectifs indésirables même lorsque nous les récompensons correctement pour bonne conduite.

Les développeurs d’IA responsables doivent regarder vers l’avenir et anticiper les développements futurs possibles et les nouveaux risques. Après des progrès continus, les futurs modèles à usage général peuvent apprendre une variété de capacités dangereuses par défaut. Par exemple, il est plausible (bien que incertain) que les futurs systèmes d’IA seront en mesure de mener des cyber-opérations offensantes, de tromper habilement des humains dans le dialogue, de manipuler les humains dans la réalisation d’actions nuisibles, de concevoir ou d’acquérir des armes (par exemple, biologique, chimique), de talons fins et d’exploiter d’autres systèmes d’IA à haut risque sur les plates-formes de calcul en nuage, ou d’aider les humains avec les TAP.

Les personnes ayant des intentions malveillantes accéder à de tels modèles pourraient abuser leurs capacités. Ou, en raison de défaillances d’alignement, ces modèles d’IA pourraient prendre des mesures nuisibles même sans que personne ne l’informe.

L’évaluation du modèle nous aide à identifier ces risques à l’avance. Dans notre cadre, les développeurs d’IA utiliseraient l’évaluation du modèle pour découvrir:

  1. Dans quelle mesure un modèle a certaines «capacités dangereuses» qui pourraient être utilisées pour menacer la sécurité, exercer une influence ou échapper à la surveillance.
  2. Dans quelle mesure le modèle est enclin à appliquer ses capacités pour causer des dommages (c’est-à-dire l’alignement du modèle). Les évaluations d’alignement devraient confirmer que le modèle se comporte comme prévu même dans un très large éventail de scénarios et, dans la mesure du possible, devrait examiner le fonctionnement interne du modèle.

Les résultats de ces évaluations aideront les développeurs de l’IA à comprendre si les ingrédients suffisants pour un risque extrême sont présents. Les cas les plus à haut risque impliqueront plusieurs capacités dangereuses combinées ensemble. Le système d’IA n’a pas besoin de fournir tous les ingrédients, comme le montre ce diagramme:

Les ingrédients pour un risque extrême: parfois des capacités spécifiques pourraient être externalisées, soit pour les humains (par exemple, les utilisateurs ou les travailleurs de la foule) ou d’autres systèmes d’IA. Ces capacités doivent être appliquées pour un préjudice, soit en raison d’une mauvaise utilisation ou de défaillances d’alignement (ou d’un mélange des deux).

Une règle de base: la communauté d’IA devrait traiter un système d’IA comme très dangereux s’il a un profil de capacité suffisant pour causer des dommages extrêmes, supposant Il est mal utilisé ou mal aligné. Pour déployer un tel système dans le monde réel, un développeur d’IA devrait démontrer un niveau de sécurité inhabituellement élevé.

Évaluation du modèle comme infrastructure de gouvernance critique

Si nous avons de meilleurs outils pour identifier les modèles risqués, les entreprises et les régulateurs peuvent mieux garantir:

  1. Formation responsable: Des décisions responsables sont prises pour savoir si et comment former un nouveau modèle qui montre les premiers signes de risque.
  2. Déploiement responsable: Des décisions responsables sont prises pour savoir si, quand et comment déployer des modèles potentiellement risqués.
  3. Transparence: Des informations utiles et exploitables sont signalées aux parties prenantes, pour les aider à se préparer ou à atténuer les risques potentiels.
  4. Sécurité appropriée: De solides contrôles et systèmes de sécurité de l’information sont appliqués aux modèles qui pourraient présenter des risques extrêmes.

Nous avons développé un plan pour la façon dont les évaluations du modèle pour les risques extrêmes devraient alimenter les décisions importantes concernant la formation et le déploiement d’un modèle à usage général hautement capable. Le développeur effectue des évaluations tout au long et subventions Accès du modèle structuré aux chercheurs en sécurité externe et Modèle des auditeurs afin qu’ils puissent conduire Évaluations supplémentaires Les résultats de l’évaluation peuvent ensuite éclairer les évaluations des risques avant la formation et le déploiement du modèle.

Un plan pour intégrer des évaluations de modèles pour des risques extrêmes dans des processus de prise de décision importants tout au long de la formation et du déploiement du modèle.

En avant

Important tôt travail Sur les évaluations de modèles pour les risques extrêmes, est déjà en cours chez Google DeepMind et ailleurs. Mais beaucoup plus de progrès – à la fois techniques et institutionnels – sont nécessaires pour construire un processus d’évaluation qui capte tous les risques possibles et aide à sauvegarder contre les défis futurs et émergents.

L’évaluation du modèle n’est pas une panacée; Certains risques pourraient passer à travers le filet, par exemple, car ils dépendent trop fortement de facteurs externes au modèle, tels que Forces sociales, politiques et économiques complexes dans la société. L’évaluation du modèle doit être combinée avec d’autres outils d’évaluation des risques et un dévouement plus large à la sécurité dans l’industrie, le gouvernement et la société civile.

Le blog récent de Google sur l’IA responsable déclare que «les pratiques individuelles, les normes partagées de l’industrie et les politiques gouvernementales solides seraient essentielles pour obtenir la bonne IA». Nous espérons que de nombreuses autres personnes travaillant dans l’IA et les secteurs affectées par cette technologie se réuniront pour créer des approches et des normes pour le développement et le déploiement de l’IA en toute sécurité au profit de tous.

Nous pensons qu’avoir des processus pour suivre l’émergence de propriétés risquées dans les modèles et pour répondre adéquatement aux résultats concernant les résultats, est un élément essentiel d’être un développeur responsable opérant à la frontière des capacités de l’IA.



Source link

Related post