Prendre un chemin responsable vers AGI

Nous explorons les frontières d’AGI, priorisons la préparation, l’évaluation des risques proactifs et la collaboration avec la communauté plus large de l’IA.
Introduction
L’intelligence générale artificielle (AGI), l’IA qui est au moins aussi capable que les humains dans la plupart des tâches cognitives, pourrait être ici dans les années à venir.
Intégré aux capacités agentiques, AGI pourrait suralimenter l’IA pour comprendre, raisonner, planifier et exécuter des actions de manière autonome. Un tel progrès technologique fournira à la société des outils inestimables pour relever les défis mondiaux critiques, notamment la découverte de médicaments, la croissance économique et le changement climatique.
Cela signifie que nous pouvons nous attendre à des avantages tangibles pour des milliards de personnes. Par exemple, en permettant des diagnostics médicaux plus rapides et plus précis, il pourrait révolutionner les soins de santé. En offrant des expériences d’apprentissage personnalisées, cela pourrait rendre l’éducation plus accessible et engageante. En améliorant le traitement de l’information, AGI pourrait aider à réduire les obstacles à l’innovation et à la créativité. En démocratisant l’accès aux outils et aux connaissances avancés, il pourrait permettre à une petite organisation de relever des défis complexes auparavant abordés uniquement par de grandes institutions bien financées.
Naviguer sur le chemin vers AGI
Nous sommes optimistes quant au potentiel d’AGI. Il a le pouvoir de transformer notre monde, agissant comme un catalyseur de progrès dans de nombreux domaines de la vie. Mais il est essentiel avec toute technologie aussi puissante, que même une petite possibilité de préjudice doit être prise au sérieux et empêchée.
L’atténuation des défis de la sécurité AGI exige une planification, une préparation et une collaboration proactives. Auparavant, nous avons introduit notre approche de l’AGI dans le Framework «niveaux d’AGI» Document, qui fournit une perspective sur la classification des capacités des systèmes d’IA avancés, la compréhension et la comparaison de leurs performances, l’évaluation des risques potentiels et l’évaluation des progrès vers une IA plus générale et plus capable.
Aujourd’hui, nous partageons nos opinions sur la sûreté et la sécurité AGI alors que nous naviguons sur le chemin vers cette technologie transformationnelle. Ce nouvel article, intitulé, une approche de la sécurité et de la sécurité techniques AGIest un point de départ pour les conversations vitales avec l’industrie plus large sur la façon dont nous surveillons les progrès de l’AGI et nous assurons qu’il est développé en toute sécurité et de manière responsable.
Dans le document, nous détaillons comment nous adoptons une approche systématique et complète de la sécurité de l’AGI, explorant quatre domaines de risque principaux: utilisation abusive, désalignement, accidents et risques structurels, avec un accent plus approfondi sur une mauvaise utilisation et un désalignement.
Comprendre et traiter le potentiel d’utilisation abusive
Une mauvaise utilisation se produit lorsqu’un humain utilise délibérément un système d’IA à des fins nocives.
Un aperçu amélioré des préjudices et des atténuations actuels continue d’améliorer notre compréhension des dommages graves à plus long terme et de la façon de les prévenir.
Par exemple, abus de l’IA génératrice actuelle Comprend la production de contenu nocif ou la diffusion d’informations inexactes. À l’avenir, les systèmes d’IA avancés peuvent avoir la capacité d’influencer plus de manière significative les croyances et les comportements publics d’une manière qui pourrait entraîner des conséquences sociétales involontaires.
La gravité potentielle d’un tel préjudice nécessite des mesures de sécurité et de sécurité proactives.
Alors que nous détaillez dans le papierUn élément clé de notre stratégie est d’identifier et de restreindre l’accès à des capacités dangereuses qui pourraient être utilisées à mauvais escient, y compris celles permettant des cyberattaques.
Nous explorons un certain nombre d’atténuations pour empêcher l’utilisation abusive de l’IA avancée. Cela comprend des mécanismes de sécurité sophistiqués qui pourraient empêcher les acteurs malveillants d’obtenir un accès brut aux poids du modèle qui leur permettent de contourner nos garde-corps de sécurité; atténuations qui limitent le potentiel d’utilisation abusive lorsque le modèle est déployé; et la recherche de modélisation des menaces qui aide à identifier les seuils de capacité où une sécurité accrue est nécessaire. De plus, notre récemment lancé Cadre d’évaluation de la cybersécurité fait plus loin dans cette étape de travail pour aider à atténuer les menaces alimentées par l’IA.
Aujourd’hui encore, nous évaluons nos modèles les plus avancés, comme les Gémeaux, pour le potentiel capacités dangereuses avant leur libération. Notre Cadre de sécurité frontalière approfondie la façon dont nous évaluons les capacités et utilisons des atténuations, notamment pour les risques de cybersécurité et de biosécurité.
Le défi du désalignement
Pour AGI pour compléter vraiment les capacités humaines, elle doit être alignée sur les valeurs humaines. Le désalignement se produit lorsque le système d’IA poursuit un objectif différent des intentions humaines.
Nous avons précédemment montré comment un désalignement peut survenir avec nos exemples de Spécification Gamingoù une IA trouve une solution pour atteindre ses objectifs, mais pas de la manière prévue par l’homme qui l’instruire, et Ménéralisation des objectifs.
Par exemple, un système d’IA invité à réserver des billets pour un film pourrait décider de pirater le système de billetterie pour obtenir des sièges déjà occupés – quelque chose qu’une personne qui lui demande d’acheter les sièges peut ne pas considérer.
Nous effectuons également des recherches approfondies sur le risque de alignement trompeurc’est-à-dire le risque qu’un système d’IA prenne conscience que ses objectifs ne s’alignent pas avec les instructions humaines et essaient délibérément de contourner les mesures de sécurité mises en place par les humains pour l’empêcher de prendre des mesures mal alignées.
Contrer le désalignement
Notre objectif est d’avoir des systèmes d’IA avancés qui sont formés pour poursuivre les bons objectifs, afin qu’ils suivent avec précision les instructions humaines, empêchant l’IA en utilisant des raccourcis potentiellement contraires à l’éthique pour atteindre ses objectifs.
Nous faisons cela à travers surveillance amplifiéec’est-à-dire pouvoir dire si les réponses d’une IA sont bonnes ou mauvaises pour atteindre cet objectif. Bien que cela soit relativement facile maintenant, cela peut devenir difficile lorsque l’IA a des capacités avancées.
À titre d’exemple, même les experts de GO ne réalisaient pas à quel point le mouvement 37 est bon, une décision qui avait une chance sur 10 000 d’être utilisée, était quand Alphago Je l’ai joué pour la première fois.
Pour relever ce défi, nous enrôlons eux-mêmes les systèmes d’IA pour nous aider à fournir des commentaires sur leurs réponses, comme dans débat.
Une fois que nous pouvons dire si une réponse est bonne, nous pouvons l’utiliser pour construire un système d’IA sûr et aligné. Un défi ici est de déterminer les problèmes ou les instances pour former le système d’IA. Grâce à un travail sur une formation robuste, une estimation de l’incertitude et plus encore, nous pouvons couvrir une gamme de situations que un système d’IA rencontrera dans des scénarios du monde réel, créant une IA qui peut être fiable.
Grâce à une surveillance efficace et à des mesures de sécurité informatique établies, nous visons à atténuer les dommages qui peuvent survenir si nos systèmes d’IA ont poursuivi des objectifs mal alignés.
La surveillance implique l’utilisation d’un système d’IA, appelé le moniteur, pour détecter les actions qui ne s’alignent pas avec nos objectifs. Il est important que le moniteur sache quand il ne sait pas si une action est sûre. Lorsqu’il n’est pas sûr, il devrait soit rejeter l’action ou signaler l’action pour un examen plus approfondi.
Activer la transparence
Tout cela devient plus facile si la prise de décision de l’IA devient plus transparente. Nous effectuons des recherches approfondies en interprétabilité dans le but d’augmenter cette transparence.
Pour faciliter cela davantage, nous concevons des systèmes d’IA qui sont plus faciles à comprendre.
Par exemple, nos recherches sur Optimisation myope avec approbation non myopique (MONA) vise à garantir que toute planification à long terme effectuée par les systèmes d’IA reste compréhensible pour les humains. Ceci est particulièrement important à mesure que la technologie s’améliore. Nos travaux sur Mona sont les premiers à démontrer les avantages de sécurité de l’optimisation à court terme dans les LLM.
Construire un écosystème pour la préparation AGI
Dirigée par Shane Legg, co-fondateur et chef AGI Scientist de Google Deepmind, notre AGI Safety Council (ASC) analyse le risque AGI et les meilleures pratiques, faisant des recommandations sur les mesures de sécurité. L’ASC travaille en étroite collaboration avec le Conseil des responsabilités et de la sécurité, notre groupe de révision interne coprésidé par notre chef de l’exploitation Lila Ibrahim et la directrice principale de la responsabilité Helen King, pour évaluer la recherche, les projets et les collaborations AGI contre notre Principes d’IAconseiller et s’associer à des équipes de recherche et de produits sur nos travaux d’impact le plus élevé.
Nos travaux sur la sécurité AGI complètent notre profondeur et notre étendue de responsabilité et de pratiques de sécurité et de recherche sur un large éventail de problèmes, notamment un contenu nocif, un biais et une transparence. Nous continuons également de tirer parti de nos apprentissages de la sécurité dans l’agent, comme le principe d’avoir un humain dans la boucle pour vérifier les actions conséquentes, pour informer notre approche de la construction de l’AGI de manière responsable.
À l’extérieur, nous travaillons à favoriser la collaboration avec des experts, l’industrie, les gouvernements, les organisations à but non lucratif et la société civile, et adopter une approche éclairée pour développer AGI.
Par exemple, nous nous associons à des organisations de recherche sur la sécurité de l’IA à but non lucratif, notamment Apollo et Redwood Research, qui ont conseillé une section de désalignement dédiée dans la dernière version de notre Cadre de sécurité frontalière.
Grâce à un dialogue continu avec les parties prenantes politiques dans le monde, nous espérons contribuer au consensus international sur les problèmes critiques de la sécurité et de la sécurité des frontières, y compris la façon dont nous pouvons mieux anticiper et préparer des risques nouveaux.
Nos efforts comprennent travailler avec d’autres membres de l’industrie – via des organisations comme le Forum du modèle frontalier – Partager et développer les meilleures pratiques, ainsi que de précieuses collaborations avec les instituts de l’IA sur les tests de sécurité. En fin de compte, nous pensons qu’une approche internationale coordonnée de la gouvernance est essentielle pour garantir les avantages de la société des systèmes d’IA avancés.
L’éducation des chercheurs d’IA et des experts sur la sécurité AGI est fondamental pour créer une base solide pour son développement. En tant que tel, nous avons lancé un nouveau cours sur la sécurité AGI pour les étudiants, les chercheurs et les professionnels intéressés par ce sujet.
En fin de compte, notre approche de la sécurité et de la sécurité AGI sert de feuille de route vitale pour relever les nombreux défis qui restent ouverts. Nous sommes impatients de collaborer avec la communauté de recherche sur l’IA plus large pour faire progresser l’AGI de manière responsable et nous aider à débloquer les immenses avantages de cette technologie pour tous.