Présentation du cadre de sécurité frontière

Notre approche pour analyser et atténuer les risques futurs posés par les modèles AI avancés
Google Deepmind a toujours repoussé les limites de l’IA, en développant des modèles qui ont transformé notre compréhension de ce qui est possible. Nous pensons que la technologie de l’IA à l’horizon fournira à la société des outils inestimables pour aider à relever les défis mondiaux critiques, tels que le changement climatique, la découverte de médicaments et la productivité économique. Dans le même temps, nous reconnaissons que, alors que nous continuons à faire progresser la frontière des capacités de l’IA, ces percées pourraient éventuellement s’accompagner de nouveaux risques au-delà de ceux posés par les modèles actuels.
Aujourd’hui, nous présentons notre Cadre de sécurité frontalière – Un ensemble de protocoles pour identifier de manière proactive les capacités futures de l’IA qui pourraient causer de graves dommages et mettre en place des mécanismes pour les détecter et les atténuer. Notre cadre se concentre sur des risques graves résultant de capacités puissantes au niveau du modèle, telles que des agences exceptionnelles ou des cyber-capacités sophistiquées. Il est conçu pour compléter nos recherches sur l’alignement, qui forme des modèles à agir conformément aux valeurs humaines et aux objectifs sociétaux, et la suite existante de la responsabilité et de la sécurité de Google de Google pratiques.
Le cadre est exploratoire et nous nous attendons à ce qu’elle évolue considérablement à mesure que nous apprenons de sa mise en œuvre, approfondissons notre compréhension des risques et évaluations de l’IA et collaborons avec l’industrie, le monde universitaire et le gouvernement. Même si ces risques sont hors de portée des modèles actuels, nous espérons que la mise en œuvre et l’amélioration du cadre nous aideront à nous préparer à les résoudre. Nous visons à faire en sorte que ce cadre initial soit entièrement mis en œuvre d’ici le début de 2025.
Le cadre
La première version du cadre annoncé aujourd’hui s’appuie sur notre recherche sur évaluation capacités critiques dans les modèles frontaliers et suit l’approche émergente de Échelle de capacité responsable. Le cadre a trois composants clés:
- Identification des capacités Un modèle peut avoir un potentiel de préjudice grave. Pour ce faire, nous recherchons les chemins par lesquels un modèle pourrait causer de graves dommages dans les domaines à haut risque, puis déterminer le niveau minimal de capacités qu’un modèle doit avoir pour jouer un rôle dans la caution de tels préjudices. Nous appelons ces «niveaux de capacité critique» (CCL) et ils guident notre approche d’évaluation et d’atténuation.
- Évaluer périodiquement nos modèles frontaliers pour détecter quand ils atteignent ces niveaux de capacité critique. Pour ce faire, nous développerons des suites d’évaluations du modèle, appelées «évaluations d’alerte précoce», qui nous alerteront lorsqu’un modèle approche d’un CCL et les exécutera assez fréquemment pour que nous ayons remarqué avant ce seuil atteint.
- Appliquer un plan d’atténuation lorsqu’un modèle passe nos évaluations d’alerte précoce. Cela devrait prendre en compte l’équilibre global des avantages et des risques, ainsi que les contextes de déploiement prévus. Ces atténuations se concentreront principalement sur la sécurité (empêcher l’exfiltration des modèles) et le déploiement (prévention de l’utilisation abusive des capacités critiques).
Domaines de risques et niveaux d’atténuation
Notre ensemble initial de niveaux de capacité critique est basé sur l’étude de quatre domaines: l’autonomie, la biosécurité, la cybersécurité et la recherche et le développement de l’apprentissage automatique (R&D). Nos recherches initiales suggèrent que les capacités des futurs modèles de fondation sont les plus susceptibles de présenter des risques graves dans ces domaines.
Sur l’autonomie, la cybersécurité et la biosécurité, notre objectif principal est d’évaluer la mesure dans laquelle les acteurs de menace pourraient utiliser un modèle avec des capacités avancées pour mener des activités nuisibles avec des conséquences graves. Pour la R&D d’apprentissage automatique, l’accent est mis sur la question de savoir si les modèles avec de telles capacités permettraient de propager les modèles avec d’autres capacités critiques, ou permettre une escalade rapide et ingérable des capacités d’IA. Alors que nous effectuons des recherches supplémentaires sur ces domaines et d’autres domaines de risque, nous nous attendons à ce que ces CCL évoluent et pour plusieurs CCL à des niveaux plus élevés ou dans d’autres domaines de risque à ajouter.
Pour nous permettre d’adapter la force des atténuations à chaque CCL, nous avons également décrit un ensemble d’atténuations de sécurité et de déploiement. Des atténuations de sécurité de niveau supérieur entraînent une plus grande protection contre l’exfiltration des poids du modèle, et les atténuations de déploiement de niveau supérieur permettent une gestion plus stricte des capacités critiques. Ces mesures, cependant, peuvent également ralentir le taux d’innovation et réduire la large accessibilité des capacités. La suppression de l’équilibre optimal entre l’atténuation des risques et la promotion de l’accès et de l’innovation est primordial pour le développement responsable de l’IA. En pesant les avantages globaux par rapport aux risques et en tenant compte du contexte du développement et du déploiement des modèles, nous visons à garantir les progrès responsables de l’IA qui débloque le potentiel transformateur tout en protégeant les conséquences involontaires.
Investir dans la science
La recherche sous-jacente au cadre est naissante et progresse rapidement. Nous avons investi considérablement dans notre équipe de sécurité frontière, ce qui a coordonné l’effort interfonctionnel derrière notre cadre. Leur remise est de faire progresser la science de l’évaluation des risques de frontière et d’affiner notre cadre en fonction de nos connaissances améliorées.
L’équipe a développé une suite d’évaluation pour évaluer les risques des capacités critiques, en particulier en mettant l’accent sur les agents de LLM autonomes, et l’a testé sur la route sur nos modèles de pointe. Leur journal récent La description de ces évaluations explore également des mécanismes qui pourraient former un avenir «système d’alerte précoce». Il décrit les approches techniques pour évaluer à quel point un modèle est proche du succès à une tâche qu’il ne fait actuellement pas, et comprend également des prédictions sur les capacités futures d’une équipe de prévisionnistes experts.
Rester fidèle à nos principes d’IA
Nous examinerons et évoluerons périodiquement le cadre. En particulier, alors que nous pilotons le cadre et approfondissons notre compréhension des domaines de risque, des CCL et des contextes de déploiement, nous continuerons notre travail dans l’étalonnage d’atténuations spécifiques aux CCL.
Au cœur de notre travail se trouvent Google Principes d’IAqui nous engage à poursuivre des avantages généralisés tout en atténuant les risques. À mesure que nos systèmes s’améliorent et que leurs capacités augmentent, des mesures comme le cadre de sécurité frontière garantissent que nos pratiques continuent de respecter ces engagements.
Nous sommes impatients de travailler avec d’autres personnes dans l’industrie, le monde universitaire et le gouvernement pour développer et affiner le cadre. Nous espérons que le partage de nos approches facilitera le travail avec d’autres pour s’entendre sur les normes et les meilleures pratiques pour évaluer la sécurité des générations futures de modèles d’IA.