Google Deepmind propose des «moniteurs» AI aux modèles hyperintelligents de la police
Google Deepmind a introduit une nouvelle approche pour sécuriser l’IA génératrice frontalière et publié un article le 2 avril. DeepMind s’est concentré sur deux de ses quatre domaines de risque clés: «Une mauvaise utilisation, un désalignement, des erreurs et des risques structurels».
Deepmind regarde au-delà de l’IA de la frontière actuelle à l’intelligence générale artificielle (AGI), à l’intelligence de niveau humain, qui pourrait révolutionner les soins de santé et d’autres industries ou déclencher le chaos technologique. Il y a un certain scepticisme quant à savoir si AGI de cette ampleur existera jamais.
Affirmer que l’AGI de type humain est imminent et doit être préparé pour une stratégie de battage médiatique aussi ancienne que Openaiqui a commencé avec un énoncé de mission similaire en 2015. Bien que la panique sur l’IA hyperintelligent ne soit pas justifiée, des recherches comme Deepmind contribuent à une stratégie de cybersécurité à plusieurs volets plus large pour l’IA génératrice.
Empêcher les mauvais acteurs de mal utiliser une IA générative
La mauvaise utilisation et le désalignement sont les deux facteurs de risque qui se produiraient à des fins: une mauvaise utilisation implique un acteur de menace humaine malveillante, tandis que le désalignement décrit les scénarios où l’IA suit les instructions d’une manière qui en fait un adversaire. Les «erreurs» (erreurs involontaires) et les «risques structurels» (problèmes résultant, peut-être d’incitations contradictoires, sans acteur unique) terminent le cadre en quatre parties.
Pour aborder une mauvaise utilisation, DeepMind propose Les stratégies suivantes:
- Verrouiller les poids du modèle des systèmes AI avancés
- Effectuer des recherches sur la modélisation des menaces pour identifier les domaines vulnérables
- Création d’un cadre d’évaluation de la cybersécurité adapté à une IA avancée
- Explorer d’autres atténuations non spécifiées
Deepmind reconnaît que l’utilisation abusive se produit avec l’IA génératrice d’aujourd’hui – des Fackets Deep aux escroqueries à phishing. Ils citent également la propagation de la désinformation, la manipulation des perceptions populaires et les «conséquences sociétales involontaires» comme des préoccupations actuelles qui pourraient augmenter considérablement si l’AGI devient une réalité.
Voir: Openai surélevé 40 milliards de dollars À une évaluation de 300 milliards de dollars cette semaine, mais une partie de l’argent dépend de l’organisation à but lucratif.
Empêcher l’IA génératrice de prendre en soi des mesures indésirables
Un désalignement pourrait se produire lorsqu’un IA cache sa véritable intention aux utilisateurs ou contourne les mesures de sécurité dans le cadre d’une tâche. DeepMind suggère que la «surveillance amplifiée» – testant la production d’une IA contre son objectif prévu – pourrait atténuer ces risques. Pourtant, la mise en œuvre est difficile. Quels types d’exemples de situations devraient un IA être formé sur? DeepMind explore toujours cette question.
Une proposition consiste à déployer un «moniteur», un autre système d’IA formé pour détecter les actions qui ne s’alignent pas sur les objectifs de DeepMind. Compte tenu de la complexité de l’IA générative, un tel moniteur aurait besoin d’une formation précise pour distinguer les actions acceptables et augmenter le comportement douteux pour une revue humaine.
