Les images modifiées pour tromper la vision machine peuvent également influencer les humains

Recherche
De nouvelles recherches montrent que même des changements subtils aux images numériques, conçus pour confondre les systèmes de vision informatique, peuvent également affecter la perception humaine
Les ordinateurs et les humains voient le monde de différentes manières. Nos systèmes biologiques et artificiels dans les machines peuvent ne pas toujours prêter attention aux mêmes signaux visuels. Les réseaux de neurones formés pour classer les images peuvent être complètement induits en erreur par des perturbations subtiles à une image qu’un humain ne remarquerait même pas.
Le fait que les systèmes d’IA puissent être trompés par de telles images contradictoires peuvent indiquer une différence fondamentale entre la perception de l’homme et de la machine, mais cela nous a poussés à explorer si les humains pourraient également – les conditions de test contrôlées – une sensibilité révélatrice aux mêmes perturbations. Dans une série d’expériences publiées dans Nature Communications, nous avons trouvé des preuves que les jugements humains sont en effet systématiquement influencés par des perturbations adversaires.
Notre découverte met en évidence une similitude entre la vision humaine et la vision machine, mais démontre également la nécessité de recherches supplémentaires pour comprendre l’influence des images adversaires sur les personnes, ainsi que sur les systèmes d’IA.
Qu’est-ce qu’une image contradictoire?
Une image contradictoire est celle qui a été subtilement modifiée par une procédure qui fait que un modèle d’IA a mal classé le contenu de l’image. Cette tromperie intentionnelle est connue comme une attaque contradictoire. Les attaques peuvent être ciblées pour provoquer un modèle d’IA pour classer un vase comme un chat, par exemple, ou ils peuvent être conçus pour faire voir le modèle à voir autre chose que un vase.
Gauche: Un réseau neuronal artificiel (ANN) classe correctement l’image comme un vase mais lorsqu’il est perturbé par un motif apparemment aléatoire sur toute l’image (au milieu), avec l’intensité agrandie à des fins illustratives – l’image résultante (à droite) est incorrectement et en toute confiance, mal classé en tant que chat.
Et de telles attaques peuvent être subtiles. Dans une image numérique, chaque pixel individuel dans une image RVB est sur une échelle 0-255 représentant l’intensité des pixels individuels. Une attaque contradictoire peut être efficace même si aucun pixel n’est modulé de plus de 2 niveaux sur cette échelle.
Les attaques contradictoires sur des objets physiques dans le monde réel peuvent également réussir, comme la fait provoquer un panneau d’arrêt mal identifié comme signe de limite de vitesse. En effet, les problèmes de sécurité ont conduit les chercheurs à enquêter sur les moyens de résister aux attaques contradictoires et d’atténuer leurs risques.
Comment la perception humaine est-elle influencée par des exemples adversaires?
Des recherches antérieures ont montré que les gens peuvent être sensibles aux perturbations de l’image à grande ampleur qui fournissent des indices de forme claire. Cependant, moins est compris sur l’effet d’attaques contradictoires plus nuancées. Les gens rejettent-ils les perturbations dans une image comme un bruit d’image aléatoire et aléatoire, ou peut-il influencer la perception humaine?
Pour le savoir, nous avons effectué des expériences comportementales contrôlées. Pour commencer, nous avons pris une série d’images originales et effectué deux attaques contradictoires sur chacune, pour produire de nombreuses paires d’images perturbées. Dans l’exemple animé ci-dessous, l’image d’origine est classée comme un «vase» par un modèle. Les deux images perturbées par des attaques contradictoires sur l’image d’origine sont ensuite mal classées par le modèle, avec une grande confiance, car l’adversariat cible respectivement le «chat» et le «camion».
Ensuite, nous avons montré aux participants humains la paire d’images et posé une question ciblée: «Quelle image est plus semblable à un chat?» Bien qu’aucune image ne ressemble à un chat, ils ont été obligés de faire un choix et ont généralement déclaré avoir senti qu’ils faisaient un choix arbitraire. Si les activations cérébrales sont insensibles aux attaques contradictoires subtiles, nous nous attendons à ce que les gens choisissent chaque image 50% du temps en moyenne. Cependant, nous avons constaté que le taux de choix – que nous appelons le biais perceptuel – était de manière fiable au-dessus du hasard pour une grande variété de paires d’images perturbées, même lorsqu’aucun pixel n’a été ajusté par plus de 2 niveaux sur cette échelle 0-255.
Du point de vue d’un participant, il semble qu’ils soient invités à faire la distinction entre deux images pratiquement identiques. Pourtant, la littérature scientifique regorge de preuves que les gens tirent parti des signaux perceptifs faibles dans la création de choix, des signaux trop faibles pour qu’ils expriment la confiance ou la conscience ). Dans notre exemple, nous pouvons voir un vase de fleurs, mais une certaine activité dans le cerveau nous informe qu’il y a un soupçon de chat à ce sujet.
Gauche: Exemples de paires d’images contradictoires. La paire d’images supérieure est subtilement perturbée, à une ampleur maximale de 2 pixels, pour faire en sorte qu’un réseau neuronal les classe à mal comme un «camion» et un «chat», respectivement. On demande un volontaire humain « Ce qui est plus semblable à un chat? » La paire d’images inférieure est plus manifestement manipulée, à une ampleur maximale de 16 pixels, pour être mal classées comme «chaise» et «mouton». La question de cette fois est «qui ressemble plus à des moutons?»
Nous avons effectué une série d’expériences qui ont exclu des explications artefactuelles potentielles du phénomène pour notre document de communication de la nature. Dans chaque expérience, les participants ont sélectionné de manière fiable l’image contradictoire correspondant à la question ciblée plus de la moitié du temps. Bien que la vision humaine ne soit pas aussi sensible aux perturbations contradictoires que la vision machine (les machines n’identifient plus la classe d’image d’origine, mais les gens le voient toujours clairement), notre travail montre que ces perturbations peuvent néanmoins biaiser les humains vers les décisions prises par les machines.
L’importance de la recherche sur la sécurité et la sécurité de l’IA
Notre principale constatation selon laquelle la perception humaine peut être affectée – bien que subtilement – par des images adversaires soulève des questions critiques pour la recherche sur la sécurité et la sécurité de l’IA, mais en utilisant des expériences formelles pour explorer les similitudes et les différences dans le comportement des systèmes visuels d’IA et de la perception humaine, nous pouvons exploiter les idées pour construire des systèmes d’IA plus sûrs.
Par exemple, nos résultats peuvent éclairer les recherches futures cherchant à améliorer la robustesse des modèles de vision par ordinateur en les alignant mieux avec des représentations visuelles humaines. La mesure de la sensibilité humaine aux perturbations contradictoires pourrait aider à juger de cet alignement pour une variété d’architectures de vision informatique.
Notre travail démontre également la nécessité de poursuivre les recherches sur la compréhension des effets plus larges des technologies non seulement sur les machines, mais aussi sur les humains. Cela met à son tour souligne l’importance continue des sciences cognitives et des neurosciences pour mieux comprendre les systèmes d’IA et leurs impacts potentiels alors que nous nous concentrons sur la construction de systèmes plus sûrs et plus sécurisés.