Une discussion sur les «exemples contradictoires n’est pas des bugs, ce sont des fonctionnalités»: fuite de fonctionnalités robuste

Intelligence Artificielle
Noesis News
mars 15, 2025
0
36
82 minutes de lecture

Ilyas et al. Signaler un résultat surprenant: un modèle formé sur des exemples contradictoires est efficace sur les données propres. Ils suggèrent que ce transfert est motivé par des exemples adversaires contenant des signaux non utiles non utiles. Mais un autre mécanisme pour le transfert pourrait être une sorte de «fuite de fonctionnalités robuste» où le modèle reprend de faibles indices robustes dans les attaques.

Nous montrons qu’au moins 23,5% (sur 88%) de la précision peuvent s’expliquer par des fonctionnalités robustes dans
$D_ \ text {rand}$

Fuite de délimitation inférieure

Notre technique de quantification des fuites comprenant deux étapes:

Tout d’abord, nous construisons des fonctionnalités $f_i (x) = w_i ^ tx$
Ensuite, nous formons un classificateur linéaire à propos de Équation 3 sur les ensembles de données $\ hat {\ mathcal {d}} _ {\ text {det}}$

Depuis Ilyas et al. Spécifiez uniquement la robustesse dans le cas de deux classes, nous proposons deux spécifications possibles pour ce qui constitue un fonctionnalité robuste Dans le paramètre multicalme:

Spécification 1
Pour au moins une des classes, la fonctionnalité est

\gamma

Spécification 2

La fonction provient d’un modèle robuste pour lequel au moins 80% des points de l’ensemble de tests ont des prédictions qui restent statiques dans un quartier de rayon 0,25 sur le $L_2$

Nous trouvons des fonctionnalités qui satisfont les deux Spécifications en utilisant les 10 caractéristiques linéaires d’un modèle linéaire robuste formé sur CIFAR-10. Parce que les fonctionnalités sont linéaires, les deux conditions ci-dessus peuvent être certifiées analytiquement. Nous laissons le lecteur pour inspecter les poids correspondant manuellement aux caractéristiques:

10 fonctionnalités, $F_C$

Formation d’un modèle linéaire sur les fonctionnalités robustes ci-dessus $\ hat {\ mathcal {d}} _ {\ text {rand}}$

Les résultats contrastés suggèrent que les deux expériences doivent être interprétées différemment. Les résultats de transfert de $\ hat {\ mathcal {d}} _ {\ text {rand}}$

Les résultats de $\ hat {\ mathcal {d}} _ {\ text {det}}$

Résumé de la réponse: C’est une préoccupation valable qui était en fait l’une de nos motivations pour créer le

\ widehat {\ mathcal {d}} _ {det}

Remerciements

Shan Carter (a commencé le projet), Preettum (discussion technique), Chris Olah (discussion technique), Ria (discussion technique), Aditiya (rétroaction)

Références

Les exemples contradictoires ne sont pas des bugs, ce sont des fonctionnalités
Ilyas, A., Santurkar, S., Tsipras, D., Engstrom, L., Tran, B. et Madry, A., 2019. Arxiv Preprint Arxiv: 1905.02175.

Mises à jour et corrections

Si vous voyez des erreurs ou souhaitez suggérer des modifications, veuillez Créer un problème sur Github.

Réutilisation

Les diagrammes et le texte sont sous licence Creative Commons Attribution CC-BY 4.0 avec Source disponible sur githubsauf indication contraire. Les chiffres qui ont été réutilisés à partir d’autres sources ne relèvent pas de cette licence et peuvent être reconnus par une note dans leur légende: «figure de…».

Citation

Pour l’attribution dans des contextes académiques, veuillez citer ce travail comme

Goh, "A Discussion of 'Adversarial Examples Are Not Bugs, They Are Features': Robust Feature Leakage", Distill, 2019.

Citation bibtex

@article{goh2019a,
  author = {Goh, Gabriel},
  title = {A Discussion of 'Adversarial Examples Are Not Bugs, They Are Features': Robust Feature Leakage},
  journal = {Distill},
  year = {2019},
  note = {https://distill.pub/2019/advex-bugs-discussion/response-2},
  doi = {10.23915/distill.00019.2}
}

Source link

Une discussion sur les «exemples contradictoires n’est pas des bugs, ce sont des fonctionnalités»: fuite de fonctionnalités robuste

Fuite de délimitation inférieure

Remerciements

Références

Mises à jour et corrections

Réutilisation

Citation

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Pouvons-nous faire confiance aux découvertes scientifiques faites à...

Sınırları aşan yapay zekâ: chiffon

Leonard Susskind: Mécanique quantique, théorie des cordes et...

Les scientifiques créent un antiviral ultime en utilisant...

Pouvons-nous faire confiance aux découvertes scientifiques faites à...

Sınırları aşan yapay zekâ: chiffon

Leonard Susskind: Mécanique quantique, théorie des cordes et...

Les scientifiques créent un antiviral ultime en utilisant...

L’usine automatisée de Cyborg Cockroach pourrait produire un...

Cette minuscule imprimante 3D a cinq axes de...

Extraits de «prendre soin de votre bébé épilogue»

AI Rewind 2021: Tendances de l’apprentissage automatique et...

L’IA d’Elon Musk propose des

Last Week in AI #297

Pump.fun déploie le Pumpswap Dex

Fuite de délimitation inférieure

Remerciements

Références

Mises à jour et corrections

Réutilisation

Citation

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags