Une discussion sur les «exemples contradictoires n’est pas des bugs, ce sont des fonctionnalités»: fuite de fonctionnalités robuste


Ilyas et al. Signaler un résultat surprenant: un modèle formé sur des exemples contradictoires est efficace sur les données propres. Ils suggèrent que ce transfert est motivé par des exemples adversaires contenant des signaux non utiles non utiles. Mais un autre mécanisme pour le transfert pourrait être une sorte de «fuite de fonctionnalités robuste» où le modèle reprend de faibles indices robustes dans les attaques.

Nous montrons qu’au moins 23,5% (sur 88%) de la précision peuvent s’expliquer par des fonctionnalités robustes dans
DrandD_ \ text {rand}

Fuite de délimitation inférieure

Notre technique de quantification des fuites comprenant deux étapes:

  1. Tout d’abord, nous construisons des fonctionnalités fje(x)=wjeTxf_i (x) = w_i ^ tx
  2. Ensuite, nous formons un classificateur linéaire à propos de Équation 3 sur les ensembles de données D^détachement\ hat {\ mathcal {d}} _ {\ text {det}}

Depuis Ilyas et al. Spécifiez uniquement la robustesse dans le cas de deux classes, nous proposons deux spécifications possibles pour ce qui constitue un fonctionnalité robuste Dans le paramètre multicalme:

Spécification 1
Pour au moins une des classes, la fonctionnalité est γ\gamma-Robustly utile avec
γ=0\ gamma = 0et l’ensemble de perturbations valides égales à un L2L_2
Spécification 2

La fonction provient d’un modèle robuste pour lequel au moins 80% des points de l’ensemble de tests ont des prédictions qui restent statiques dans un quartier de rayon 0,25 sur le L2L_2

Nous trouvons des fonctionnalités qui satisfont les deux Spécifications en utilisant les 10 caractéristiques linéaires d’un modèle linéaire robuste formé sur CIFAR-10. Parce que les fonctionnalités sont linéaires, les deux conditions ci-dessus peuvent être certifiées analytiquement. Nous laissons le lecteur pour inspecter les poids correspondant manuellement aux caractéristiques:

10 fonctionnalités, FCF_C

Formation d’un modèle linéaire sur les fonctionnalités robustes ci-dessus D^rand\ hat {\ mathcal {d}} _ {\ text {rand}}

Les résultats contrastés suggèrent que les deux expériences doivent être interprétées différemment. Les résultats de transfert de D^rand\ hat {\ mathcal {d}} _ {\ text {rand}}

Les résultats de D^détachement\ hat {\ mathcal {d}} _ {\ text {det}}

Résumé de la réponse: C’est une préoccupation valable qui était en fait l’une de nos motivations pour créer le
D^det\ widehat {\ mathcal {d}} _ {det}

Remerciements

Shan Carter (a commencé le projet), Preettum (discussion technique), Chris Olah (discussion technique), Ria (discussion technique), Aditiya (rétroaction)


Références

  1. Les exemples contradictoires ne sont pas des bugs, ce sont des fonctionnalités
    Ilyas, A., Santurkar, S., Tsipras, D., Engstrom, L., Tran, B. et Madry, A., 2019. Arxiv Preprint Arxiv: 1905.02175.


Mises à jour et corrections

Si vous voyez des erreurs ou souhaitez suggérer des modifications, veuillez Créer un problème sur Github.

Réutilisation

Les diagrammes et le texte sont sous licence Creative Commons Attribution CC-BY 4.0 avec Source disponible sur githubsauf indication contraire. Les chiffres qui ont été réutilisés à partir d’autres sources ne relèvent pas de cette licence et peuvent être reconnus par une note dans leur légende: «figure de…».

Citation

Pour l’attribution dans des contextes académiques, veuillez citer ce travail comme

Goh, "A Discussion of 'Adversarial Examples Are Not Bugs, They Are Features': Robust Feature Leakage", Distill, 2019.

Citation bibtex

@article{goh2019a,
  author = {Goh, Gabriel},
  title = {A Discussion of 'Adversarial Examples Are Not Bugs, They Are Features': Robust Feature Leakage},
  journal = {Distill},
  year = {2019},
  note = {https://distill.pub/2019/advex-bugs-discussion/response-2},
  doi = {10.23915/distill.00019.2}
}



Source link

Related post