Deux exemples de fonctionnalités utiles et non robustes


Une discussion sur «les exemples adversaires ne sont pas



































Ilyas et al. définir un fonctionnalité en fonction ff qui prend xx de distribution de données (x,y)D(x, y) \ sim \ mathcal {d} en un nombre réel, limité à avoir une variance moyenne et unitaire moyenne. Une fonctionnalité est censée être utile S’il a une forte corrélation avec l’étiquette. Mais en présence d’un adversaire Ilyas et al. soutient la métrique qui compte vraiment est une fonctionnalité utilité robuste,

E(infirmeδϵyf(x+δ)),

\ mathbf {e} \ Left (\ inf _ {\ | \ delta \ | \ leq \ epsilon} yf (x + \ delta) \ droite),

sa corrélation avec l’étiquette lors de l’attaque. Ilyas et al.
suggère qu’en plus des fonctionnalités piétonnes et robustes que nous connaissons et aimons (comme la couleur du ciel), nos modèles peuvent également profiter de caractéristiques utiles et non robustes, dont certaines peuvent même se situer au-delà du seuil de l’intuition humaine. Cela soulève la question: à quoi pourrait ressembler ces fonctionnalités non-Robust?

Fonctionnalités non-Robust dans les modèles linéaires

Notre recherche est simplifiée lorsque nous réalisons les éléments suivants: les fonctionnalités non-Robust ne sont pas uniques aux modèles complexes non linéaires rencontrés dans l’apprentissage en profondeur. Comme Ilyas et al
Observez, ils surviennent même dans les modèles les plus humbles – celui linéaire. Ainsi, nous limitons notre attention aux caractéristiques linéaires de la forme:

f(x)=unTxunΣΣ=E(xxT)etE(x)=0.f (x) = \ frac {a ^ tx} {\ | a \ | _ \ sigma} \ qquad \ text {where} \ qquad \ sigma = \ mathbf {e} (xx ^ t) \ quad \ text {et} \ quad \ mathbf {e} (x) = 0.

L’utilité robuste d’une caractéristique linéaire admet une décomposition élégante
Ce
E(infirmeδϵyf(x+δ))=E(yf(x)+infirmeδϵyf(δ))=E(yf(x)+infirmeδϵyunTδunΣ)=E(yf(x)+infirmeδϵunTδunΣ)=E(yf(x))ϵununΣ

\ begin {aligned} \ mathbf {e} \ Left (\ inf _ {\ | \ delta \ | \ leq \ epsilon} yf (x + \ delta) \ right) & = \ mathbf {e} \ Left (yf (x) + \ inf _ {\ | \ delta \ | \ leq \ epsilon} yf (\ delta) \ droite) = \ mathbf {e} \ Left (yf (x) + \ inf _ {\ | \ delta \ | \ leq \ epsilon} y \ frac {a ^ {t} \ delta} {\ | a \ | _ {\ sigma}} \ droit) \\ & = \ mathbf {e} \ Left (yf (x) + \ frac {\ inf _ {\ | \ delta \ | \ leq \ epsilon} a ^ {t} \ delta} {\ | a \ | _ {\ s igma}} \ reight) = \ mathop {\ mathbf {e} (yf (x))} – \ epsilon \ frac {\ | a \ | _ {*}} {\ | a \ | _ {\ sigma}} \ end {aligné}


E(infirmeδϵyf(x+δ))

\ mathbf {e} \ Left (\ inf _ {\ | \ delta \ | \ leq \ epsilon} yf (x + \ delta) \ droite)


E(yf(x))\ Mathop {\ Mathbf {e} (yf (x))}

ϵununΣ\ epsilon \ frac {\ | a \ | _ {*}} {\ | a \ | _ {\ Sigma}}

L’utilité robuste d’une fonctionnalité

la corrélation de la fonctionnalité avec l’étiquette

La non-chambre de la fonctionnalité

Dans l’équation ci-dessus \ | \ cdot \ | _ *

La tâche de classification binaire est tracée de séparation camion et grenouille dans CIFAR-10 sur l’ensemble des fonctionnalités unjea_i

Les caractéristiques insaisissables non-Robust utiles, cependant, semblent évidemment absentes dans le tracé ci-dessus. Heureusement, nous pouvons construire de telles fonctionnalités en combinant stratégiquement les éléments de cette base.

Nous démontrons deux constructions:

Il est donc surprenant que les expériences de Madry et al.
(avec des perturbations déterministes) faire Distinguer les fonctionnalités utiles non-Robust générées à partir d’ensembles et de confinement. Une définition succincte d’une caractéristique robuste qui écorche ces deux mondes est encore à exister et reste un problème ouvert pour la communauté d’apprentissage automatique.

Résumé de la réponse: La construction de fonctionnalités explicites non-Robust est très intéressante et progresse vers le défi de visualiser certaines des fonctionnalités utiles non-Robust détectées par nos expériences. Nous convenons également que les caractéristiques non-Robust survenant comme des «distracteurs» ne sont en effet pas exclues par notre cadre théorique, même si elle est exclue par nos expériences. Ce cadre théorique simple suffit pour raisonner et prédire les résultats de nos expériences
Nous avons également présenté un cadre théorique où nous pouvons analyser les choses pleinement rigoureusement dans la section 4 de notre article.. Cependant, ce commentaire identifie à juste titre la recherche d’une définition plus complète de la fonctionnalité comme une orientation future importante de recherche.

Réponse: Ces expériences (visualiser la robustesse et l’utilité des différentes caractéristiques linéaires) sont très intéressantes! Ils corroborent davantage l’existence de fonctionnalités utiles et non roustres et progressent vers la visualisation de ce à quoi ressemblent ces fonctionnalités non robustes.

Nous apprécions également le point soulevé par la construction fournie de fonctionnalités non-Robust (telles que définies dans notre cadre théorique) qui sont des combinaisons de fonctionnalités utiles + robustes et inutiles + non-Robust. Notre cadre théorique permet en effet un tel scénario, même si – comme le note déjà le commentateur – nos résultats expérimentaux ne le font pas. (En ce sens, les résultats expérimentaux et notre
à emporter principal
sont en fait plus forts que notre cadre théorique ne capture techniquement.) Plus précisément, dans un tel scénario, lors de la construction de la D^det\ widehat {\ mathcal {d}} _ {det}

faire généraliser.

Dans l’ensemble, notre objectif, tout en développant notre cadre théorique était de nous permettre de décrire et de prédire formellement les résultats de nos expériences. Comme le souligne le commentaire, le fait de proposer un cadre théorique qui capture les fonctionnalités non-robuste d’une manière très précise est une orientation de recherche future importante en soi.

Remerciements

Shan Carter (refonte de conception), Preettum (discussion technique), Chris Olah (discussion technique), Ludwig (rétroaction globale), Ria (rétroaction) Aditiya (rétroaction)

Contributions des auteurs

Recherche: Alex a développé…

Écriture et diagrammes: Le texte a été initialement rédigé par…


Références

  1. Les exemples contradictoires ne sont pas des bugs, ce sont des fonctionnalités
    Ilyas, A., Santurkar, S., Tsipras, D., Engstrom, L., Tran, B. et Madry, A., 2019. Arxiv Preprint Arxiv: 1905.02175.


Mises à jour et corrections

Si vous voyez des erreurs ou souhaitez suggérer des modifications, veuillez Créer un problème sur Github.

Réutilisation

Les diagrammes et le texte sont sous licence Creative Commons Attribution CC-BY 4.0 avec Source disponible sur githubsauf indication contraire. Les chiffres qui ont été réutilisés à partir d’autres sources ne relèvent pas de cette licence et peuvent être reconnus par une note dans leur légende: «figure de…».

Citation

Pour l’attribution dans des contextes académiques, veuillez citer ce travail comme

Goh, "A Discussion of 'Adversarial Examples Are Not Bugs, They Are Features': Two Examples of Useful, Non-Robust Features", Distill, 2019.

Citation bibtex

@article{goh2019a,
  author = {Goh, Gabriel},
  title = {A Discussion of 'Adversarial Examples Are Not Bugs, They Are Features': Two Examples of Useful, Non-Robust Features},
  journal = {Distill},
  year = {2019},
  note = {https://distill.pub/2019/advex-bugs-discussion/response-3},
  doi = {10.23915/distill.00019.3}
}






Source link

Related post