Apprendre des données incorrectement étiquetées


La section 3.2 d’Ilyas et al. (2019) montre que la formation d’un modèle sur les erreurs contradictoires uniquement conduit à une généralisation non triviale sur l’ensemble de tests d’origine. Nous montrons que ces expériences sont un cas spécifique d’apprentissage des erreurs. Nous commençons par un résultat contre-intuitif – nous prenons un ensemble de formation complètement mal étiqueté (sans modifier les entrées) et l’utilisons pour former un modèle qui se généralise à l’ensemble de tests d’origine. Nous montrons ensuite que ce résultat et les résultats d’Ilyas et al. (2019), sont un cas particulier de distillation du modèle. En particulier, comme les étiquettes incorrectes sont générées à l’aide d’un modèle formé, des informations sur le modèle formé sont «divulguées» dans l’ensemble de données. Nous commençons par la question suivante: Et si nous prenions les images dans l’ensemble de formation (sans aucune perturbation contradictoire) et les avons mal étiquetées? Étant donné que les entrées ne sont pas modifiées et mal étiquetées, l’intuition indique qu’un modèle formé sur cet ensemble de données ne devrait pas se généraliser à l’ensemble de test correctement marqué. Néanmoins, nous montrons que cette intuition échoue – un modèle peut généraliser. Nous entraînons d’abord un RESNET-18 sur l’ensemble de formation CIFAR-10 pour deux époques. Le modèle atteint une précision de formation de 62,5% et une précision de test de 63,1%. Ensuite, nous exécutons le modèle sur tous les 50 000 points de données d’entraînement et les réapprochons en fonction des prévisions du modèle. Ensuite, nous filtrons toutes les prédictions correctes. Il nous reste maintenant avec un ensemble de formation incorrectement étiqueté de 18 768. Nous montrons quatre exemples à gauche de la figure ci-dessous:

1

Nous initialisons ensuite au hasard un nouveau RESNET-18 et le formons uniquement sur cet ensemble de données mal étiqueté. Nous nous entraînons pour 50 époques et atteignons une précision de 49,7% sur le original Test Set. Le nouveau modèle n’a jamais vu des images incorrectement étiquetées et non perturbées mais peut toujours généraliser non trivialement.

C’est la distillation du modèle en utilisant des prévisions incorrectes

Comment ce modèle et les modèles dans Ilyas et al. (2019) Généraliser sans voir de données correctement étiquetées? Ici, nous montrons que depuis que les étiquettes incorrectes sont générées à l’aide d’un modèle formé, des informations sont «divulguées» sur ce modèle formé dans les exemples mal étiquetés. En particulier, c’est une forme indirecte de distillation du modèle– La formation sur cet ensemble de données permet à un nouveau modèle de récupérer quelque peu les fonctionnalités du modèle d’origine.

Nous illustrons d’abord ce phénomène de distillation en utilisant un problème bidimensionnel. Ensuite, nous explorons d’autres formes particulières de distillation pour les réseaux de neurones –nous transférons les connaissances malgré les contributions d’une autre tâche.

Illustration bidimensionnelle de la distillation du modèle

Nous construisons un ensemble de données d’exemples contradictoires en utilisant un problème de classification binaire bidimensionnel. Nous générons 32 points de données à deux dimensions aléatoires dans (0,1)2(0,1) ^ 2

2

Ensuite, nous créons des exemples contradictoires pour le modèle d’origine à l’aide d’un ll _ {\ infty}

Bien que ce nouveau modèle n’ait jamais vu un exemple correctement étiqueté, il est capable de fonctionner de manière non triviale sur l’ensemble de données d’origine, prédisant 23/ /3223/32 des entrées correctement (panneau (d) sur la figure). La limite de décision du nouveau modèle correspond librement à la limite de décision du modèle d’origine, c’est-à-dire que le modèle d’origine a été quelque peu distillé après une formation sur ses exemples contradictoires. Ce problème bidimensionnel présente une version illustrative du résultat intrigant que la distillation peut être effectuée en utilisant des prédictions incorrectes.

Autres formes particulières de distillation

Nos expériences montrent que nous pouvons distiller les modèles en utilisant des exemples mal étiquetés. De quelles autres manières particulières pouvons-nous apprendre sur le modèle original? Pouvons-nous utiliser uniquement hors du domaine données?

Nous formons un modèle CNN simple sur MNIST, atteignant une précision de 99,1%. Nous gérons ensuite ce modèle sur l’ensemble de formation FashionMnist et enregistrons ses prédictions Argmax. L’ensemble de données résultant est absurde pour les humains – une «robe» est étiquetée comme un «8».

3

Nous initialisons ensuite un nouveau modèle CNN et le formons sur ces données de mode à mauvaise étiquette. Le modèle résultant atteint une précision de 91,04% sur l’ensemble de tests MNIST. De plus, si nous normalisons les images de mode de mode en utilisant les statistiques moyennes et de variance pour MNIST, le modèle atteint une précision de 94,5% sur l’ensemble de test MNIST. Il s’agit d’une autre instance de récupération d’un modèle fonctionnellement similaire à l’original malgré le nouveau modèle uniquement sur les prévisions erronées.

Résumé

Ces résultats montrent que la formation d’un modèle utilisant des exemples contradictoires mal étiquetés est un cas particulier d’apprentissage des erreurs de prédiction. En d’autres termes, les perturbations ajoutées aux exemples adversaires de la section 3.2 d’Ilyas et al. (2019) ne sont pas nécessaires pour permettre l’apprentissage.

Résumé de la réponse: Notez que puisque nos expériences fonctionnent sur différentes architectures, la «distillation» dans l’espace de poids ne se produit pas. La seule distillation qui peut survenir est la distillation de «l’espace de caractéristique», qui est en fait exactement notre hypothèse. En particulier, la distillation de l’espace des fonctionnalités ne fonctionnerait pas
Monde 1

– Si les exemples adversaires que nous avons générés n’ont pas exploité des caractéristiques utiles, nous n’aurions pas dû être en mesure de «distiller» un modèle utile de leur part. (En fait, on pourrait considérer la formation normale du modèle comme une simple «distillation de traits» des humains qui ont étiqueté l’ensemble de données.) De plus, l’hypothèse dont tout ce dont nous avons besoin est suffisamment de points consistents pour le modèle afin de récupérer un modèle, semble être réfuté par Preettum par Preettum « Ensemble de données bogues » Et d’autres (par exemple ) paramètres.

Réponse: Étant donné que nos expériences fonctionnent sur différentes architectures, la «distillation» dans l’espace de poids ne peut pas survenir. Ainsi, d’après ce que nous comprenons, l’hypothèse de la «distillation» suggérée ici fait référence à la «distillation des caractéristiques» (c’est-à-dire obtenir des modèles qui utilisent les mêmes caractéristiques que l’original), qui est en fait précisément notre hypothèse. Notamment, cette distillation de fonctionnalité ne serait pas possible si des exemples contradictoires ne s’appuyaient pas sur les fonctionnalités de «retournement» qui sont bonnes pour la classification (voir Monde 1et
Monde 2) – Dans ce cas, le modèle distillé n’utiliserait que des fonctionnalités qui généralisaient mal et se généraliseraient ainsi mal lui-même.

De plus, nous dirons que dans les expériences présentées (apprenant des données mal étiquetées), le même type de distillation se produit. Par exemple, un modèle modérément précis peut associer le «fond vert» à la «grenouille», étiquetant ainsi les images «vertes» comme des «grenouilles» (par exemple, le cheval dans la figure du commentaire). La formation d’un nouveau modèle sur cet ensemble de données associera ainsi «vert» à la «grenouille» réalisant une précision non triviale sur le jeu de test (de même pour l’expérience «MNIST d’apprentissage de la mode-MNIST» dans le commentaire). Cela correspond exactement aux fonctionnalités d’apprentissage des étiquettes, semblable à la profondeur des réseaux «distillants» une bonne frontière de décision des annotateurs humains. En fait, nous trouvons ces expériences une illustration très intéressante de la distillation des caractéristiques qui complète nos résultats.

Nous notons également qu’une analogie à la régression logistique ici n’est possible qu’en raison de la faible dimension VC des classificateurs linéaires (à savoir, ces classificateurs ont une dimension dd). En particulier, étant donné tout classificateur avec une dimension VC
kknous avons besoin au moins kk pointe pour spécifier pleinement le classificateur. Inversement, les réseaux de neurones se sont avérés avoir une dimension VC extrêmement importante (en particulier, plus grande que la taille de l’ensemble de formation ). Donc même si l’étiquetage d+1d + 1 Le modèle de points aléatoires consiste à récupérer un modèle linéaire, il n’est pas nécessairement suffisant pour récupérer un réseau neuronal profond. Par exemple, Milli et al. ne sont pas en mesure de reconstruire un RESNET-18 en utilisant uniquement ses prédictions sur les entrées gaussiennes aléatoires. (Notez que nous utilisons un RESNET-50 dans nos expériences.)

Enfin, il semble que la seule explication potentiellement problématique de nos expériences (à savoir que suffisamment de points compatibles avec des modèles peuvent récupérer un classificateur) réfuté par l’expérience de Preettum. En particulier, Preettum est capable de concevoir un ensemble de données où la formation sur les entrées mal étiquetées qui sont consistents
Ne récupérera pas du tout la limite de décision du modèle d’origine. Plus généralement, la perspective de la «distillation du modèle» soulevée ici n’est pas en mesure de faire la distinction entre l’ensemble de données créé par Preettum ci-dessous, et ceux créés avec une PGD standard (comme dans notre D^det\ widehat {\ mathcal {d}} _ {det}



Source link

Related post