Comment utiliser T-SNE efficacement

 Comment utiliser T-SNE efficacement


Bien que extrêmement utiles pour visualiser les données de haute dimension, les parcelles T-SNE peuvent parfois être mystérieuses ou trompeuses. En explorant comment il se comporte dans des cas simples, nous pouvons apprendre à l’utiliser plus efficacement.


Étape

Une méthode populaire pour explorer des données à haute dimension est quelque chose appelé T-SNE, introduit par van der Maaten et Hinton en 2008 (1). La technique s’est répandue dans le domaine de l’apprentissage automatique, car elle a une capacité presque magique à créer des «cartes» convaincantes à deux dimensines à partir de données avec des centaines ou même des milliers de dimensions. Bien que impressionnants, ces images peuvent être tentantes de mal interpréter. Le but de cette note est d’empêcher certains erreurs de lecture courantes.

Nous traverserons une série d’exemples simples pour illustrer ce que les diagrammes T-SNE peuvent et ne peuvent pas montrer. La technique T-SNE est vraiment utile, mais seulement si vous savez comment l’interpréter.

Avant de plonger: si vous n’avez pas rencontré T-SNE auparavant, voici ce que vous devez savoir sur les mathématiques derrière. L’objectif est de prendre un ensemble de points dans un espace de grande dimension et de trouver une représentation fidèle de ces points dans un espace de dimension inférieure, généralement le plan 2D. L’algorithme est non linéaire et s’adapte aux données sous-jacentes, effectuant différentes transformations sur différentes régions. Ces différences peuvent être une source majeure de confusion.

Une deuxième caractéristique de T-SNE est un paramètre réglable, «perplexité», qui dit (vaguement) comment équilibrer l’attention entre les aspects locaux et globaux de vos données. Le paramètre est, en un sens, une supposition du nombre de voisins proches de chaque point. La valeur de perplexité a un effet complexe sur les images résultantes. Le journal d’origine dit, « Les performances de SNE sont assez robustes aux changements de perplexité, et les valeurs typiques se situent entre 5 et 50. » Mais l’histoire est plus nuancée que cela. Tirer le meilleur parti de T-SNE peut signifier analyser plusieurs parcelles avec différentes perplexités.

Ce n’est pas la fin des complications. L’algorithme T-SNE ne produit pas toujours une sortie similaire sur les analyses successives, par exemple, et il existe des hyperparamètres supplémentaires liés au processus d’optimisation.


1. Ces hyperparamètres comptent vraiment

Commençons par le «Hello World» de T-SNE: un ensemble de données de deux clusters largement séparés. Pour rendre les choses aussi simples que possible, nous considérerons les clusters dans un plan 2D, comme indiqué dans le diagramme de gauche. (Pour plus de clarté, les deux grappes sont codées par couleur.) Les diagrammes à droite montrent des parcelles T-SNE pour cinq valeurs de perplexité différentes.

Avec les valeurs de perplexité dans la gamme (5 – 50) suggérées par Van der Maaten & Hinton, les diagrammes montrent ces grappes, bien qu’avec des formes très différentes. En dehors de cette gamme, les choses deviennent un peu bizarres. Avec la perplexité 2, les variations locales dominent. L’image de perplexité 100, avec des grappes fusionnées, illustre un piège: pour que l’algorithme fonctionne correctement, la perplexité devrait vraiment être plus petite que le nombre de points. Les implémentations peuvent donner un comportement inattendu autrement.

Chacune des parcelles ci-dessus a été fabriquée avec 5 000 itérations avec un taux d’apprentissage (souvent appelé «epsilon») de 10, et avait atteint un point de stabilité à la étape 5 000. Quelle quantité de différence ces valeurs font-elles? D’après notre expérience, la chose la plus importante est d’itérer jusqu’à atteindre une configuration stable.

Les images ci-dessus montrent cinq courses différentes à la perplexité 30. Les quatre premiers ont été arrêtés avant la stabilité. Après 10, 20, 60 et 120 étapes, vous pouvez voir des dispositions avec des images apparentes en 1 dimension et même ponctuelles des grappes. Si vous voyez une intrigue T-SNE avec d’étranges formes «pincées», il y a de fortes chances que le processus ait été arrêté trop tôt. Malheureusement, il n’y a pas de nombre fixe d’étapes qui donne un résultat stable. Différents ensembles de données peuvent nécessiter différents nombres d’itérations pour converger.

Une autre question naturelle est de savoir si des courses différentes avec les mêmes hyperparamètres produisent les mêmes résultats. Dans cet exemple simple en deux cluster, et la plupart des autres dont nous discutons, plusieurs analyses donnent la même forme globale. Certains ensembles de données, cependant, donnent des diagrammes nettement différents sur différentes exécutions; Nous en donnerons un exemple de l’un d’entre eux plus tard.

À partir de maintenant, sauf indication contraire, nous montrerons les résultats de 5 000 itérations. Cela suffit généralement pour la convergence dans les exemples (relativement petits) de cet essai. Nous continuerons de montrer une gamme de perplexités, car cela semble faire une grande différence dans tous les cas.


2. Les tailles de cluster dans une parcelle T-Sne ne signifient rien

Jusqu’ici, tout va bien. Mais que se passe-t-il si les deux clusters ont des écarts-types différents et des tailles différentes? (Par taille, nous entendons des mesures de coffre de délimitation, pas du nombre de points.) Vous trouverez ci-dessous des parcelles T-SNE pour un mélange de Gaussiens dans le plan, où l’un est 10 fois aussi dispersé que l’autre.

Étonnamment, les deux grappes ressemblent à la même taille dans les parcelles T-SNE. Que se passe-t-il? L’algorithme T-SNE adapte sa notion de «distance» aux variations de densité régionale dans l’ensemble de données. En conséquence, il élargit naturellement les grappes denses et se contracte des clumpants clairsemés, les tailles de cluster en soirée. Pour être clair, il s’agit d’un effet différent de celui du fait ordinaire que toute technique de réduction de la dimensionnalité déformera les distances. (Après tout, dans cet exemple, toutes les données étaient bidimensionnelles pour commencer.) Plutôt, l’égalisation de la densité se produit par conception et est une caractéristique prévisible de T-SNE.

L’essentiel, cependant, est que vous ne pouvez pas voir les tailles relatives des clusters dans un tracé T-SNE.


3. Les distances entre les grappes ne signifient rien

Qu’en est-il des distances entre groupes? Les diagrammes suivants montrent trois Gaussiens de 50 points chacun, une paire étant 5 fois plus éloignée d’une autre paire.

Chez Perplexity 50, le diagramme donne un bon sens de la géométrie mondiale. Pour les valeurs de perplexité plus faibles, les grappes semblent équidistantes. Lorsque la perplexité est de 100, nous voyons la géométrie globale bien, mais l’un des cluster apparaît, faussement, beaucoup plus petit que les autres. Étant donné que Perplexity 50 nous a donné une bonne image dans cet exemple, pouvons-nous toujours définir la perplexité à 50 si nous voulons voir la géométrie mondiale?

Malheureusement, non. Si nous ajoutons plus de points à chaque cluster, la perplexité doit augmenter pour compenser. Voici les diagrammes T-SNE pour trois grappes gaussiennes avec 200 points chacune, au lieu de 50. Maintenant, aucune des valeurs de perplexité de l’essai ne donne un bon résultat.

C’est une mauvaise nouvelle que voir la géométrie mondiale nécessite une perplexité affinée. Les données du monde réel auraient probablement plusieurs clusters avec différents nombres d’éléments. Il n’y a peut-être pas une valeur de perplexité qui capturera les distances dans tous les clusters – et malheureusement la perplexité est un paramètre global. La résolution de ce problème pourrait être un domaine intéressant pour de futures recherches.

Le message de base est que les distances entre les clusters bien séparés dans un tracé T-SNE peuvent ne rien signifier.


4. Le bruit aléatoire n’a pas toujours l’air aléatoire.

Un piège classique pense que vous voyez des modèles dans ce qui n’est vraiment que des données aléatoires. Reconnaître le bruit lorsque vous voyez que c’est une compétence critique, mais il faut du temps pour construire les bonnes intuitions. Une chose délicate à propos de T-SNE est qu’elle lance beaucoup d’intuition existante par la fenêtre. Les diagrammes suivants montrent des données véritablement aléatoires, 500 points tirés d’une unité de distribution gaussienne en 100 dimensions. L’image gauche est une projection sur les deux premières coordonnées.

L’intrigue avec perplexité 2 semble montrer des grappes dramatiques. Si vous régliez la perplexité pour faire ressortir la structure des données, vous pourriez penser que vous auriez atteint le jackpot.

Bien sûr, comme nous savons que le nuage de points a été généré au hasard, il n’a pas de grappes statistiquement intéressantes: ces «touffes» ne sont pas significatives. Si vous regardez en arrière sur des exemples précédents, de faibles valeurs de perplexité conduisent souvent à ce type de distribution. La reconnaissance de ces touffes comme un bruit aléatoire est une partie importante de la lecture des parcelles T-SNE.

Il y a cependant autre chose d’intéressant, qui peut être une victoire pour T-SNE. Au début, l’intrigue Perplexity 30 ne ressemble pas du tout à une distribution gaussienne: il n’y a qu’une légère différence de densité entre les différentes régions du nuage, et les points semblent étrangement répartis. En fait, ces caractéristiques disent des choses utiles sur les distributions normales de haute dimension, qui sont très proches des distributions uniformes sur une sphère: réparties uniformément, avec des espaces à peu près égaux entre les points. Vu sous cette lumière, le tracé T-SNE est plus précis que toute projection linéaire.


5. Vous pouvez voir quelques formes, parfois

Il est rare que les données soient distribuées de manière parfaitement symétrique. Jetons un coup d’œil à une distribution gaussienne alignée sur l’axe en 50 dimensions, où l’écart-type en coordonnée I est 1 / i. Autrement dit, nous examinons un nuage ellipsoïdal long de points.

Pour les valeurs de perplexité suffisamment élevées, les formes allongées sont faciles à lire. D’un autre côté, à faible perplexité, les effets locaux et «agglomérat» dénué de sens occupent le devant de la scène. Des formes plus extrêmes se manifestent également, mais encore une fois à la perplexité droite. Par exemple, voici deux grappes de 75 points chacune en 2D, disposées en lignes parallèles avec un peu de bruit.

Pour une certaine gamme de perplexité, les longs grappes semblent être de près, ce qui est rassurant.

Même dans les meilleurs cas, cependant, il y a une distorsion subtile: les lignes sont légèrement incurvées vers l’extérieur dans le diagramme T-SNE. La raison en est que, comme d’habitude, le T-SNE tend à étendre les régions de données plus denses. Étant donné que les milieu des grappes ont moins d’espace vide autour d’eux que les extrémités, l’algorithme les amplifie.


6. Pour la topologie, vous aurez peut-être besoin de plus d’un complot

Parfois, vous pouvez lire des informations topologiques sur une parcelle T-SNE, mais cela nécessite généralement des vues à plusieurs perplexités. L’une des propriétés topologiques les plus simples est le confinement. Les parcelles ci-dessous montrent deux groupes de 75 points dans des espaces 50 dimensionnels. Les deux sont échantillonnés à partir de distributions gaussiennes symétriques centrées sur l’origine, mais l’une est 50 fois plus étroitement dispersée que l’autre. La «petite» distribution est en fait contenue dans la grande.

La vue Perplexity 30 montre correctement la topologie de base, mais encore une fois T-SNE exagère considérablement la taille du plus petit groupe de points. Chez Perplexity 50, il y a un nouveau phénomène: le groupe extérieur devient un cercle, car l’intrigue essaie de représenter le fait que tous ses points sont à peu près à la même distance du groupe intérieur. Si vous regardiez cette image seule, il serait facile de mal lire ces points extérieurs comme une structure unidimensionnelle.

Qu’en est-il des types de topologie plus compliqués? Cela peut être un sujet plus cher aux mathématiciens qu’aux analystes de données pratiques, mais des structures intéressantes de basse dimension se trouvent parfois dans la nature.

Considérez un ensemble de points qui retracent un lien ou un nœud en trois dimensions. Encore une fois, regarder plusieurs valeurs de perplexité donne l’image la plus complète. Les valeurs de perplexité faibles donnent deux boucles complètement séparées; Les hauts montrent une sorte de connectivité globale.

Le nœud Trefoil est un exemple intéressant de la façon dont plusieurs courses affectent le résultat de T-SNE. Vous trouverez ci-dessous cinq séries de la vue Perplexity-2.

L’algorithme s’installe deux fois sur un cercle, qui préserve au moins la topologie intrinsèque. Mais dans trois des courses, il se termine avec trois solutions différentes qui introduisent les pauses artificielles. En utilisant la couleur du point comme guide, vous pouvez voir que les première et troisième cycle sont loin les uns des autres.

Cependant, cinq courses à perplexité 50 donnent des résultats qui (jusqu’à la symétrie) sont visuellement identiques. De toute évidence, certains problèmes sont plus faciles que d’autres à optimiser.


Conclusion

Il y a une raison pour laquelle T-SNE est devenu si populaire: il est incroyablement flexible et peut souvent trouver une structure où d’autres algorithmes de réduction de dimensionnalité ne le peuvent pas. Malheureusement, cette flexibilité le rend difficile à interpréter. Hors de la vue de l’utilisateur, l’algorithme fait toutes sortes d’ajustements qui rangent ses visualisations. Ne laissez pas la «magie» cachée vous effrayer de toute la technique. La bonne nouvelle est qu’en étudiant comment T-SNE se comporte dans des cas simples, il est possible de développer une intuition pour ce qui se passe.



Source link

Related post