NLP pour cartographier la recherche en physique avec Matteo Chinazzi

Science des sciences
Les antécédents de Matteo en économie et son intérêt pour le comportement humain ont déclenché son désir d’explorer la «science de la science». La physique était le point de départ naturel car il a déjà travaillé avec de nombreuses personnes sur le terrain. Pour construire ses modèles, Matteo utilise un ensemble de données de base d’articles publiés dans les revues de l’American Physical Society. Cet ensemble de données a été choisi en partie en raison de la robustesse de son schéma de classification, le schéma de classification de la physique et de l’astronomie (PACS), qui fournit des références à des sujets, des auteurs et des publications affiliés pour chacun des articles des archives. PACS fournit également un ensemble cohérent de mots clés pour chacun des articles. Ces mots clés sont utilisés pour relier les différents chercheurs en physique les uns aux autres en utilisant un modèle d’incorporation. Dans le cas de Matteo, le modèle qu’ils utilisent est Vedette d’ardoi d’artdéveloppé par Facebook AI Research. Comme le dit Matteo, « nous traitons chaque auteur comme un sac de sujets, un sac de domaines de recherche dans lesquels cet auteur a travaillé. Ensuite, nous utilisons ce sac de sujets pour déduire les intérêts pour chaque sous-zone de recherche spécifique. » Après avoir créé une intégration qui relie les différents sujets de recherche les uns aux autres, Matteo et ses co-auteurs l’utilisent ensuite pour créer ce qu’ils appellent le Research Space Network (RSN). Le RSN est une « cartographie de l’espace de recherche (créé) en examinant essentiellement l’expertise des auteurs pour nous guider sur ce que cela signifie que deux sujets sont similaires. »
Principe de parenté
Jusqu’à présent, l’une des principales conclusions de la recherche est ce que Matteo appelle une « empreinte digitale » de la production scientifique de villes. Le travail est basé sur l’idée du principe de parenté, un terme économique qui vise à mesurer la relation entre la production globale, les exportations, l’expertise et les partenaires commerciaux d’une nation pour prédire quels articles le pays devrait exporter ensuite. En appliquant cette idée à leurs recherches, Matteo examinerait toutes les publications scientifiques d’une ville et utiliserait l’espace d’incorporation pour mesurer le niveau de parenté et prédire la direction des connaissances scientifiques de la ville. Vous pouvez utiliser un réseau pour montrer visuellement les interactions entre différents vecteurs (sujets scientifiques) et classer la probabilité qu’une ville entre dans un domaine spécifique. Ce classement devient votre « classificateur » et vous permet de déterminer où ce champ sera ou non développé ensuite. Si vous deviez tracer les sujets de la recherche existante dans une ville, vous pouvez voir où la «densité de connaissances» se rassemble et noter où la densité est élevée, pour prédire la trajectoire de la recherche. Si un pays est à une étape intermédiaire de développement, il y a de plus grandes chances de « sauter » dans un espace différent.
Focus et limitations
L’objectif, pour l’instant, est de trouver le meilleur moyen de créer des intégres pour un problème très spécifique, pas pour une variété de tâches. Par exemple, il n’y a pas de pondération du volume de travail d’un chercheur ou de son importance relative – les associations incluent tout ce dans quoi il a été actif. De même, pour certaines analyses, vous voudrez peut-être identifier où le scientifique est le plus actif et supprimer tous les projets parallèles ou les sujets abandonnés. Aucun de ces éléments n’est pris en compte dans cet article. Au contraire, Matteo aborde le problème du scénario le plus simple possible, demandant efficacement « Et si nous sommes aveugles? » « Nous … obtenons une grosse pile de papiers d’un auteur. Nous énumérons simplement tous les sujets sur lesquels il a travaillé et nous nous entraînons là-dessus. » Ils veulent prouver que vous n’avez pas besoin d’effectuer des vérifications manuelles et des optimisations pour obtenir des résultats utiles.
Métriques de performance
Matteo a testé les résultats en utilisant deux validations différentes: une approche consistait à visualiser les empreintes digitales RSN et régionales pour l’évaluation. Cela a permis de voir facilement les macro-zones où la classification PACS distingue les différents sous-domaines de la physique. Cette hiérarchie n’a pas été utilisée au moment de la formation et l’algorithme a pu déterminer la bonne classification. La deuxième méthode consistait à mesurer le pouvoir prédictif de l’algorithme en regardant chaque ville à une période donnée et en répertoriant les sujets où ils avaient un avantage concurrentiel. Ensuite, ils les ont comparés en utilisant une métrique standard comme une courbe ROC pour voir si le modèle fonctionnait mieux qu’un modèle aléatoire.
Quelle est la prochaine étape?
Bien que l’objectif soit de se dilater et d’appliquer ces techniques à des articles entiers (vs seulement les mots clés PACS), le fait d’avoir une taxonomie prédéterminée et une structure hiérarchique leur donne une référence pour valider leurs propres observations. La mise à l’échelle de cette approche des autres champs est quelque chose sur lequel ils commencent à travailler. Ils ont fait des progrès en utilisant le graphique académique Microsoft qui comprend tous les différents domaines de la science. Pour l’instant, ils ne peuvent pas reproduire les résultats qu’ils obtiennent lorsqu’ils appliquent l’algorithme à la physique, mais le potentiel d’espace d’incorporation peut être évolué pour suivre des choses comme la sémantique d’un terme au fil du temps, ou comment les auteurs ont tendance à se déplacer dans cet espace. Il y a aussi la possibilité de trouver des lacunes dans la science et d’établir des liens que le domaine pourrait ne pas savoir.