Mesurer la perception dans les modèles d’IA

Nouvelle référence pour évaluer les systèmes multimodaux basés sur des données vidéo, audio et texte du monde réel
De Test de Turing à Imagenetles références ont joué un rôle instrumental dans la formation de l’intelligence artificielle (IA) en aidant à définir les objectifs de recherche et à permettre aux chercheurs de mesurer les progrès vers ces objectifs. Percées incroyables au cours des 10 dernières années, comme Alexnet en vision informatique et Alphafold Dans le repliement des protéines, ils ont été étroitement liés à l’utilisation de ensembles de données de référence, permettant aux chercheurs de classer les choix de conception et de formation des modèles et d’adhérer à l’amélioration de leurs modèles. Alors que nous travaillons vers l’objectif de construire l’intelligence générale artificielle (AGI), le développement de repères robustes et efficaces qui élargissent les capacités des modèles d’IA est aussi important que de développer les modèles eux-mêmes.
La perception – le processus d’expérience du monde à travers les sens – est une partie importante de l’intelligence. Et la construction d’agents avec une compréhension perceptuelle au niveau de l’homme du monde est une tâche centrale mais difficile, qui devient de plus en plus importante en robotique, voitures autonomes, assistants personnels, imagerie médicale, etc. Alors aujourd’hui, nous présentons le Test de perceptionune référence multimodale utilisant des vidéos du monde réel pour aider à évaluer les capacités de perception d’un modèle.
Développer une référence de perception
De nombreux repères liés à la perception sont actuellement utilisés dans la recherche sur l’IA, comme Cinétique Pour la reconnaissance de l’action vidéo, Audioset Pour la classification des événements audio, Mot pour le suivi des objets, ou Vqa pour les questions d’image. Ces références ont conduit à des progrès incroyables dans la façon dont les architectures de modèle IA et les méthodes de formation sont construites et développées, mais chacune cible les aspects restreints de la perception: les références d’image excluent les aspects temporels; L’analyse de questions visuelle a tendance à se concentrer sur la compréhension de la scène sémantique de haut niveau; Les tâches de suivi des objets capturent généralement l’apparence de niveau inférieur d’objets individuels, comme la couleur ou la texture. Et très peu de repères définissent les tâches sur les modalités audio et visuelles.
Modèles multimodaux, tels que Percepteur, Flamantou Beit-3vise à être des modèles de perception plus généraux. Mais leurs évaluations étaient basées sur plusieurs ensembles de données spécialisés car aucune référence dédiée n’était disponible. Ce processus est lent, coûteux et offre une couverture incomplète des capacités de perception générales comme la mémoire, ce qui rend difficile pour les chercheurs de comparer les méthodes.
Pour résoudre bon nombre de ces problèmes, nous avons créé un ensemble de données de vidéos conçues délibérément des activités du monde réel, étiquetées selon six types de tâches différents:
- Suivi des objets: Une boîte est fournie autour d’un objet au début de la vidéo, le modèle doit retourner une piste complète dans toute la vidéo (y compris via Occlusions).
- Suivi de points: Un point est sélectionné dès le début de la vidéo, le modèle doit suivre le point à travers la vidéo (également via des occlusions).
- Localisation d’action temporelle: Le modèle doit localiser et classer temporairement un ensemble prédéfini d’actions.
- Localisation du son temporel: Le modèle doit localiser et classer temporairement un ensemble prédéfini de sons.
- Question vidéo à choix multiples: Questions textuelles sur la vidéo, chacune avec trois choix à partir de laquelle sélectionner la réponse.
- Assaiant de questions vidéo à la terre: Questions textuelles sur la vidéo, le modèle doit renvoyer une ou plusieurs pistes d’objets.
Nous nous sommes inspirés de la façon dont la perception des enfants est évaluée en psychologie du développement, ainsi que des ensembles de données synthétiques comme S’adresser et Clevreret a conçu 37 scripts vidéo, chacun avec différentes variations pour assurer un ensemble de données équilibré. Chaque variation a été filmée par au moins une douzaine de participants à la foule (similaire aux travaux antérieurs sur Charades et Quelque chose quelque chose), avec un total de plus de 100 participants, résultant en 11 609 vidéos, avec une moyenne de 23 secondes.
Les vidéos montrent des jeux simples ou des activités quotidiennes, ce qui nous permettrait de définir des tâches qui nécessitent les compétences suivantes pour résoudre:
- Connaissance de la sémantique: Tester des aspects comme l’achèvement des tâches, la reconnaissance des objets, des actions ou des sons.
- Compréhension de la physique: collisions, mouvement, occlusions, relations spatiales.
- Raisonnement temporel ou mémoire: Commande temporelle des événements, comptant au fil du temps, détectant des changements dans une scène.
- Capacités d’abstraction: correspondance de forme, notions identiques / différentes, détection de motifs.
Les participants provenant de la foule ont étiqueté les vidéos avec des annotations spatiales et temporelles (pistes de boîte de limite d’objet, pistes ponctuelles, segments d’action, segments de son). Notre équipe de recherche a conçu les questions par type de script pour les tâches de réponse vidéo à choix multiples et ancrées pour assurer une bonne diversité des compétences testées, par exemple, des questions qui sondent la possibilité de raisonner contrefactuellement ou pour fournir des explications pour une situation donnée. Les réponses correspondantes pour chaque vidéo ont de nouveau été fournies par les participants provenant de la foule.
Évaluation des systèmes multimodaux avec le test de perception
Nous supposons que les modèles ont été formés sur des ensembles de données et des tâches externes. Le test de perception comprend un petit ensemble de réglage fin (20%) que les créateurs de modèles peuvent éventuellement utiliser pour transmettre la nature des tâches aux modèles. Les données restantes (80%) sont constituées d’une division de validation publique et d’une division de test de maintien lorsque les performances ne peuvent être évaluées que via notre serveur d’évaluation.
Ici, nous montrons un diagramme de la configuration de l’évaluation: les entrées sont une séquence vidéo et audio, plus une spécification de tâche. La tâche peut être sous forme de texte de haut niveau pour une réponse à une question visuelle ou une entrée de bas niveau, comme les coordonnées de la boîte de délimitation d’un objet pour la tâche de suivi de l’objet.
Les résultats de l’évaluation sont détaillés dans plusieurs dimensions, et nous mesurons les capacités dans les six tâches de calcul. Pour les tâches visuelles de questions-réponses, nous fournissons également une cartographie des questions sur les types de situations indiquées dans les vidéos et les types de raisonnement requis pour répondre aux questions pour une analyse plus détaillée (voir Notre journal pour plus de détails). Un modèle idéal maximiserait les scores sur toutes les parcelles radar et toutes les dimensions. Il s’agit d’une évaluation détaillée des compétences d’un modèle, ce qui nous permet de réduire les zones d’amélioration.
Assurer la diversité des participants et des scènes montrés dans les vidéos était une considération critique lors du développement de la référence. Pour ce faire, nous avons sélectionné des participants de différents pays de différentes ethnies et genres et visions à avoir une représentation diversifiée dans chaque type de script vidéo.
En savoir plus sur le test de perception
La référence de test de perception est accessible au public ici et plus de détails sont disponibles dans Notre journal. Un classement et un serveur de défi seront également disponibles.
Le 23 octobre 2022, nous organisons un Atelier sur les modèles de perception générale à la Conférence européenne sur la vision par ordinateur à Tel Aviv (ECCV 2022), où nous discuterons de notre approche et comment concevoir et évaluer les modèles de perception généraux avec d’autres experts de premier plan dans le domaine.
Nous espérons que le test de perception inspirera et guidera des recherches supplémentaires sur les modèles de perception généraux. À l’avenir, nous espérons collaborer avec la communauté de recherche multimodale pour introduire des annotations, des tâches, des mesures ou même de nouvelles langues supplémentaires dans la référence.
Contactez-le en envoyant un e-mail perception-test@google.com Si vous êtes intéressé à contribuer!