Screenai: un modèle de langue visuelle pour l’interface utilisateur et la compréhension du langage signé visuellement

 Screenai: un modèle de langue visuelle pour l’interface utilisateur et la compréhension du langage signé visuellement

Les interfaces utilisateur d’écran (UIS) et les infographies, telles que les graphiques, les diagrammes et les tables, jouent des rôles importants dans la communication humaine et l’interaction humaine-machine car ils facilitent les expériences des utilisateurs riches et interactifs. Les UIS et les infographies partagent des principes de conception similaires et un langage visuel (par exemple, des icônes et des dispositions), qui offrent la possibilité de construire un seul modèle qui peut comprendre, raisonner et interagir avec ces interfaces. Cependant, en raison de leur complexité et de leurs formats de présentation variés, les infographies et leurs UI présentent un défi de modélisation unique.

À cette fin, nous introduisons «Screenai: un modèle de vision en matière d’interface utilisateur et d’infographie». Screenai améliore le Architecture pali avec la stratégie de correction flexible de pix2struct. Nous formons Screenai sur un mélange unique d’ensembles de données et de tâches, y compris une nouvelle tâche d’annotation d’écran qui nécessite le modèle pour identifier les informations sur l’élément d’interface utilisateur (c.-à-d. Le type, l’emplacement et la description) sur un écran. Ces annotations textuelles fournissent des modèles de grande langue (LLM) avec des descriptions d’écran, leur permettant de générer automatiquement des ensembles de données sur les réponses aux questions (QA), la navigation d’interface utilisateur et la formation de résumé à grande échelle. À seulement 5B paramètres, Screenai obtient des résultats de pointe sur les tâches basées sur l’infographie et l’infographie (Websrc et Motif) et les meilleures performances de classe sur CHART QA, Docvqaet Infographievqa par rapport aux modèles de taille similaire. Nous publions également trois nouveaux ensembles de données: Annotation d’écran pour évaluer la capacité de compréhension de la disposition du modèle, ainsi que Screenqa court et Screenqa complexe Pour une évaluation plus complète de sa capacité QA.


Screenai

L’architecture de Screenai est basée sur Palicomposé d’un bloc d’encodeur multimodal et d’un décodeur autorégressif. L’encodeur Pali utilise un transformateur de vision (VIT) qui crée des incorporations d’images et un codeur multimodal qui prend la concaténation de l’image et des intérêts de texte en entrée. Cette architecture flexible permet à Screenai de résoudre des tâches de vision qui peuvent être refondues sous forme de texte + image à texte.

En plus de l’architecture Pali, nous utilisons une stratégie de correction flexible introduite dans PIX2STRUCT. Au lieu d’utiliser un motif de réseau fixe, les dimensions de la grille sont sélectionnées de telle sorte qu’elles préservent le rapport d’aspect natif de l’image d’entrée. Cela permet à Screenai de bien fonctionner sur les images de divers rapports d’aspect.

Le modèle Screenai est formé en deux étapes: une étape de pré-formation suivie d’une étape de réglage fin. Tout d’abord, un apprentissage auto-supervisé est appliqué pour générer automatiquement des étiquettes de données, qui sont ensuite utilisées pour former la VIT et le modèle de langue. La Vit est congelée pendant le stade de réglage fin, où la plupart des données utilisées sont marquées manuellement par les évaluateurs humains.

Architecture du modèle Screenai.


Génération de données

Pour créer un ensemble de données pré-formation pour Screenai, nous compilons d’abord une vaste collection de captures d’écran à partir de divers appareils, y compris des ordinateurs de bureau, mobiles et tablettes. Ceci est réalisé en utilisant pages Web accessibles au public et à la suite de l’approche d’exploration programmatique utilisée pour le Ensemble de données RICO pour les applications mobiles. Nous appliquons ensuite un annotateur de mise en page, sur la base du Détachement Modèle, qui identifie et étiquette un large éventail d’éléments d’interface utilisateur (par exemple, image, pictogramme, bouton, texte) et leurs relations spatiales. Les pictogrammes subissent une analyse plus approfondie en utilisant un classificateur d’icônes capable de distinguer 77 types d’icônes différents. Cette classification détaillée est essentielle pour interpréter les informations subtiles transmises à travers des icônes. Pour les icônes qui ne sont pas couvertes par le classificateur, et pour les infographies et les images, nous utilisons le modèle de sous-titrage d’image Pali pour générer des légendes descriptives qui fournissent des informations contextuelles. Nous appliquons également un reconnaissance de caractère optique (OCR) moteur pour extraire et annoter le contenu textuel à l’écran. Nous combinons le texte OCR avec les annotations précédentes pour créer une description détaillée de chaque écran.

Une capture d’écran d’application mobile avec des annotations générées qui incluent des éléments d’interface utilisateur et leurs descriptions, par exemple, TEXT Les éléments contiennent également le contenu texte de l’OCR, IMAGE Les éléments contiennent des légendes d’image, LIST_ITEMs contiennent tous leurs éléments enfants.


Génération de données basée sur LLM

Nous améliorons la diversité des données pré-formation en utilisant Palmier 2 Pour générer des paires d’entrée-sortie dans un processus en deux étapes. Tout d’abord, les annotations d’écran sont générées en utilisant la technique décrite ci-dessus, puis nous élaborons une invite autour de ce schéma pour que le LLM crée des données synthétiques. Ce processus nécessite une ingénierie rapide et un raffinement itératif pour trouver une invite efficace. Nous évaluons la qualité des données générées par la validation humaine par rapport à un seuil de qualité.


You only speak JSON. Do not write text that isn’t JSON.
You are given the following mobile screenshot, described in words. Can you generate 5 questions regarding the content of the screenshot as well as the corresponding short answers to them? 

The answer should be as short as possible, containing only the necessary information. Your answer should be structured as follows:
questions: (
{{question: the question,
    answer: the answer
}},
 ...
)

{THE SCREEN SCHEMA}

Un échantillon d’invite pour la génération de données QA.

En combinant les capacités du langage naturel des LLM avec un schéma structuré, nous simulons un large éventail d’interactions et de scénarios utilisateur pour générer des tâches synthétiques et réalistes. En particulier, nous générons trois catégories de tâches:

  • Question Répondre: Le modèle est invité à répondre aux questions concernant le contenu des captures d’écran, par exemple, « Quand le restaurant s’ouvre-t-il? »
  • Navigation d’écran: Le modèle est invité à convertir un énoncé du langage naturel en une action exécutable sur un écran, par exemple, « cliquez sur le bouton de recherche. »
  • Résumé d’écran: Le modèle est invité à résumer le contenu de l’écran en une ou deux phrases.
Bloquer le diagramme de notre flux de travail pour générer des données pour l’AQ, les tâches de résumé et de navigation à l’aide de modèles Screenai et de LLMS existants. Chaque tâche utilise une invite personnalisée pour souligner les aspects souhaités, comme les questions liées au comptage, à l’implication du raisonnement, etc.

Données générées par LLM. Exemples pour l’écran QA, la navigation et le résumé. Pour la navigation, la boîte de délimitation d’action s’affiche en rouge sur la capture d’écran.


Expériences et résultats

Comme mentionné précédemment, Screenai est formé en deux étapes: pré-formation et réglage fin. Les étiquettes de données pré-formation sont obtenues en utilisant l’apprentissage auto-supervisé et les étiquettes de données à affinures proviennent des évaluateurs humains.

Nous affinons Screenai en utilisant des ensembles de données QA publique, de résumé et de navigation et une variété de tâches liées aux UIS. Pour QA, nous utilisons des repères bien établis dans le champ multimodal et de compréhension des documents, tels que Chartqa, Docvqa, Docvqa multi-pages, Infographievqa, OCR VQA, Web src et Screenqa. Pour la navigation, les ensembles de données utilisés comprennent Références expressions, Motif, Tasseet Android dans la nature. Enfin, nous utilisons Screen2words pour le résumé d’écran et Sous-titrage du widget pour décrire des éléments d’interface utilisateur spécifiques. Parallèlement aux ensembles de données de réglage fin, nous évaluons le modèle Screenai réglé à l’aide de trois nouveaux repères:

  1. Annotation d’écran: permet les annotations de mise en page du modèle d’évaluation et les capacités de compréhension spatiale.
  2. Screenqa Short: une variation de ScreenQA, où ses réponses de vérité au sol ont été raccourcies pour ne contenir que les informations pertinentes qui s’alignent mieux avec d’autres tâches QA.
  3. Screenqa complexe: complète ScreenQA court avec des questions plus difficiles (comptage, arithmétique, comparaison et questions non répondues) et contient des écrans avec divers ratios d’aspect.

Le modèle Screenai ajusté obtient des résultats de pointe sur diverses tâches d’interface utilisateur et d’infographie (Websrc et Motif) et les meilleures performances en classe sur CHART QA, Docvqaet Infographievqa par rapport à des modèles de taille similaire. Screenai obtient des performances concurrentielles sur Screen2words et OCR-VQA. De plus, nous rapportons les résultats sur les nouveaux ensembles de données de référence introduits pour servir de référence pour de nouvelles recherches.

Comparaison des performances du modèle de Screenai avec des modèles de pointe de la taille de la technologie (SOTA).

Ensuite, nous examinons les capacités de mise à l’échelle de Screenai et observons que dans toutes les tâches, l’augmentation de la taille du modèle améliore les performances et les améliorations n’ont pas saturé à la plus grande taille.

Les performances du modèle augmentent avec la taille, et les performances n’ont pas saturé même à la plus grande taille de paramètres 5B.


Conclusion

Nous présentons le modèle Screenai avec une représentation unifiée qui nous permet de développer des tâches d’apprentissage auto-supervisées en tirant parti des données de tous ces domaines. Nous illustrons également l’impact de la génération de données à l’aide de LLMS et étudions l’amélioration des performances du modèle sur des aspects spécifiques avec la modification du mélange d’entraînement. Nous appliquons toutes ces techniques pour construire des modèles formés multi-tâches qui fonctionnent de manière compétitive avec des approches de pointe sur un certain nombre de références publiques. Cependant, nous notons également que notre approche est toujours à la traîne de grands modèles et que des recherches supplémentaires sont nécessaires pour combler cet écart.


Remerciements

Ce projet est le résultat d’un travail conjoint avec Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor Carbune, Jason Lin, Jindong Chen et Abhanshu Sharma. Nous remercions Fangyu Liu, Xi Chen, Efi Kokiopoulou, Jesse Berent, Gabriel Barcik, Lukas Zilka, Oriana Riva, Gang Li, Yang Li, Radu Soricut et Tania Bedrax-Weiss pour leurs commentaires et ses discussions perspicaces, ainsi que Rahul Aalikatte, Hao Cheng et Daniel Kim pour leur soutien aux données. Nous remercions également Jay Yagnik, Blaise Aguera Y Arcas, Ewa Dominowska, David Petrou et Matt Sharifi pour leur leadership, leur vision et leur soutien. Nous sommes très reconnaissants Totom Small pour nous avoir aidés à créer l’animation dans ce post.



Source link

Related post

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *