Meta Fair avance une IA de type humain avec cinq versions majeures

 Meta Fair avance une IA de type humain avec cinq versions majeures


L’équipe fondamentale de la recherche sur l’IA (FAIL) de Meta a annoncé cinq projets avançant la poursuite de la société de renseignement des machines (AMI) par l’entreprise.

Les dernières versions de Méta Concentrez-vous fortement sur l’amélioration de la perception de l’IA – la capacité des machines à traiter et à interpréter les informations sensorielles – parallèlement aux progrès de la modélisation du langage, de la robotique et des agents d’IA collaboratifs.

Meta a déclaré que son objectif consiste à créer des machines «qui sont capables d’acquérir, de traiter et d’interpréter des informations sensorielles sur le monde qui nous entoure et qui sont en mesure d’utiliser ces informations pour prendre des décisions avec l’intelligence et la vitesse de type humain.»

Les cinq nouvelles versions représentent des efforts divers mais interconnectés pour atteindre cet objectif ambitieux.

Encodeur de perception: la méta aiguise la «vision» de l’IA

Le codeur de perception est au cœur des nouvelles versions, décrite comme un encodeur de vision à grande échelle conçu pour exceller dans diverses tâches d’image et de vidéo.

Les encodeurs de vision fonctionnent comme les «yeux» pour les systèmes d’IA, leur permettant de comprendre les données visuelles.

Meta met en évidence le défi croissant de la construction d’encodeurs qui répondent aux exigences de l’IA avancée, nécessitant des capacités qui pont la vision et le langage, gèrent efficacement les images et les vidéos, et restent robustes dans des conditions difficiles, y compris les attaques contradictoires potentielles.

Selon Meta, le codeur idéal devrait reconnaître un large éventail de concepts tout en distinguant des détails subtils, censément des exemples comme repérer «un grisant enfermé sous le fond maritime, identifiant un minuscule Goldfinch en arrière-plan d’une image, ou attrapant un Agouti de vision nocturne sur une caméra de la faune de la vision nocturne».

Meta affirme que l’encodeur de perception obtient «des performances exceptionnelles sur la classification et la récupération de l’image et de la vidéo zéro, dépassant tous les modèles open source et propriétaires existants pour de telles tâches.»

De plus, ses forces perceptives se traduiraient bien par des tâches linguistiques.

Lorsqu’elle est alignée sur un modèle grand langage (LLM), l’encodeur surpasse d’autres encodeurs de vision dans des domaines tels que la réponse à la question visuelle (VQA), le sous-titrage, la compréhension des documents et la mise à la terre (liant le texte à des régions d’image spécifiques). Il augmenterait également les performances des tâches traditionnellement difficiles pour les LLM, telles que la compréhension des relations spatiales (par exemple, «si un objet est derrière un autre») ou le mouvement de la caméra par rapport à un objet.

« Alors que le codeur de perception commence à être intégré dans de nouvelles applications, nous sommes ravis de voir comment ses capacités de vision avancée permettra des systèmes d’IA encore plus capables », a déclaré Meta.

Perception Language Model (PLM): Recherche ouverte en langue de vision

Le codeur est complété par le modèle de langue de perception (PLM), un modèle de langue visuelle ouverte et reproductible visant des tâches de reconnaissance visuelle complexes.

Le PLM a été formé à l’aide de données synthétiques à grande échelle combinées à des ensembles de données de vision ouverts, explicitement sans distillation de connaissances à partir de modèles propriétaires externes.

Reconnaissant les lacunes dans les données de compréhension vidéo existantes, l’équipe équitable a collecté 2,5 millions d’échantillons de nouveaux échantillons marqués par l’homme axés sur la réponse vidéo à grain fin et le sous-titrage spatio-temporel. Meta affirme que cela constitue le «plus grand ensemble de données de ce type à ce jour».

PLM est proposé dans les versions de 1, 3 et 8 milliards de paramètres, répondant aux besoins de recherche universitaire nécessitant une transparence.

Parallèlement aux modèles, Meta publie PLM-videobench, une nouvelle référence spécialement conçue pour tester les capacités souvent manquées par des repères existants, à savoir «la compréhension des activités à grain fin et le raisonnement spatio-temporel.»

Meta espère que la combinaison de modèles ouverts, du grand ensemble de données et de la référence difficile permettra à la communauté open-source.

Meta Locate 3D: Donner des robots Sensibilisation à la situation

Meta Locate Meta Locate 3D. Ce modèle de bout en bout vise à permettre aux robots de localiser avec précision les objets dans un environnement 3D basé sur des requêtes en langage naturel à vocabulaire ouvert.

Meta Localisez les processus 3D Clouds 3D Point directement à partir de capteurs RVB-D (comme ceux trouvés sur certains robots ou des caméras de détection de profondeur). Compte tenu d’une invite textuelle, telle que «vase de fleurs près de la console TV», le système considère les relations spatiales et le contexte pour identifier l’instance d’objet correcte, en la distinguant, disons, un «vase sur la table».

Le système comprend trois parties principales: une étape de prétraitement convertissant les fonctionnalités 2D en nuages ​​de points en fonction 3D; le codeur 3D-Jepa (un modèle pré-entraîné créant une représentation mondiale 3D contextualisée); et le décodeur 3D LOCATE, qui prend la représentation 3D et la requête linguistique aux cases et masques de délimitation de sortie pour les objets spécifiés.

Parallèlement au modèle, Meta publie un nouvel ensemble de données substantiel pour la localisation d’objets basée sur des expressions référentes. Il comprend 130 000 annotations de langues sur 1 346 scènes des ensembles de données Arkitscenes, Scanet et Scanet ++, doublant efficacement les données annotées existantes dans ce domaine.

Meta considère cette technologie comme cruciale pour développer des systèmes robotiques plus capables, y compris son propre projet de robot Partnr, permettant une interaction et une collaboration plus naturelles de l’homme-robot.

TRANSFORMATEUR LATENT D’OYTE dynamique: modélisation efficace et robuste du langage

Après des recherches publiées à la fin de 2024, Meta publie désormais les poids du modèle pour son transformateur latent d’octet dynamique de 8 milliards de paramètres.

Cette architecture représente un éloignement des modèles de langage basés sur les tokénisations traditionnels, opérant à la place au niveau des octets. Meta affirme que cette approche atteint des performances comparables à grande échelle tout en offrant des améliorations significatives de l’efficacité d’inférence et de la robustesse.

Les LLM traditionnelles divisent le texte en «jetons», qui peuvent lutter avec des fautes d’orthographe, de nouveaux mots ou des entrées adversaires. Les modèles au niveau des octets traitent les octets bruts, offrant potentiellement une plus grande résilience.

Meta rapporte que le transformateur latent dynamique des octets «surpasse les modèles basés sur le tokeniser sur diverses tâches, avec un avantage de robustesse moyen de +7 points (sur Hellaswag perturbé), et atteignant jusqu’à +55 points sur les tâches de la référence en jeton mignonne.»

En libérant les poids aux côtés de la base de code précédemment partagée, Meta encourage la communauté de recherche à explorer cette approche alternative à la modélisation des langues.

Conseil collaboratif: Meta avance des agents d’IA socialement intelligents

La version finale, Collaborative Reasoner, relève le défi complexe de créer des agents d’IA qui peuvent collaborer efficacement avec les humains ou d’autres IA.

Meta note que la collaboration humaine donne souvent des résultats supérieurs et vise à imprégner l’IA avec des capacités similaires pour des tâches comme aider à la préparation des devoirs ou des entretiens d’embauche.

Une telle collaboration nécessite non seulement la résolution de problèmes mais aussi les compétences sociales comme la communication, l’empathie, la fourniture de commentaires et la compréhension des états mentaux des autres (théorie de l’esprit), se déroulant souvent sur plusieurs virages conversationnels.

Les méthodes actuelles de formation et d’évaluation LLM négligent souvent ces aspects sociaux et collaboratifs. De plus, la collecte de données conversationnelles pertinentes est coûteuse et difficile.

Collaborative Reasoner fournit un cadre pour évaluer et améliorer ces compétences. Il comprend des tâches axées sur les objectifs nécessitant un raisonnement en plusieurs étapes réalisé par la conversation entre deux agents. Le cadre teste les capacités comme en désaccord de manière constructive, persuadant un partenaire et atteignant une meilleure solution partagée.

Les évaluations de Meta ont révélé que les modèles actuels ont du mal à tirer parti de la collaboration pour de meilleurs résultats. Pour y remédier, ils proposent une technique d’auto-amélioration en utilisant des données d’interaction synthétique où un agent LLM collabore avec lui-même.

La génération de ces données à l’échelle est activée par un nouveau moteur de service de modèle haute performance appelé matrice. L’utilisation de cette approche sur les tâches de raisonnement mathématique, scientifique et sociale aurait apporté des améliorations allant jusqu’à 29,4% par rapport à la performance standard de la chaîne de pensées d’un seul LLM.

En open source du pipeline de génération et de modélisation de données, Meta vise à favoriser de nouvelles recherches sur la création de «agents sociaux vraiment« qui peuvent s’associer à des humains et à d’autres agents ».

Ces cinq sorties soulignent collectivement les investissements lourds continus de Meta dans la recherche fondamentale sur l’IA, se concentrant en particulier sur les éléments constitutifs des machines qui peuvent percevoir, comprendre et interagir avec le monde de manière plus humaine.

Voir aussi: Meta formera des modèles d’IA à l’aide de données utilisateur de l’UE

Vous voulez en savoir plus sur l’IA et les Big Data des leaders de l’industrie? Vérifier AI et Big Data Expo se déroulant à Amsterdam, en Californie et à Londres. L’événement complet est colocalisé avec d’autres événements de premier plan, notamment Conférence d’automatisation intelligente, Blockx, Semaine de transformation numériqueet Cyber ​​Security & Cloud Expo.

Explorez d’autres événements et webinaires de technologie d’entreprise à venir alimentés par Techforge ici.



Source link

Related post