Google Deepmind à ICLR 2024

Recherche
Développer des agents de l’IA de nouvelle génération, explorer de nouvelles modalités et un apprentissage fondamental pionnier
La semaine prochaine, des chercheurs d’IA du monde entier convergent au 12e Conférence internationale sur les représentations d’apprentissage (ICLR), qui devrait avoir lieu du 7 au 11 mai à Vienne, en Autriche.
Raia Hadsell, vice-présidente de la recherche de Google Deepmind, offrira un discours principale réfléchissant aux 20 dernières années dans le domaine, soulignant comment les leçons apprises façonnent l’avenir de l’IA au profit de l’humanité.
Nous proposerons également des démonstrations en direct montrant comment nous apportons notre recherche fondamentale dans la réalité, du développement de Transformateurs de robotique à la création de kits d’outils et de modèles open source comme Gemme.
Des équipes de sur Google Deepmind présenteront plus de 70 articles cette année. Quelques saillants de recherche:
Agents de résolution de problèmes et approches d’inspiration humaine
Les grands modèles de langue (LLM) révolutionnent déjà les outils AI avancés, mais leur plein potentiel reste inexploité. Par exemple, les agents d’IA basés sur LLM capables de prendre des mesures efficaces pourraient transformer les assistants numériques en outils d’IA plus utiles et intuitifs.
Les assistants de l’IA qui suivent les instructions du langage naturel pour effectuer des tâches sur le Web au nom des gens seraient une énorme économie. Dans une présentation orale, nous introduisons Webagentun agent axé sur la LLM qui apprend de l’auto-expérience pour naviguer et gérer des tâches complexes sur des sites Web du monde réel.
Pour améliorer davantage l’utilité générale des LLM, nous nous sommes concentrés sur l’augmentation de leurs compétences en résolution de problèmes. Nous démontrons comment nous l’avons réalisé en équipant un système basé sur LLM avec une approche traditionnellement humaine: produire et utiliser des «outils». Par ailleurs, nous présentons une technique de formation qui garantit que les modèles linguistiques produisent de manière plus cohérente sorties socialement acceptables. Notre approche utilise un espace de répétition de bac à sable qui représente le valeurs de la société.
Repousser les limites dans la vision et le codage
Notre modèle Dynamic Scene Transformer (DYST) exploite des vidéos de caméra unique réelles pour extraire des représentations 3D d’objets dans la scène et leurs mouvements.
Jusqu’à récemment, les grands modèles d’IA se sont principalement concentrés sur le texte et les images, jetant les bases de la reconnaissance de modèles à grande échelle et de l’interprétation des données. Maintenant, le domaine progresse au-delà de ces domaines statiques pour adopter la dynamique des environnements visuels du monde réel. À mesure que l’informatique progresse à tous les niveaux, il est de plus en plus important que son code sous-jacent soit généré et optimisé avec une efficacité maximale.
Lorsque vous regardez une vidéo sur un écran plat, vous saisissez intuitivement la nature tridimensionnelle de la scène. Les machines, cependant, ont du mal à imiter cette capacité sans supervision explicite. Nous présentons notre Transformateur de scène dynamique (DYST) Modèle, qui exploite des vidéos de caméra monomares réelles pour extraire des représentations 3D d’objets dans la scène et leurs mouvements. De plus, Dyst permet également la génération de nouvelles versions de la même vidéo, avec un contrôle des utilisateurs sur les angles de caméra et le contenu.
L’émulation des stratégies cognitives humaines permet également de meilleurs générateurs de code d’IA. Lorsque les programmeurs écrivent du code complexe, ils «décomposent» généralement la tâche en sous-tâches plus simples. Avec Extecnous introduisons une nouvelle approche générateur de code qui exploite une approche de décomposition pour élever les performances de programmation et de généralisation des systèmes d’IA.
En parallèle papier à proposer Nous explorons l’utilisation nouvelle de l’apprentissage automatique pour non seulement générer du code, mais pour l’optimiser, en introduisant un Ensemble de données pour la référence robuste des performances du code. L’optimisation du code est difficile, nécessitant un raisonnement complexe, et notre ensemble de données permet l’exploration d’une gamme de techniques ML. Nous démontrons que les stratégies d’apprentissage qui en résultent surpassent les optimisations de code fabriquées humaines.
EXEDEC présente une nouvelle approche générateurs de code qui exploite une approche de décomposition pour élever la programmation et les performances de la programmation et de la généralisation des systèmes d’IA
Faire progresser l’apprentissage fondamental
Nos équipes de recherche abordent les grandes questions de l’IA – de l’exploration de l’essence de la cognition machine pour comprendre comment les modèles d’IA avancés se généralisent – tout en travaillant à surmonter les principaux défis théoriques.
Pour les humains et les machines, le raisonnement causal et la capacité de prédire les événements sont des concepts étroitement liés. Dans une présentation des projecteurs, nous explorons comment L’apprentissage du renforcement est affecté par les objectifs de formation basés sur la prédictionet tirer des parallèles avec les changements de l’activité cérébrale également liés à la prédiction.
Lorsque les agents de l’IA sont capables de généraliser bien à de nouveaux scénarios est-ce parce qu’ils, comme les humains, ont appris un modèle causal sous-jacent de leur monde? Il s’agit d’une question essentielle dans l’IA avancée. Dans une présentation orale, nous révélons que de tels modèles ont en effet appris un modèle causal approximatif des processus qui ont abouti à leurs données de formation et discutent des implications profondes.
Une autre question essentielle dans l’IA est la confiance, qui dépend en partie de la façon dont les modèles peuvent estimer avec précision l’incertitude de leurs résultats – un facteur crucial pour la prise de décision fiable. Nous avons fait Avancées significatives dans l’estimation de l’incertitude dans l’apprentissage en profondeur bayésienemployant une méthode simple et essentiellement gratuite.
Enfin, nous explorons l’équilibre Nash de Game Theory (NE) – un état dans lequel aucun joueur ne profite de la modification de leur stratégie si les autres maintiennent le leur. Au-delà des simples jeux à deux joueurs, même l’approximation d’un équilibre de Nash est intraitable, mais dans une présentation orale, nous révéler de nouvelles approches de pointe Dans la négociation des transactions du poker aux enchères.
Rassembler la communauté de l’IA
Nous sommes ravis de parrainer ICLR et d’initiatives de soutien Queer dans l’IA et Femmes en apprentissage automatique. De tels partenariats renforcent non seulement les collaborations de recherche mais favorisent également une communauté dynamique et diversifiée dans l’IA et l’apprentissage automatique.
Si vous êtes chez ICLR, assurez-vous de visiter notre stand et notre Recherche Google collègues d’à côté. Découvrez nos recherches pionnières, rencontrez nos équipes organisant des ateliers et engagez-vous avec nos experts présentés tout au long de la conférence. Nous sommes impatients de nous connecter avec vous!