Google Deepmind chez Neirips 2023

Recherche
Vers des systèmes d’IA plus multimodaux, robustes et généraux
La semaine prochaine marque le début de la 37e conférence annuelle sur les systèmes de traitement de l’information neuronale (INIPS), la plus grande conférence d’intelligence artificielle (IA) au monde. Neirips 2023 aura lieu du 10 au 16 décembre à la Nouvelle-Orléans, aux États-Unis.
Des équipes de sur Google Deepmind présentent plus de 180 articles lors de la conférence principale et des ateliers.
Nous présenterons des démos de nos modèles d’IA de pointe pour Prévisions météorologiques mondiales, découverte des matériauxet Contenu généré par le filigrane AI. Il y aura également une opportunité d’entendre l’équipe derrière Gemini, notre mode d’IA le plus important et le plus compétentl.
Voici un aperçu de certains de nos saillants de recherche:
Multimodalité: langue, vidéo, action
UNISIM est un simulateur universel d’interactions réelles.
Les modèles d’IA génératifs peuvent créer des peintures, composer de la musique et écrire des histoires. Mais cependant, ces modèles peuvent être dans un support, la plupart ont du mal à transférer ces compétences à une autre. Nous nous plongeons sur la façon dont les capacités génératives pourraient aider à apprendre à travers les modalités. Dans une présentation des projecteurs, nous montrons que Les modèles de diffusion peuvent être utilisés pour classer les images sans formation supplémentaire requise. Les modèles de diffusion comme Imagen classent les images d’une manière plus humaine que d’autres modèles, en s’appuyant sur des formes plutôt que des textures. De plus, nous montrons comment La prédiction des légendes des images peut améliorer l’apprentissage par vision informatique. Notre approche a dépassé les méthodes actuelles sur les tâches de vision et de langage, et a montré plus de potentiel à évoluer.
Plus de modèles multimodaux pourraient céder la place à des assistants numériques et robots plus utiles pour aider les gens dans leur vie quotidienne. Dans une affiche de projecteur, nouscréer des agents qui pourraient interagir avec le monde numérique comme les humains – Grâce à des captures d’écran et à des actions de clavier et de souris. Par séparation, nous montrons que par Tirant parti de la génération de vidéos, y compris les sous-titres et le sous-titrage fermé, les modèles peuvent transférer des connaissances en prédisant les plans vidéo pour de véritables actions de robot.
L’une des prochaines étapes pourrait être de générer une expérience réaliste en réponse aux actions réalisées par les humains, les robots et d’autres types d’agents interactifs. Nous présenterons une démo de Unissimnotre simulateur universel des interactions du monde réel. Ce type de technologie pourrait avoir des applications dans les industries, des jeux vidéo et des films aux agents de formation pour le monde réel.
Construire une IA sûre et compréhensible
L’illustration d’un artiste de l’intelligence artificielle (IA). Cette image représente une recherche sur la sécurité de l’IA. Il a été créé par l’artiste Khyati Trehan dans le cadre du projet de visualisation de l’IA lancé par Google Deepmind.
Lors du développement et du déploiement de grands modèles, la confidentialité doit être intégrée à chaque étape du processus.
Dans un article reconnu avec le Prix du meilleur papier des Neiripsnos chercheurs montrent comment évaluer la confidentialité préservant s’entraîner avec une technique efficace Assez pour une utilisation réelle. Pour l’entraînement, nos équipes étudient comment mesurer si Les modèles de langue mémorisent des données – afin de protéger les matériaux privés et sensibles. Dans une autre présentation orale, nos scientifiques étudient le Limites de la formation par le biais de modèles «Student» et «Teacher» qui ont différents niveaux d’accès et de vulnérabilité s’ils sont attaqués.
Les modèles de grands langues peuvent générer des réponses impressionnantes, mais sont sujettes aux «hallucinations», du texte qui semble correct mais qui est composé. Nos chercheurs soulèvent la question de savoir si une méthode pour trouver un emplacement (localisation) stocké en fait peut permettre d’éditer le fait. Étonnamment, ils ont trouvé queLa localisation d’un fait et l’édition de l’emplacement ne modifient pas le faitfaisant allusion à la complexité de la compréhension et du contrôle des informations stockées dans les LLM. Avec Tracr, nous proposons une nouvelle façon d’évaluer l’interprétabilité Méthodes en traduisant des programmes lisibles par l’homme en modèles de transformateurs. Nous avons Open Sourced une version de Tracr Pour aider à servir de vérification du sol pour évaluer les méthodes d’interprétation.
Capacités émergentes
L’illustration d’un artiste de l’intelligence artificielle (IA). Cette image imagine l’intelligence générale artificielle (AGI). Il a été créé par Novoto Studio dans le cadre du projet de visualisation de l’IA lancé par Google Deepmind.
À mesure que les grands modèles deviennent plus capables, nos recherches repoussent les limites des nouvelles capacités pour développer des systèmes d’IA plus généraux.
Bien que les modèles de langage soient utilisés pour les tâches générales, ils n’ont pas la compréhension exploratoire et contextuelle nécessaire pour résoudre des problèmes plus complexes. Nous présentons le Arbre de pensées, un nouveau cadre pour l’inférence du modèle de langue Pour aider les modèles à explorer et à raisonner sur un large éventail de solutions possibles. En organisant le raisonnement et la planification en tant qu’arbre au lieu de la chaîne de réflexion plate couramment utilisée, nous démontrons qu’un modèle de langue est capable de résoudre des tâches complexes comme le «jeu 24» beaucoup plus précisément.
Pour aider les gens à résoudre des problèmes et à trouver ce qu’ils recherchent, les modèles d’IA doivent traiter efficacement des milliards de valeurs uniques. Avec Multiplexage des fonctionnalités, un seul espace de représentation est utilisé pour de nombreuses fonctionnalités différentespermettant à de grands modèles d’incorporation (LEMS) à évoluer aux produits pour des milliards d’utilisateurs.
Enfin, avec Doremi, nous montrons comment l’utilisation de l’IA pour automatiser Le mélange de types de données d’entraînement peut accélérer considérablement la formation du modèle de langueet améliorer les performances des tâches nouvelles et invisibles.
Favoriser une communauté mondiale d’IA
Nous sommes fiers de parrainer les nevrips et les ateliers de soutien dirigés par Latinx en ai, Queéeraiet Femmes en MLaider à favoriser les collaborations de la recherche et à développer une communauté de l’IA et de l’apprentissage automatique diversifié. Cette année, les Neirips auront un morceau créatif mettant en vedette notre Visualiser l’IA Project, qui communique les artistes à créer des représentations plus diverses et accessibles de l’IA.
Si vous assistez à les nevrips, venez par notre stand pour en savoir plus sur nos recherches de pointe et rencontrer nos équipes qui organisent des ateliers et présentez à travers la conférence.