Cinq façons dont l’IA apprend à s’améliorer

C’est pourquoi Mirhoseini a utilisé l’IA pour optimiser les puces d’IA. En 2021, elle et ses collaborateurs de Google ont construit un Système non llm AI Cela pourrait décider où placer divers composants sur une puce informatique pour optimiser l’efficacité. Bien que certains autres chercheurs Échec de la reproduction Les résultats de l’étude, Mirhoseini dit que Nature a étudié le document et confirmé la validité de l’œuvre – et elle note que Google a utilisé les conceptions du système pour plusieurs générations de ses puces AI personnalisées.
Plus récemment, Mirhoseini a appliqué le LLMS au problème de l’écriture des grains, des fonctions de bas niveau qui contrôlent comment diverses opérations, comme la multiplication matricielle, sont effectuées dans les puces. Elle a constaté que même les LLM à usage général peuvent, dans certains cas, écrire des grains qui courir plus vite que les versions conçues par l’homme.
Ailleurs chez Google, les scientifiques ont construit un système qu’ils ont utilisé pour optimiser diverses parties de l’infrastructure LLM de l’entreprise. Le système, appelé Alphaevolutioninvite Gemini LLM de Google à écrire des algorithmes pour résoudre un problème, évalue ces algorithmes et demande aux Gémeaux d’améliorer les plus réussis et les répétitions à plusieurs reprises. Alphaevolve a conçu une nouvelle approche pour exécuter des centres de données qui ont enregistré 0,7% des ressources de calcul de Google, apporté de nouvelles améliorations à la conception des puces personnalisées de Google et conçu un nouveau noyau qui a accéléré la formation de Gemini de 1%.
Cela peut ressembler à une petite amélioration, mais dans une énorme entreprise comme Google, cela équivaut à d’énormes économies de temps, d’argent et d’énergie. Et Matej Balog, un chercheur du personnel de Google Deepmind qui a dirigé le projet Alphaevolve, dit que lui et son équipe ont testé le système uniquement sur une petite composante du pipeline de formation global de Gemini. L’appliquer plus largement, dit-il, pourrait conduire à plus d’économies.
3. Formation automatisée
Les LLM ont faim de données célèbres, et les former est coûteux à chaque étape. Dans certains domaines spécifiques – les langages de programmation inhabituels, par exemple – les données du monde réel sont trop rares pour former efficacement les LLM. Le renforcement de l’apprentissage avec la rétroaction humaine, une technique dans laquelle les humains marquent les réponses LLM aux invites et les LLM sont ensuite formées à l’aide de ces scores, a été la clé pour créer des modèles qui se comportent conformément aux normes et aux préférences humaines, mais l’obtention de la rétroaction humaine est lente et coûteuse.
De plus en plus, les LLM sont utilisés pour combler les lacunes. S’il est invité avec de nombreux exemples, les LLM peuvent générer des données synthétiques plausibles dans les domaines dans lesquels ils n’ont pas été formés, et que les données synthétiques peuvent ensuite être utilisées pour la formation. Les LLM peuvent également être utilisées efficacement pour l’apprentissage du renforcement: dans une approche appelée «LLM en tant que juge», les LLM, plutôt que pour les humains, sont utilisées pour marquer les sorties de modèles formés. Cette approche est la clé du cadre influent de «l’IA constitutionnelle» proposé par les chercheurs anthropes en 2022, dans lequel un LLM est formé pour être moins nocif en fonction des commentaires d’un autre LLM.
La rareté des données est un problème particulièrement aigu pour les agents de l’IA. Les agents efficaces doivent être en mesure de réaliser des plans en plusieurs étapes pour accomplir des tâches particulières, mais des exemples de réussite étape par étape sont rares en ligne, et utiliser les humains pour générer de nouveaux exemples serait cher. Pour surmonter cette limitation, Mirhoseini de Stanford et ses collègues ont récemment piloté un technique Dans lequel un agent LLM génère une approche étape par étape possible d’un problème donné, un juge LLM évalue si chaque étape est valide, puis un nouvel agent LLM est formé sur ces étapes. «Vous n’êtes plus limité par les données, car le modèle peut simplement générer arbitrairement les expériences de plus en plus», explique Mirhoseini.
4. Conception d’agent perfectionné
Un domaine où les LLM n’ont pas encore apporté de contributions majeures sont dans la conception des LLM elles-mêmes. Les LLM d’aujourd’hui sont toutes basées sur une structure de réseaux neuronaux appelée transformateur, qui a été proposée par des chercheurs humains en 2017, et les améliorations notables qui ont depuis été apportées à l’architecture ont également été conçues par l’homme.