Comment Alexnet a transformé l’IA et la vision par ordinateur pour toujours

 Comment Alexnet a transformé l’IA et la vision par ordinateur pour toujours


En partenariat Googlele Musée d’histoire de l’informatique a libéré le code source À Alexnet, le réseau neuronal qui a lancé en 2012 l’approche actuelle de l’IA. Le code source est disponible en tant que open source sur Page GitHub du CHM.

Qu’est-ce que Alexnet?

Alexnet est un réseau neuronal artificiel créé pour reconnaître le contenu des images photographiques. Il a été développé en 2012 par les étudiants diplômés de l’Université de Toronto Alex Krizhevsky et Ilya Sutskever et leur conseiller du corps professoral, Geoffrey Hinton.

Hinton est considéré comme l’un des pères de apprentissage en profondeurle type de intelligence artificielle qui utilise réseaux neuronaux et est le fondement de l’IA dominante d’aujourd’hui. Simple trois couches réseaux neuronaux Avec une seule couche de poids adaptatifs a été construite pour la première fois à la fin des années 1950, notamment par le chercheur Cornell, Frank Rosenblatt – mais ils ont été avérés avoir des limites. (Cet explicateur Donne plus de détails sur le fonctionnement des réseaux de neurones.) En particulier, les chercheurs avaient besoin de réseaux avec plus d’une couche de poids adaptatifs, mais il n’y avait pas un bon moyen de les former. Au début des années 1970, les réseaux de neurones avaient été largement rejeté par les chercheurs de l’IA.

Frank Rosenblatt (à gauche, montré avec Charles W. Wightman) a développé le premier réseau neuronal artificiel, le Perceptron, en 1957.Division des collections rares et manuscrites / bibliothèque de l’Université Cornell

Dans les années 1980, la recherche sur les réseaux neuronaux a été relancé en dehors de la communauté de l’IA par des scientifiques cognitifs de l’Université de Californie San Diego, sous le nouveau nom du «connexionnisme». Après avoir terminé son doctorat. À l’Université d’Édimbourg en 1978, Hinton était devenu un boursier postdoctoral à UCSDoù il a collaboré avec David Rumelhart et Ronald Williams. Les trois ont redécouvert le étalon Algorithme pour la formation des réseaux de neurones et, en 1986, ils ont publié deux articles montrant qu’il a permis aux réseaux de neurones d’apprendre plusieurs couches de fonctionnalités pour les tâches de langage et de vision. La rétropropagation, qui est fondamentale de l’apprentissage en profondeur aujourd’hui, utilise la différence entre la sortie actuelle et la sortie souhaitée du réseau pour ajuster les poids de chaque couche, de la couche de sortie vers l’arrière vers la couche d’entrée.

En 1987, Hinton a rejoint le Université de Toronto. Loin des centres de l’IA traditionnelle, le travail d’Hinton et ceux de ses étudiants diplômés ont fait de Toronto un centre de recherche en profondeur au cours des prochaines décennies. Un étudiant postdoctoral de Hinton était Yann LeCunmaintenant scientifique en chef à Méta. Tout en travaillant à Toronto, LeCun a montré que lorsque la rétropropagation était utilisée dans des réseaux de neurones «convolutionnels», ils sont devenus très bons pour reconnaître les nombres manuscrits.

Imagenet et GPUS

Malgré ces avancées, les réseaux de neurones ne pouvaient pas de manière cohérente sur d’autres types de types de apprentissage automatique algorithmes. Ils avaient besoin de deux développements de l’extérieur de l’IA pour ouvrir la voie. La première a été l’émergence de quantités de données beaucoup plus importantes pour la formation, mises à disposition via le Web. Le second était une puissance de calcul suffisante pour effectuer cette formation, sous la forme de 3D graphique Chips, connus sous le nom de GPU. En 2012, le temps était mûr pour Alexnet.

Fei Fei Li s'adressant à Tom Kalil sur scène lors d'un événement. Tous deux sont assis dans des chaises de bras.L’ensemble de données d’image ImageNet de Fei-Fei Li, achevé en 2009, a été essentiel à la formation d’Alexnet. Ici, Li (à droite) parle avec Tom Kalil au Historique informatique Musée.Douglas Fairbairn / History Museum informatique

Les données nécessaires pour former Alexnet ont été trouvées dans Imagenetun projet a commencé et dirigé par Stanford professeur Fei-fei li. À partir de 2006, et contre la sagesse conventionnelle, Li a envisagé un ensemble de données d’images couvrant chaque nom en anglais. Elle et ses étudiants diplômés ont commencé à collecter des images trouvées sur le Internet et les classer en utilisant une taxonomie fournie par WordNetune base de données de mots et leurs relations les uns avec les autres. Compte tenu de l’énormité de leur tâche, Li et ses collaborateurs finissent par faire croître la tâche d’étiqueter des images pour faire des travailleurs, en utilisant Plate-forme mécanique turque d’Amazon.

Terminé en 2009, ImageNet était plus grand que n’importe quel ensemble de données d’image précédent par plusieurs ordres de grandeur. Li espérait que sa disponibilité stimulerait de nouvelles percées, et elle a commencé un concours en 2010 pour encourager les équipes de recherche à améliorer leur reconnaissance d’image algorithmes. Mais au cours des deux prochaines années, les meilleurs systèmes n’ont fait que des améliorations marginales.

La deuxième condition nécessaire au succès des réseaux de neurones était l’accès économique à de grandes quantités de calcul. La formation de réseau neuronal implique de nombreuses multiplications matricielles répétées, de préférence réalisées en parallèle, ce que les GPU sont conçus pour faire. Nvidiacofondé par le PDG Jensen Huangavait ouvert la voie dans les années 2000 pour rendre les GPU plus généralisables et programmables pour les applications au-delà des graphiques 3D, en particulier avec le Système de programmation CUDA Sorti en 2007.

À la fois Imagenet et Cuda étaient, comme des réseaux de neurones eux-mêmes, des développements assez de niche qui attendaient que les bonnes circonstances brillent. En 2012, Alexnet a réuni ces éléments – les réseaux de neurones en profondeur, les grands ensembles de données et les GPU – pour la première fois, avec des résultats révolutionnaires. Chacun d’eux avait besoin de l’autre.

Comment Alexnet a été créé

À la fin des années 2000, les étudiants diplômés d’Hinton à l’Université de Toronto commençaient à utiliser des GPU pour former des réseaux de neurones pour l’image et reconnaissance de la parole. Leurs premiers succès sont survenus en reconnaissance de la parole, mais le succès de la reconnaissance d’image indiquera l’apprentissage en profondeur comme une solution à usage général possible à l’IA. Un étudiant, Ilya Sutskever, pensait que la performance des réseaux de neurones évoluerait avec la quantité de données disponibles, et l’arrivée de l’imageNet en a fourni l’occasion.

En 2011, Sutskever a convaincu son collègue diplômé Alex Krizhevsky, qui avait une grande capacité à éliminer les performances maximales des GPU, à former un réseau neuronal convolutionnel pour Imagenet, avec Hinton en tant qu’enquêteur principal.

Jensen Huang parle derrière un podium sur une scène de l'événement. Derrière lui se trouve un écran de projecteur montrant son nom, ainsi qu'une phrase en dessous qui lit, "Pour le leadership visionnaire dans la progression des appareils et des systèmes pour l'infographie, l'informatique accélérée et l'intelligence artificielle".Alexnet utilisé Nvidia GPUS exécutant le code CUDA formé sur l’ensemble de données ImageNet. PDG de Nvidia Jensen Huang a été nommé boursier de 2024 Chm pour ses contributions à informatique Chips et AI.Douglas Fairbairn / History Museum informatique

Krizhevsky avait déjà écrit du code CUDA pour un réseau neuronal convolutionnel utilisant des GPU NVIDIA, appelés CUDA-CONVETformé sur le beaucoup plus petit Ensemble de données d’image CIFAR-10. Il a étendu Cuda-Convnet avec le support pour plusieurs GPU et autres fonctionnalités et l’a recyclé sur ImageNet. La formation a été effectuée sur un ordinateur avec deux cartes Nvidia dans la chambre de Krizhevsky chez ses parents. Au cours de l’année suivante, il a constamment modifié les paramètres du réseau et l’a recyclé jusqu’à ce qu’il atteigne les performances supérieures à ses concurrents. Le réseau serait finalement nommé Alexnet, après Krizhevsky. Geoff Hinton a résumé le projet Alexnet de cette façon: «Ilya pensait que nous devrions le faire, Alex l’a fait fonctionner, et j’ai eu le Prix ​​Nobel. « 

Krizhevsky, Sutskever et Hinton ont écrit un papier sur Alexnet qui a été publié à l’automne 2012 et présenté par Krizhevsky dans un vision par ordinateur Conférence à Florence, Italieen octobre. Les chercheurs de vision des ordinateurs vétérans n’étaient pas convaincus, mais LeCun, qui était à la réunion, l’a déclaré un tournant pour l’IA. Il avait raison. Avant Alexnet, presque aucun des principaux papiers de vision par ordinateur n’a utilisé de filets neuronaux. Après cela, presque tous le feraient.

Alexnet n’était que le début. Au cours de la prochaine décennie, les réseaux de neurones avanceraient vers synthétiser des voix humaines crédibles, Battre Champion Go Playerset générer des œuvresculminant avec la libération de Chatte en novembre 2022 par Openaiune entreprise cofondée par Sutskever.

Libération du code source Alexnet

En 2020, j’ai contacté Krizhevsky pour poser des questions sur la possibilité de permettre au CHM de libérer le code source Alexnet, en raison de sa signification historique. Il m’a connecté à Hinton, qui travaillait chez Google à l’époque. Google possédait Alexnet, ayant acquis DNNResearch, la société appartenant à Hinton, Sutskever et Krizhevsky. Hinton a fait rouler le ballon en connectant le CHM à la bonne équipe de Google. CHM a travaillé avec l’équipe Google pendant cinq ans pour négocier la libération. L’équipe nous a également aidés à identifier la version spécifique du code source Alexnet à publier – il y a eu de nombreuses versions d’Alexnet au fil des ans. Il existe d’autres référentiels de code appelé Alexnet sur Githubmais beaucoup d’entre eux sont des recréations basées sur le célèbre article, pas le code d’origine.

CHM est fier de présenter le code source de la version 2012 d’Alexnet, qui a transformé le domaine de l’intelligence artificielle. Vous pouvez accéder au code source sur Page GitHub du CHM.

Ce message est apparu à l’origine sur le Blog du musée d’histoire de l’informatique.

Remerciements

Un merci spécial à Geoffrey Hinton pour avoir fourni sa citation et examiné le texte, à Cade Metz et Alex Krizhevsky pour des clarifications supplémentaires, et à David Bieber et au reste de l’équipe de Google pour leur travail pour sécuriser la version du code source.

À partir des articles de votre site

Articles connexes sur le Web



Source link

Related post