Alimenter une IA sans couture à grande échelle

Crise de mi-vie du silicium
L’IA est passée de la ML classique à l’apprentissage en profondeur à l’IA générative. Le chapitre le plus récent, qui a pris l’IA traditionnel, dépend de deux phases – la formation et l’inférence – ce sont des données et une énergie en termes de calcul, de mouvement des données et de refroidissement. Dans le même temps, la loi de Moore, qui détermine que le nombre de transistors sur une puce double tous les deux ans, atteindre un plateau physique et économique.
Au cours des 40 dernières années, les puces en silicium et les technologies numériques se sont poussées les uns les autres – chaque longueur d’avance dans les capacités de traitement libère l’imagination des innovateurs pour envisager de nouveaux produits, qui nécessitent encore plus de puissance. Cela se produit à une vitesse légère à l’âge de l’IA.
À mesure que les modèles deviennent plus facilement disponibles, le déploiement à grande échelle met en lumière l’inférence et l’application de modèles formés pour les cas d’utilisation quotidienne. Cette transition nécessite le matériel approprié pour gérer efficacement les tâches d’inférence. Les unités de traitement central (CPU) ont géré les tâches informatiques générales depuis des décennies, mais la large adoption de la ML a introduit des demandes de calcul qui étendaient les capacités des CPU traditionnels. Cela a conduit à l’adoption d’unités de traitement graphique (GPU) et d’autres puces d’accélérateur pour la formation de réseaux de neurones complexes, en raison de leurs capacités d’exécution parallèle et de la bande passante élevée de mémoire qui permettent de traiter efficacement les opérations mathématiques à grande échelle.
Mais les CPU sont déjà les plus largement déployés et peuvent être des compagnons de processeurs comme les GPU et les unités de traitement du tenseur (TPU). Les développeurs d’IA hésitent également à adapter des logiciels pour s’adapter au matériel spécialisé ou sur mesure, et ils favorisent la cohérence et l’omniprésence des processeurs. Les concepteurs de puces débloquent des gains de performances grâce à des outils logiciels optimisés, en ajoutant de nouvelles fonctionnalités de traitement et des types de données spécifiquement pour servir les charges de travail ML, intégrant des unités et des accélérateurs spécialisés, et Innovations de puce en silicium avancéesy compris le silicium personnalisé. L’IA elle-même est une aide utile pour la conception des puces, créant une boucle de rétroaction positive dans laquelle l’IA aide à optimiser les puces dont il a besoin pour exécuter. Ces améliorations et le soutien logiciel solide signifient que les processeurs modernes sont un bon choix pour gérer une gamme de tâches d’inférence.
Au-delà des processeurs à base de silicium, les technologies perturbatrices émergent pour répondre à la croissance des calculs et des demandes de données d’IA. Le Lightmatter de start-up de la licornepar exemple, a introduit des solutions informatiques photoniques qui utilisent la lumière pour la transmission des données pour générer des améliorations significatives de la vitesse et de l’efficacité énergétique. Calcul quantique représente une autre zone prometteuse dans le matériel d’IA. Bien que des années, voire des décennies, l’intégration de l’informatique quantique avec l’IA pourrait transformer encore des domaines comme la découverte de médicaments et la génomique.
Comprendre les modèles et les paradigmes
Les développements des théories ML et des architectures de réseau ont considérablement amélioré l’efficacité et les capacités des modèles d’IA. Aujourd’hui, l’industrie passe des modèles monolithiques aux systèmes basés sur des agents caractérisés par des modèles plus petits et spécialisés qui fonctionnent ensemble pour effectuer des tâches plus efficacement au bord – sur des appareils comme les smartphones ou les véhicules modernes. Cela leur permet d’extraire des gains de performances accrus, comme des temps de réponse du modèle plus rapides, à partir du même calcul ou même moins.
Les chercheurs ont développé des techniques, y compris l’apprentissage à quelques coups, pour former des modèles d’IA en utilisant des ensembles de données plus petits et moins d’itérations de formation. Les systèmes d’IA peuvent apprendre de nouvelles tâches à partir d’un nombre limité d’exemples pour réduire la dépendance des grands ensembles de données et des demandes d’énergie plus faibles. Les techniques d’optimisation comme la quantification, qui réduisent les exigences de mémoire en réduisant sélectivement la précision, aident à réduire les tailles de modèle sans sacrifier les performances.
Les nouvelles architectures système, comme la génération (RAG) (RAG) de récupération, ont rationalisé l’accès aux données pendant la formation et l’inférence pour réduire les coûts de calcul et les frais généraux. Le Deepseek R1, un LLM open source, est un exemple convaincant de la façon dont plus de sortie peut être extraite en utilisant le même matériel. En appliquant des techniques d’apprentissage de renforcement de manière nouvelle, R1 a atteint des capacités de raisonnement avancées tout en utilisant FAR Moins de ressources informatiques dans certains contextes.