L’apprentissage du renforcement découvre les erreurs de données silencieuses
Pour les puces haute performance en massive centres de donnéesLes mathématiques peuvent être l’ennemi. Merci à l’échelle des calculs en cours dans Hyperscale centres de donnéesopérant 24 heures sur 24 avec des millions de nœuds et de grandes quantités de silicium, des erreurs extrêmement rares apparaissent. Ce sont simplement des statistiques. Ces rares erreurs de données «silencieuses» ne se présentent pas lors des dépistages conventionnels de contrôle de la qualité, même lorsque les entreprises passent des heures à les chercher.
Ce mois à l’IEEE Symposium international de physique de la fiabilité à Monterey, Californie, Intel Les ingénieurs ont décrit une technique qui utilise l’apprentissage du renforcement Pour découvrir plus d’erreurs de données silencieuses plus rapidement. L’entreprise utilise le apprentissage automatique Méthode pour assurer la qualité de son Xeon processeurs.
Lorsqu’une erreur se produit dans un centre de données, les opérateurs peuvent soit éliminer un nœud et le remplacer, soit utiliser le système défectueux pour l’informatique à enjeux inférieure, dit Manu Shamsaingénieur électricien chez Intel’s Chandler, Arizona, campus. Mais ce serait beaucoup mieux si des erreurs pouvaient être détectées plus tôt. Idéalement, ils seraient capturés avant qu’une puce ne soit incorporée dans un système informatique, lorsqu’il est possible de faire des corrections de conception ou de fabrication pour éviter que les erreurs ne récurrent à l’avenir.
«Dans un ordinateur portable, vous ne remarquerez aucune erreur. Dans les centres de données, Avec des nœuds vraiment denses, il y a des chances élevées que les étoiles s’aligneront et une erreur se produira. » —Manu Shamsa, Intel
Trouver ces défauts n’est pas si facile. Shamsa dit que les ingénieurs ont été si déroutés par eux qu’ils ont plaisanté en disant qu’ils devaient être dus à une action effrayante à distance, la phrase d’Einstein pour quantum enchevêtrement. Mais il n’y a rien de effrayant à leur sujet, et Shamsa a passé des années à les caractériser. Dans un article présenté lors de la même conférence l’année dernière, son équipe fournit un tout catalogue des causes de ces erreurs. La plupart sont dus à des variations infinitésimales dans la fabrication.
Même si chacun des milliards de transistors Sur chaque puce est fonctionnelle, ils ne sont pas complètement identiques les uns aux autres. Des différences subtiles dans la façon dont un transistor donné réagissent aux changements de température, de tension ou de fréquence, par exemple, peuvent entraîner une erreur.
Ces subtilités sont beaucoup plus susceptibles de surgir dans d’énormes centres de données en raison du rythme de l’informatique et de la grande quantité de silicium impliquée. «Dans un ordinateur portable, vous ne remarquerez aucune erreur. Dans les centres de données, Avec des nœuds vraiment denses, il y a des chances élevées que les étoiles s’aligneront et une erreur se produira », explique Shamsa.
Certaines erreurs ne pouvaient survenir qu’après l’installation d’une puce dans un centre de données et fonctionne depuis des mois. De petites variations dans les propriétés des transistors peuvent les faire se dégrader avec le temps. Une telle erreur silencieuse que Shamsa a trouvée est liée à la résistance électrique. Un transistor qui fonctionne correctement au début et passe des tests standard pour rechercher des shorts, peut, avec une utilisation, se dégrader pour qu’il devienne plus résistant.
« Vous pensez que tout va bien, mais en dessous, une erreur provoque une mauvaise décision », explique Shamsa. Au fil du temps, grâce à une légère faiblesse dans un seul transistor, «un plus un va à trois, silencieusement, jusqu’à ce que vous voyiez l’impact», explique Shamsa.
La nouvelle technique s’appuie sur un ensemble de méthodes existantes pour détecter les erreurs silencieuses, appelées Tests propres. Ces tests font que la puce fait des problèmes de mathématiques difficiles, à plusieurs reprises sur une période de temps, dans l’espoir de rendre les erreurs silencieuses apparentes. Ils impliquent des opérations sur différentes tailles de matrices remplies de données aléatoires.
Il y a un grand nombre de tests propres. Les faire fonctionner tous prendrait un temps peu pratique, donc les fabricants de puces utilisent une approche randomisée pour en générer un ensemble gérable. Cela fait gagner du temps mais laisse des erreurs non détectées. «Il n’y a pas de principe pour guider la sélection des intrants», explique Shamsa. Il voulait trouver un moyen de guider la sélection afin qu’un nombre relativement faible de tests puisse révéler plus d’erreurs.
L’équipe Intel a utilisée apprentissage du renforcement pour développer des tests pour la partie de son CPU XEON puce qui fonctionne Multiplication matricielle en utilisant ce que l’on appelle les instructions de fusible-culture-ADD (FMA). Shamsa dit qu’ils ont choisi la région FMA car il prend une zone relativement grande de la puce, ce qui le rend plus vulnérable aux erreurs silencieuses potentielles – plus de silicium, plus de problèmes. De plus, les défauts dans cette partie d’une puce peuvent générer des champs électromagnétiques qui affectent d’autres parties du système. Et parce que la FMA est désactivée pour économiser de l’énergie lorsqu’elle n’est pas utilisée, le tester implique de le mettre à plusieurs reprises de haut en bas, activant potentiellement des défauts cachés qui autrement n’apparaîtraient pas dans les tests standard.
À chaque étape de sa formation, le programme d’apprentissage de renforcement sélectionne différents tests pour la puce potentiellement défectueuse. Chaque erreur qu’il détecte est traitée comme une récompense, et au fil du temps, l’agent apprend à sélectionner les tests maximiser les chances de détecter les erreurs. Après environ 500 cycles de test, l’algorithme a appris quel ensemble de tests Eigen a optimisé le taux de détection d’erreur pour la région FMA.
Shamsa dit que cette technique est cinq fois plus susceptible de détecter un défaut que les tests propres randomisés. Les tests propres sont open sourcepartie du OpenDCDIAG pour les centres de données. Les autres utilisateurs devraient donc être en mesure d’utiliser l’apprentissage du renforcement pour modifier ces tests pour leurs propres systèmes, dit-il.
Dans une certaine mesure, les défauts silencieux et subtils sont une partie inévitable du processus de fabrication – une perfection et une uniformité susceptibles de rester hors de portée. Mais Shamsa dit que Intel essaie d’utiliser cette recherche pour apprendre à trouver les précurseurs qui conduisent à des erreurs de données silencieuses plus rapidement. Il enquête sur s’il existe des drapeaux rouges qui pourraient fournir un avertissement précoce des erreurs futures, et s’il est possible de changer de recettes ou de conceptions de puces pour les gérer.
À partir des articles de votre site
Articles connexes sur le Web
