Décodage spéculatif et inférence LLM efficace avec Chris Lott

Aujourd’hui, nous sommes rejoints par Chris Lott, directeur principal de l’ingénierie chez Qualcomm AI Research pour discuter de l’accélération de l’inférence du modèle de langue importante. Nous explorons les défis présentés par le codage et le décodage LLM (génération d’aias) et comment ceux-ci interagissent avec diverses contraintes matérielles telles que les flops, l’empreinte de la mémoire et la bande passante de mémoire pour limiter les métriques d’inférence des clés telles que le temps à prendre, les jetons par seconde et les tokens par Joule. Nous fouillons ensuite dans une variété de techniques qui peuvent être utilisées pour accélérer l’inférence telle que la compression KV, la quantification, l’élagage, le décodage spéculatif et l’expression des modèles de petits langues (SLM). Nous discutons également des orientations futures pour activer des expériences agentiques sur disque telles que la génération parallèle et les outils logiciels comme l’orchestrateur Qualcomm AI.