Transformers distils et modèles de diffusion pour les cas d’utilisation de bord robustes avec Fatih Porikli

 Transformers distils et modèles de diffusion pour les cas d’utilisation de bord robustes avec Fatih Porikli


Aujourd’hui, nous sommes rejoints par Fatih Porikli, directeur principal de la technologie chez Qualcomm AI Research pour un aperçu approfondi de plusieurs des articles et démos acceptés de Qualcomm présentés lors de la conférence CVPR de cette année. Nous commençons par «DIMA: distillant des modèles de langage multimodal de grande envergure pour la conduite autonome», un système de conduite autonome de bout en bout qui intègre des modèles de grande langue distillant pour une compréhension structurée des scènes et un mouvement de planification sûr dans des scénarios critiques à «longue queue». Nous explorons comment Dima utilise les connaissances mondiales de LLMS et les modèles efficaces basés sur les transformateurs pour réduire considérablement les taux de collision et les erreurs de trajectoire. Nous discutons ensuite de «SharpDepth: affûtage les prédictions de la profondeur métrique à l’aide de la distillation de diffusion», une approche dissuffrée de diffusion qui combine des modèles génératifs avec une estimation de la profondeur métrique pour produire des cartes de profondeur monoculaire précises et précises. De plus, Fatih partage également un aperçu des démos sur les appareils sur les appareils de Qualcomm, y compris la génération de maillage de texte à 3D, la génération d’image à vidéo et de vidéo à vidéo en temps réel et un assistant visuel multimodal de questions-réponses.



Source link

Related post