Construire des agents de la voix AI qui ne sont pas nul avec Kwindla Kramer

Dans cet épisode, Kwindla Kramer, co-fondatrice et PDG de Daily and Creator de l’open source Pipecat Framework, se joint à nous pour discuter de l’architecture et des défis de la création de la voix conversationnelle en temps réel et prêt pour la production. Kwin décompose la pile complète pour les agents vocaux – des modèles et des API à la couche d’orchestration critique qui gère les complexités des conversations multi-tours. Nous explorons pourquoi de nombreux systèmes de production privilégient une approche modulaire et multimodèle sur les modèles de bout en bout démontrés par les grands laboratoires d’IA, et comment cela affecte tout, de la latence et du coût à l’observabilité et à l’évaluation. Kwin creuse également dans les principaux défis de la gestion des interruptions, de la prise de virage et de la création de dynamiques conversationnelles vraiment naturelles, et comment les surmonter. Nous discutons des cas d’utilisation, des réflexions sur l’endroit où la technologie se dirige, le passage vers des pipelines hybrides à cloud à bord et dans l’avenir passionnant des avatars vidéo en temps réel, et bien plus encore.