Offrir des services de discours de neurones à grande échelle avec Li Jiang

Aujourd’hui, nous sommes rejoints par Li Jiang, un ingénieur distingué chez Microsoft travaillant sur Azure Speech. Dans notre conversation avec Li, nous discutons de son parcours à travers 27 ans chez Microsoft, où il a travaillé, entre autres, des technologies de reconnaissance audio et de la parole. Nous explorons ses réflexions sur les progrès de la reconnaissance vocale au cours des dernières années, les défis et les avantages, d’utiliser des modèles de bout en bout ou hybrides. Nous discutons également des compromis entre la livraison de l’exactitude ou de la qualité et le type de caractéristiques d’exécution dont vous avez besoin en tant que fournisseur de services, dans le contexte de l’ingénierie et de la prestation d’un service à l’échelle de la parole Azure. Enfin, nous parcourons le processus de collecte de données pour personnaliser une voix pour TTS, quelles langues sont actuellement prises en charge, gérant les responsabilités des menaces comme Deep Fakes, l’avenir pour des services comme ceux-ci, et bien plus encore!