Un nouveau système de traduction d’IA pour les écouteurs clones plusieurs voix simultanément

La traduction de la parole spatiale se compose de deux modèles d’IA, dont le premier divise l’espace entourant la personne portant les écouteurs en petites régions et utilise un réseau neuronal pour rechercher des haut-parleurs potentiels et identifier leur direction.
Le deuxième modèle traduit ensuite les mots des orateurs de français, allemand ou espagnol en texte anglais à l’aide d’ensembles de données accessibles au public. Le même modèle extrait les caractéristiques uniques et le ton émotionnel de la voix de chaque haut-parleur, telles que la hauteur et l’amplitude, et applique ces propriétés au texte, créant essentiellement une voix «clonée». Cela signifie que lorsque la version traduite des mots d’un haut-parleur est relayée au porteur du casque quelques secondes plus tard, il semble que cela vient de la direction de l’orateur et que la voix ressemble beaucoup à l’orateur, pas à un ordinateur à consonance robotique.
Étant donné que la séparation des voix humaines est suffisamment difficile pour les systèmes d’IA, de pouvoir incorporer cette capacité dans un système de traduction en temps réel, de cartographier la distance entre le porteur et l’orateur, et d’atteindre une latence décente sur un vrai appareil est impressionnante, explique Samuele Cornell, chercheur postdoctoral chez Carnegie Mellon University Technologies Institute, qui n’a pas travaillé sur le projet.
«La traduction du discours-discours en temps réel est incroyablement difficile», dit-il. « Leurs résultats sont très bons dans les paramètres de test limités. Mais pour un produit réel, il faudrait beaucoup plus de données d’entraînement, avec un bruit de bruit et des enregistrements réels du casque, plutôt que de s’appuyer uniquement sur des données synthétiques. »
L’équipe de Gollakota se concentre désormais sur la réduction du temps qu’il faut à la traduction de l’IA pour commencer après qu’un orateur a dit quelque chose, ce qui s’adaptera aux conversations plus naturelles entre des personnes qui parlent différentes langues. « Nous voulons vraiment descendre cette latence considérablement à moins d’une seconde, afin que vous puissiez toujours avoir l’ambiance conversationnelle », explique Gollakota.
Cela reste un défi majeur, car la vitesse à laquelle un système d’IA peut traduire une langue en une autre dépend de la structure des langues. Des trois langues sur la traduction de la parole spatiale ont été formées, le système a été le plus rapide pour traduire le français en anglais, suivi de l’espagnol puis de l’allemand – réfléchissant à la façon dont l’allemand, contrairement aux autres langues, place les verbes d’une phrase et une grande partie de sa signification à la fin et non au début, Université de Gutenberg de Mainz dans Gernunioli, qui n’a pas travaillé sur le projet.
La réduction de la latence pourrait rendre les traductions moins précises, prévient-il: «Plus vous attendez (avant de traduire), plus vous avez de contexte, et mieux la traduction sera. C’est un acte d’équilibrage.»