(P) MUYAN-TTS: Nous avons construit un modèle TTS à source ouverte, à faible latence et hautement personnalisable pour les développeurs

 (P) MUYAN-TTS: Nous avons construit un modèle TTS à source ouverte, à faible latence et hautement personnalisable pour les développeurs


Salut à tous, je suis développeur de l’équipe ChatPods. Au cours de la dernière année, travaillant sur des applications audio, nous avons souvent rencontré le même problème: les modèles TTS open-source étaient soit de faible qualité ou non complètement ouverts, ce qui rend difficile le recyclage et l’adaptation. Nous avons donc construit Muyan-ttsun modèle entièrement open-source et à faible coût conçu pour un réglage fin facile et un développement secondaire. La version actuelle prend mieux l’anglais, car les données de formation sont encore relativement petites. Mais nous avons open source l’ensemble du pipeline de formation et de traitement des données, afin que les équipes puissent facilement l’adapter ou l’étendre en fonction de leurs besoins. Nous accueillons également les commentaires, les discussions et les contributions.

Vous pouvez trouver le projet ici:

Muyan-TTS offre un accès complet aux poids du modèle, aux scripts de formation et aux flux de travail de données. Il existe deux versions de modèle: un modèle de base formé sur les données audio multi-haut-parleurs pour les TTS zéro et un modèle SFT ajusté sur des données monocytrophones pour un meilleur clonage vocal. Nous publions également le code de formation du modèle de base au modèle SFT pour l’adaptation des haut-parleurs. Il fonctionne efficacement, générant une seconde d’audio en environ 0,33 seconde sur des GPU standard et prend en charge le réglage fin léger sans avoir besoin de grandes ressources de calcul.

Nous nous sommes concentrés sur la résolution de problèmes pratiques tels que la stabilité longue, la retrainabilité facile et le déploiement efficace. Le modèle utilise un LLAMA-3.2-3B affiné comme encodeur sémantique et un décodeur optimisé basé sur SoVits. Le nettoyage des données est géré par des pipelines construits sur le filtrage chuchoté, funasr et nisqa.

https://preview.redd.it/faoiqeab3lye1.png?width=2670&format=png&auto=webp&s=667d18fd3d728enee739f5c9924a7eb58940ccea

https://preview.redd.it/7k786csb3lye1.png?width=5490&format=png&auto=webp&s=ce0093368c8eae06756cd57bfe516ad659bc7217

Le code complet pour chaque composant est disponible dans le GitHub Repo.

Métriques de performance

Nous avons comparé Muyan-TTS contre les modèles d’Open-source populaires sur des ensembles de données standard (LibRispenech, Seed):

https://preview.redd.it/k081cm3e3lye1.png?width=1280&format=png&auto=webp&s=2bb9e6dfdf2579c145fdaeaea408f7a2fc5ce14c3

Pourquoi open-source cela?

Nous croyons que, tout comme Samantha Sonla voix deviendra un moyen essentiel pour les humains d’interagir avec l’IA – ce qui permet à tout le monde d’avoir un compagnon d’IA avec lequel il peut parler à tout moment. Muyan-Tts n’est qu’un petit pas dans cette direction. Il y a encore beaucoup de place à l’amélioration de la conception des modèles, de la préparation des données et des méthodes de formation. Nous espérons que d’autres qui sont passionnés par la technologie de la parole, le TTS ou l’interaction vocale en temps réel se joindront à nous dans ce voyage.

Nous attendons avec impatience vos commentaires, idées et contributions. N’hésitez pas à ouvrir un problème, à envoyer un PR ou simplement à laisser un commentaire. Pourquoi open source cela?

soumis par / U / OK-SIR-8964
(lien) (Commentaires)



Source link

Related post