J’ai testé 3 modèles d’IA de texte vocale pour voir lequel est le meilleur – écoutez mes résultats

Intelligence Artificielle
Noesis News
août 5, 2025
0
96
12 minutes de lecture

Elyse Bests Picaro / Zdnet

Les principaux plats de ZDNET

Il existe maintenant plusieurs outils d’IA disponibles qui peuvent générer une parole humaine.
Certaines voix d’IA peuvent désormais chuchoter, rire et effectuer d’autres exploits expressifs.
Les outils TTS varient en termes de niveau de réalisme et de leur public prévu.

Les voix synthétiques générées par l’intelligence artificielle sont, pour le meilleur ou pour le pire, de devenir monnaie courante. Pendant ce temps, le nombre d’entreprises développant cette technologie augmente rapidement.

Innovations récentes dans l’IA, comme l’architecture transformateur – qui forme l’épine dorsale de beaucoup Outils d’IA génératifsy compris les grands modèles de langage, les réseaux adversaires génératifs (GAN) et les modèles de diffusion – ont conduit à la montée en puissance des systèmes d’IA qui peuvent convertir les invites de texte en parole artificielle à consonance naturelle. Il existe désormais une grande variété de ces systèmes de texte vocale (TTS), chacun avec ses avantages et leurs lacunes particuliers.

Pour avoir un sentiment plus clair dont les plus avancés, j’ai testé trois des outils TTS gratuits les plus populaires actuellement sur le marché.

Elevenlabs

https://www.youtube.com/watch?v=otz1ffg5-3w

ElevenLabs est largement considéré comme un leader de l’industrie dans le réalisme vocal, et j’ai trouvé que c’était une évaluation raisonnablement précise dans mes propres expériences avec l’outil TTS de l’entreprise. Mais ce réalisme se sent plus étroitement aligné sur la voix d’un acteur de voix formé ou d’un podcasteur professionnel qu’avec une conversation humaine ordinaire – c’est presque un peu aussi brillant. En ce sens, cependant, il a tendance à être le choix préféré pour de nombreuses entreprises et professionnels à la recherche d’une narration automatisée fiable. Il prend également en charge plus de 20 langues, élargissant encore la portée et l’attrait de la plate-forme.

L’entreprise aussi publié un nouveau modèle de texte vocal appelé v3 En tant que prévisualisation de recherche le mois dernier. Il prend en charge plus de 70 langues, et les utilisateurs peuvent pimenter leur dialogue généré par l’IA avec des balises audio qui le font rire, soupirer ou parler dans un murmure, pour ne nommer que quelques exemples.

Aussi: Le nouvel assistant vocal AI de ElevenLabs peut automatiser vos tâches préférées – et vous pouvez l’essayer gratuitement

Vous pouvez vous inscrire à un compte gratuit avec Elevenlabset vous recevrez automatiquement 10 000 crédits gratuits. Sélectionnez l’option « Texte à Speech » sous « terrain de jeu » dans le menu de gauche, et vous serez redirigé vers une page où vous pouvez entrer une invite personnalisée que vous aimeriez que le système AI raconte, sélectionnez parmi une gamme de voix personnalisées et ajustez des paramètres comme la vitesse et la stabilité. Les invites sont limitées à 5 000 caractères, et chaque personnage de chaque itération d’une génération de voix utilise un seul crédit.

Hume ai

https://www.youtube.com/watch?v=clhsd8fucq8

Hume aiLe modèle TTS est un autre concurrent pour l’outil de génération de voix le plus réaliste. L’entreprise a positionné son interface vocale empathique propriétaire (EVI) comme un système d’IA qui peut capturer et simuler les subtilités du discours humain, ce qui imprégnait une couche de crédibilité plus profonde. Comme ElevenLabs, Hume propose un large ensemble de personnages vocaux AI Pre avant, chacun avec ses propres bizarreries expressives. Vous pouvez également générer des voix personnalisées en les décrivant dans des invites en langue naturelle.

Pour le tester, j’ai fait de mon mieux pour décrire la voix de Samwise Gamgee de « The Lord of the Rings », tel que décrit dans les films de Sean Astin. Mon rapide: « Hobbit doux mais courageux, avec une classe ouvrière, West Country British – peut-être avec un soupçon de gallois – accent. Il devrait sembler effrayé mais résolu de terminer sa mission. »

Aussi: Ce nouveau modèle Text-to-Speech comprend ce qu’il dit – comment l’essayer gratuitement

Après l’avoir incité à dire une ligne célèbre du film, « Si je fais un pas de plus, ce sera le plus éloigné de chez moi, » il a produit trois échantillons, variant en ton et en emphase. Tous étaient impressionnants; À mon oreille, ils contenaient un certain degré de réalisme et de profondeur émotionnelle qui n’est pas reproduit par ses concurrents. Ils ne ressemblaient pas beaucoup à Sam d’Astin, mais c’était sans aucun doute le reflet de la description certes imparfaite que j’ai utilisée comme invite.

Vous pouvez également pointer des pauses en ajoutant « (pause) » dans votre invite, ou ajouter des perfusions en art comme « vous tous » pour améliorer la crédibilité de vos voix personnalisées.

Description

https://www.youtube.com/watch?v=RSGOSMNEWU4

Si vous recherchez un outil de génération de voix AI qui offre une gamme de fonctionnalités d’édition, Description est celui à choisir.

Le modèle TTS de l’entreprise génère des fichiers audio dans un format de forme d’onde, que vous pouvez modifier comme vous le feriez dans Adobe Audition ou une plate-forme similaire. Vous pouvez choisir parmi une bibliothèque de voix d’IA Premade ou soumettre un court enregistrement de votre propre voix, et le système le clonera pour vous.

J’ai testé la fonctionnalité de clonage vocal en demandant au système de lire une courte invite: « Les étés à New York deviennent brutaux, et je dois investir dans une climatisation plus de haute qualité. » (Ce qui est vrai.) La première fois, la version générée par AI-AI de ma voix me ressemblait certainement, mais il y avait aussi une qualité mécanique qui a nui au réalisme.

J’ai décidé de donner un autre essai et de réenregistrer ma voix, cette fois enlevant mes écouteurs Bluetooth et lisant le script plus lentement et délibérément. Les résultats cette fois étaient beaucoup plus réalistes – une simulation plus convaincante de ma voix, à mon avis, qu’une similaire Fonctionnement de clonage vocal offert par Hume.

Aussi: J’ai parlé avec une version AI de moi-même, grâce à l’outil gratuit de Hume – comment l’essayer

Vous pouvez également ajuster chaque élément d’audio généré par l’AI-éditant directement votre invite écrite. Ce n’était pas parfait, bien sûr; Mes amis proches et les membres de ma famille pourraient probablement repérer la différence, mais cela tromperait probablement mes connaissances plus lointaines. Je peux facilement imaginer utiliser l’outil pour raconter mes propres articles ou pour un cas d’utilisation similaire.

Pour les podcasteurs et autres créateurs de contenu qui cherchent à polir rapidement leurs enregistrements audio, Descript propose également une fonctionnalité d’IA qui identifie et élimine les mots de remplissage, les pauses inutiles, les «umms» et les «euhhs» et d’autres morceaux d’audio indésirables.

Les conseils de ZDNET

Il est important de garder à l’esprit que ce ne sont que trois d’un grand nombre de modèles TTS actuellement disponibles, et que chaque utilisateur aura ses propres préférences en fonction de son rôle professionnel, de son étirement technologique, de son budget, etc. Avant de choisir une plate-forme et d’exécuter avec lui, passez quelques minutes à jouer avec différentes options pour voir quelles interfaces utilisateur se sentent les plus intuitives et lesquelles offrent des fonctionnalités qui s’alignent le plus étroitement avec vos objectifs créatifs. N’oubliez pas non plus que les services varient dans la façon dont ils utilisent vos données.

Aussi: Texte à dissolution avec sentiment – ce nouveau modèle d’IA fait tout mais versé une larme

Quelle que soit la plate-forme que vous finissez par utiliser, gardez l’œil sur la vitesse à laquelle cette technologie continue d’évoluer. Très bientôt, nous vivrons probablement dans un monde rempli de voix d’IA – et certains pourraient ressembler à la vôtre.

Vous voulez plus d’histoires sur l’IA? Vérifier Classement AInotre newsletter hebdomadaire.

Source link

J’ai testé 3 modèles d’IA de texte vocale pour voir lequel est le meilleur – écoutez mes résultats

Les principaux plats de ZDNET

Elevenlabs

Hume ai

Description

Les conseils de ZDNET

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Pourquoi Jamie a-t-il tué Katie à l’adolescence? Qu’est-ce...

Bitcoin prêt à récupérer 90 000 $, selon...

Les innovations SS atteignent 4 000 chirurgies robotiques...

Apprenez vos animaux de ferme avec l’IA!

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Les principaux plats de ZDNET

Elevenlabs

Hume ai

Description

Les conseils de ZDNET

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags