J’ai testé 3 modèles d’IA de texte vocale pour voir lequel est le meilleur – écoutez mes résultats

Les principaux plats de ZDNET
- Il existe maintenant plusieurs outils d’IA disponibles qui peuvent générer une parole humaine.
- Certaines voix d’IA peuvent désormais chuchoter, rire et effectuer d’autres exploits expressifs.
- Les outils TTS varient en termes de niveau de réalisme et de leur public prévu.
Les voix synthétiques générées par l’intelligence artificielle sont, pour le meilleur ou pour le pire, de devenir monnaie courante. Pendant ce temps, le nombre d’entreprises développant cette technologie augmente rapidement.
Innovations récentes dans l’IA, comme l’architecture transformateur – qui forme l’épine dorsale de beaucoup Outils d’IA génératifsy compris les grands modèles de langage, les réseaux adversaires génératifs (GAN) et les modèles de diffusion – ont conduit à la montée en puissance des systèmes d’IA qui peuvent convertir les invites de texte en parole artificielle à consonance naturelle. Il existe désormais une grande variété de ces systèmes de texte vocale (TTS), chacun avec ses avantages et leurs lacunes particuliers.
Pour avoir un sentiment plus clair dont les plus avancés, j’ai testé trois des outils TTS gratuits les plus populaires actuellement sur le marché.
Elevenlabs
https://www.youtube.com/watch?v=otz1ffg5-3w
ElevenLabs est largement considéré comme un leader de l’industrie dans le réalisme vocal, et j’ai trouvé que c’était une évaluation raisonnablement précise dans mes propres expériences avec l’outil TTS de l’entreprise. Mais ce réalisme se sent plus étroitement aligné sur la voix d’un acteur de voix formé ou d’un podcasteur professionnel qu’avec une conversation humaine ordinaire – c’est presque un peu aussi brillant. En ce sens, cependant, il a tendance à être le choix préféré pour de nombreuses entreprises et professionnels à la recherche d’une narration automatisée fiable. Il prend également en charge plus de 20 langues, élargissant encore la portée et l’attrait de la plate-forme.
L’entreprise aussi publié un nouveau modèle de texte vocal appelé v3 En tant que prévisualisation de recherche le mois dernier. Il prend en charge plus de 70 langues, et les utilisateurs peuvent pimenter leur dialogue généré par l’IA avec des balises audio qui le font rire, soupirer ou parler dans un murmure, pour ne nommer que quelques exemples.
Vous pouvez vous inscrire à un compte gratuit avec Elevenlabset vous recevrez automatiquement 10 000 crédits gratuits. Sélectionnez l’option « Texte à Speech » sous « terrain de jeu » dans le menu de gauche, et vous serez redirigé vers une page où vous pouvez entrer une invite personnalisée que vous aimeriez que le système AI raconte, sélectionnez parmi une gamme de voix personnalisées et ajustez des paramètres comme la vitesse et la stabilité. Les invites sont limitées à 5 000 caractères, et chaque personnage de chaque itération d’une génération de voix utilise un seul crédit.
Hume ai
https://www.youtube.com/watch?v=clhsd8fucq8
Hume aiLe modèle TTS est un autre concurrent pour l’outil de génération de voix le plus réaliste. L’entreprise a positionné son interface vocale empathique propriétaire (EVI) comme un système d’IA qui peut capturer et simuler les subtilités du discours humain, ce qui imprégnait une couche de crédibilité plus profonde. Comme ElevenLabs, Hume propose un large ensemble de personnages vocaux AI Pre avant, chacun avec ses propres bizarreries expressives. Vous pouvez également générer des voix personnalisées en les décrivant dans des invites en langue naturelle.
Pour le tester, j’ai fait de mon mieux pour décrire la voix de Samwise Gamgee de « The Lord of the Rings », tel que décrit dans les films de Sean Astin. Mon rapide: « Hobbit doux mais courageux, avec une classe ouvrière, West Country British – peut-être avec un soupçon de gallois – accent. Il devrait sembler effrayé mais résolu de terminer sa mission. »
Aussi: Ce nouveau modèle Text-to-Speech comprend ce qu’il dit – comment l’essayer gratuitement
Après l’avoir incité à dire une ligne célèbre du film, « Si je fais un pas de plus, ce sera le plus éloigné de chez moi, » il a produit trois échantillons, variant en ton et en emphase. Tous étaient impressionnants; À mon oreille, ils contenaient un certain degré de réalisme et de profondeur émotionnelle qui n’est pas reproduit par ses concurrents. Ils ne ressemblaient pas beaucoup à Sam d’Astin, mais c’était sans aucun doute le reflet de la description certes imparfaite que j’ai utilisée comme invite.
Vous pouvez également pointer des pauses en ajoutant « (pause) » dans votre invite, ou ajouter des perfusions en art comme « vous tous » pour améliorer la crédibilité de vos voix personnalisées.
Description
https://www.youtube.com/watch?v=RSGOSMNEWU4
Si vous recherchez un outil de génération de voix AI qui offre une gamme de fonctionnalités d’édition, Description est celui à choisir.
Le modèle TTS de l’entreprise génère des fichiers audio dans un format de forme d’onde, que vous pouvez modifier comme vous le feriez dans Adobe Audition ou une plate-forme similaire. Vous pouvez choisir parmi une bibliothèque de voix d’IA Premade ou soumettre un court enregistrement de votre propre voix, et le système le clonera pour vous.
J’ai testé la fonctionnalité de clonage vocal en demandant au système de lire une courte invite: « Les étés à New York deviennent brutaux, et je dois investir dans une climatisation plus de haute qualité. » (Ce qui est vrai.) La première fois, la version générée par AI-AI de ma voix me ressemblait certainement, mais il y avait aussi une qualité mécanique qui a nui au réalisme.
J’ai décidé de donner un autre essai et de réenregistrer ma voix, cette fois enlevant mes écouteurs Bluetooth et lisant le script plus lentement et délibérément. Les résultats cette fois étaient beaucoup plus réalistes – une simulation plus convaincante de ma voix, à mon avis, qu’une similaire Fonctionnement de clonage vocal offert par Hume.
Aussi: J’ai parlé avec une version AI de moi-même, grâce à l’outil gratuit de Hume – comment l’essayer
Vous pouvez également ajuster chaque élément d’audio généré par l’AI-éditant directement votre invite écrite. Ce n’était pas parfait, bien sûr; Mes amis proches et les membres de ma famille pourraient probablement repérer la différence, mais cela tromperait probablement mes connaissances plus lointaines. Je peux facilement imaginer utiliser l’outil pour raconter mes propres articles ou pour un cas d’utilisation similaire.
Pour les podcasteurs et autres créateurs de contenu qui cherchent à polir rapidement leurs enregistrements audio, Descript propose également une fonctionnalité d’IA qui identifie et élimine les mots de remplissage, les pauses inutiles, les «umms» et les «euhhs» et d’autres morceaux d’audio indésirables.
Les conseils de ZDNET
Il est important de garder à l’esprit que ce ne sont que trois d’un grand nombre de modèles TTS actuellement disponibles, et que chaque utilisateur aura ses propres préférences en fonction de son rôle professionnel, de son étirement technologique, de son budget, etc. Avant de choisir une plate-forme et d’exécuter avec lui, passez quelques minutes à jouer avec différentes options pour voir quelles interfaces utilisateur se sentent les plus intuitives et lesquelles offrent des fonctionnalités qui s’alignent le plus étroitement avec vos objectifs créatifs. N’oubliez pas non plus que les services varient dans la façon dont ils utilisent vos données.
Aussi: Texte à dissolution avec sentiment – ce nouveau modèle d’IA fait tout mais versé une larme
Quelle que soit la plate-forme que vous finissez par utiliser, gardez l’œil sur la vitesse à laquelle cette technologie continue d’évoluer. Très bientôt, nous vivrons probablement dans un monde rempli de voix d’IA – et certains pourraient ressembler à la vôtre.
Vous voulez plus d’histoires sur l’IA? Vérifier Classement AInotre newsletter hebdomadaire.