Texte à dissolution avec sentiment – ce nouveau modèle d’IA fait tout mais versé une larme

Il n’y a pas si longtemps, AI génératif ne pouvait communiquer qu’avec des utilisateurs humains par texte. Maintenant, il est de plus en plus donné le pouvoir de la parole – et cette capacité s’améliore de jour en jour.
Jeudi, AI Voice Platform ElevenLabs présenté V3, décrit sur le site Web de l’entreprise comme « le modèle de texte vocale le plus expressif de tous les temps ». Le nouveau modèle peut présenter un large éventail d’émotions et de bizarreries communicatives subtiles – comme les soupirs, les rires et les chuchotements – rendant son discours plus humain que les modèles précédents de l’entreprise.
Aussi: Le WWDC pourrait-il être un tournant AI d’Apple? Voici ce que prévoient les analystes
Dans un démo Partagé sur X, V3 a été montré générant les voix de deux personnages, un homme et l’autre femme, qui avaient une conversation légère sur leur nouvelle capacité à parler dans des voix plus humaines.
Présentation de onze v3 (alpha) – le modèle de texte le plus expressif à la parole de tous les temps.
Soutenir plus de 70 langues, un dialogue multi-haut-parleurs et des étiquettes audio telles que (excité), (soupirs), (riant) et (chuchotement).
Maintenant en Alpha public et 80% de réduction en juin. pic.twitter.com/n56bersduc– ElevenLabs (@elevenLabsio) 5 juin 2025
Il n’y a certainement aucune de la planéité du ton Alexa-esque, mais les voix générées par V3 ont tendance à être presque excessivement animées, au point que leur rire est plus effrayant que charmant – Écoutez vous-même.
Le modèle peut également parler plus de 70 langues, par rapport à la limite de V2 de son prédécesseur de 29. Elle est maintenant disponible dans Public Alpha, et son prix a été réduit de 80% jusqu’à la fin de ce mois.
L’avenir de l’interaction IA
La voix générée par l’IA est devenue un objectif majeur de l’innovation alors que les développeurs technologiques se tournent vers l’avenir de l’interaction humaine-machine.
Les assistants automatisés comme Siri et Alexa ont longtemps pu parler, bien sûr, mais comme quiconque utilise régulièrement ces systèmes peut attester, leurs voix sont très mécaniques, avec une gamme assez étroite de cadence et de tons émotionnels. Ils sont utiles pour gérer des tâches rapides et faciles, comme jouer une chanson ou définir une alarme, mais ils ne font pas d’excellents partenaires de conversation.
Certains des derniers outils d’IA de texte vocale (TTS), en revanche, ont été conçus pour parler dans des voix qui sont maximalement réalistes et engageantes.
Aussi: Vous ne devriez pas faire confiance à l’IA pour la thérapie – voici pourquoi
Les utilisateurs peuvent inviter V3, par exemple, à parler dans des voix facilement personnalisables grâce à l’utilisation de «balises audio». Considérez-les comme des filtres stylistiques qui modifient la sortie et qui peuvent être insérés directement dans des invites de texte: « excités », « bruyamment », « chante », « rire », « en colère », etc.
ElevenLabs n’est pas la seule entreprise à courir à construire des modèles TTS plus réalistes, que les grandes entreprises technologiques vendent comme un moyen plus intuitif et accessible d’interagir avec l’IA.
Fin mai, le concurrent de Elevenlabs Hume Ai a dévoilé son Interface vocale empathique (EVI) 3 Modèlequi permet aux utilisateurs de générer des voix personnalisées en les décrivant en langage naturel. De même, les capacités de conversation nuancées sont également désormais proposées par le biais de Modèle Gemini 2.5 Pro Flash de Google.
Vous voulez plus d’histoires sur l’IA? Inscrivez-vous à l’innovationnotre newsletter hebdomadaire.