Le nouveau modèle Evi 3 de Hume vous permet de personnaliser les voix AI – comment l’essayer

 Le nouveau modèle Evi 3 de Hume vous permet de personnaliser les voix AI – comment l’essayer


Xuanyu Han / Getty Images

Hume Ai est lancement evi 3la troisième itération de son modèle EMPATHIC VOCTY INTERFACE (EVI), qui peut interagir avec les utilisateurs dans une grande variété de voix humaines.

Comme le mode vocal de Chatgpt, Evi 3 est livré avec un assortiment de voix d’IA préprogrammées. Ceux-ci sont répertoriés par la personnalité et les descriptions de personnages, notamment « Old Knocks Comédien », « Keend Life Coach », « Wise Wizard » et « Dungeon Master », ainsi que par l’homonyme de la société, le philosophe du XVIIIe siècle David Hume.

Surtout, le modèle est également livré avec une fonctionnalité qui permet aux utilisateurs de personnaliser leurs propres voix d’IA à partir de zéro. Et plutôt que d’avoir à ajuster une longue liste d’attributs spécifiques, comme vous le pouvez lors de la création d’un Bitmoji ou d’un personnage de jeu vidéo, vous pouvez simplement décrire les caractéristiques de votre voix souhaitée, en utilisant un langage naturel, et le modèle fera le reste.

Le lancement reflète un effort plus large parmi les sociétés d’IA pour construire des modèles plus sympathiques et engageants en les formant pour exposer des «personnalités» distinctes. Le Claude d’Anthropic a été formé pour être réfléchi et ouvert d’esprit, par exemple, tandis que Grok de Xai est censé être plus nerveux, avec un sens de l’humour.

Hume se décrit sur son site web comme travaillant « pour s’assurer que l’intelligence artificielle est construite pour servir les objectifs humains et le bien-être émotionnel ». Cet énoncé de mission rappelle ceux de certains des développeurs d’IA les plus prééminents (OpenAI, par exemple, visée « Pour garantir que l’intelligence générale artificielle… profite à toute l’humanité »). Mais alors que les plus grands joueurs sont principalement orientés autour de la construction de modèles plus grands et plus puissants, Hume semble principalement axé sur le réglage fin de la crédibilité de ses modèles, afin qu’ils puissent communiquer verbalement d’une manière non seulement, mais aussi se sentir Vraiment, jusqu’aux petites pauses entre les mots et le « umm » occasionnel parsemé en phrases.

Aussi: Qu’est-ce que l’IA? Tout savoir sur l’intelligence artificielle

Les résultats sont impressionnants. Ma première démolition du modèle, je lui ai demandé de générer un personnage qui a parlé dans un accent britannique de classe ouvrière lâchés mais spirituel – à la Michael Caine – et qui était un fidèle terrestre à plat. Lorsque la voix était prête, je lui ai demandé pourquoi elle pensait que le gouvernement et les scientifiques mentaient sur la forme de la terre, et il s’est immédiatement lancé dans une tirade passionnée sur la raison pour laquelle réel L’erreur logique croyait un récit officiel lorsque toutes les preuves directes de ses esprits indiquaient que l’histoire opposée était vraie (c’est-à-dire que la Terre est un disque plat). La voix était lyrique et pleine d’énergie, comme si nous parlions dans un ancien pub anglais.

Aussi: Générateurs de voix AI: ce qu’ils peuvent faire et comment ils fonctionnent

Passé, présent et futur

Dans un article de blog d’entreprise publié jeudi, Hume a écrit que le lancement d’EVI 3 marque la prochaine étape de la mission de l’entreprise de « réaliser une expérience de l’IA de voix qui peut être pleinement personnalisée » d’ici la fin de cette année. « Nous pensons que c’est une étape essentielle vers la voix étant la principale façon dont les gens veulent interagir avec l’IA. »

En 1950, le mathématicien Alan Turing a proposé son célèbre test pour évaluer l’intelligence des machines. Le «jeu d’imitation», comme il l’appelait – maintenant connu sous le nom de Turing Test – a envisagé un être humain interviewant un autre humain et une machine, tous deux cachés derrière une partition. Si l’interlocuteur ne pouvait pas dire quelles réponses provenaient de l’humain et qui provenaient de la machine, ce dernier avait réussi le test et pouvait être considéré comme une véritable intelligence artificielle.

Soixante-quinze ans plus tard, nous avons des outils d’IA qui peuvent non seulement écrire, mais en fait parler D’une manière qui semble convaincante humaine.

Beaucoup des derniers modèles d’IA équipés de voix n’ont aucune des caractéristiques mécaniques monotone ou vacance émotionnelle des voix automatisées antérieures, comme celles qui vous saluent lorsque vous appelez votre banque. Au lieu de cela, ils présentent un large éventail de ténors et de personnalités, encapsulant ce qui est effectivement devenu une sous-champ entière de recherche sur l’IA en soi, déclenchée par une concurrence entre les entreprises technologiques pour créer des logiciels plus aimables et engageants.

La question de savoir comment la personne moyenne interagira avec l’IA à l’avenir a été une préoccupation croissante dans la Silicon Valley ces dernières années, car les entreprises ont recherché des successeurs viables à des chatbots comme Chatgpt.

OpenAI a récemment annoncé un plan d’achat d’IO, une entreprise fondée par l’ancien cadre d’Apple Jony Ive (le concepteur de l’iPhone), avec des plans à long terme pour construire du matériel centré sur l’IA. Un objectif similaire a été entrepris par la société Humane avec son épingle AI, avant que ce produit ne floppe.

Hume mises sur l’idée que l’avenir de l’IA appartiendra à des modèles qui peuvent parler avec les utilisateurs à des voix humaines.

Comparaison EVI 3 aux principaux modèles d’IA

Lors du développement de EVI 3, Hume a comparé ses performances à certains des modèles d’assistants vocaux AI les plus puissants actuellement disponibles, y compris GPT-4O et Gemini Live, à travers quelques repères clés.

Aussi: Qu’est-ce que les Gémeaux? Tout ce que vous devez savoir sur le nouveau modèle d’IA de Google

Selon le billet de blog de l’entreprise, Evi 3 a surpassé ses concurrents dans la « modulation émotionnelle / style, ou ajustant son ton émotionnel tout au long d’une conversation. Il a également surpassé le GPT-4O dans » la compréhension des émotions « – une capacité à reconnaître et à interpréter le ténor émotionnel des voix des utilisateurs. Sésame.

Comment accéder à Evi 3

Vous pouvez essayer Evi 3 aujourd’hui via une démo et l’application iOS de Hume. Hume n’a pas encore annoncé le prix du modèle. Une API devrait être libérée dans les semaines à venir.

Le modèle se spécialise actuellement en anglais, mais sera maîtrisé dans d’autres langues majeures, y compris le français et l’espagnol, car elle continue d’être formée et après sa publication, selon le billet de blog de l’entreprise.





Source link

Related post