Openai donne une voix à ses agents

 Openai donne une voix à ses agents


Image: éléments serhiibobyk / envato

OpenAI élargit son écurie controversée de voix d’IA pour inclure des modèles agentiques. Les modèles agentiques sont la tendance chaude de l’IA générative, permettant des processus en deux étapes tels que demander à une IA d’acheter des billets d’avion ou de modifier la commande d’un client. Plus précisément, les nouveaux modèles incluent:

  • GPT-4O-Transcribe et GPT-4O-MinI-Transcript, qui sont tous deux des modèles de parole à texte.
  • GPT-4O-MINI-TTS, un modèle de texte-dispection.

Les développeurs peuvent y accéder sur l’API OpenAI et les intégrer avec le SDK des agents. L’ajout de texte vocale et de discours à texte à l’API permet de leur utiliser dans une variété d’applications d’IA, y compris outils agentiques.

Les voix synthétiques avancées peuvent rendre les escroqueries plus convaincantes

L’entreprise veut permettre «des interactions plus profondes et plus intuitives avec des agents au-delà du texte», mais l’ajout de flexibilité et une plus grande autonomie dans les modèles vocaux augmente la possibilité de robots d’escroquerie plus convaincants.

«Nous continuons à nous engager dans des conversations avec des décideurs politiques, des chercheurs, des développeurs et des créatifs autour des défis et des opportunités que des voix synthétiques peuvent présenter», selon un communiqué de presse.

Voir: Vous avez de l’argent de rechange? Vous en aurez besoin pour la nouvelle API d’Openai

Les modèles ont été réglés pour la précision, la fiabilité et le réalisme

Le 21 mars, OpenAI a publié de nouveaux outils audio de discours et de texte à dispection dans l’API. Les modèles ont été réglés pour la précision et la fiabilité, en particulier dans les conversations, notamment «des accents, des environnements bruyants et des vitesses de parole variables». Les modèles sont destinés aux centres d’appels clients ou à la transcription des réunions.

Ils peuvent également être invités à parler de manière spécifique, de l’intentionment spécifique à dramatique ou gai. Openai envisage certains d’entre eux Modèles d’IA Être utilisé pour «narration expressive pour des expériences créatives de narration». Je peux imaginer que cela soit utilisé dans les parcs à thème ou les événements théâtraux – des cas d’utilisation qui élèvent le spectre de l’IA en remplacement des professions créatives. L’exemple de voix Openai suggère incluez «Bettime Story», «Surfer», «True Crime Buff» et «Knight médiéval».

GPT-4O-Transcribe et GPT-4O-MinI-Transcribe sont conçus pour transcrire la parole plus précisément, en particulier dans les conversations avec des accents, un bruit de fond ou des vitesses de parole variables.

GPT-4O-MINI-TTS peut suivre les instructions pour faire correspondre le ton ou prendre des personnages. Openai prend soin de souligner que toutes les voix de texte vocale sur l’API sont des «voix artificielles prédéfinies» – certainement pas Scarlett Johanssonqui a accusé la compagnie d’avoir imité sa voix sans consentement.

L’IA vidéo agentique peut être en route

Ensuite, Openai a déclaré que les développeurs pourront apporter des «voix personnalisées» pour des «expériences personnalisées de manière à s’aligner sur nos normes de sécurité». L’entreprise poursuit également des moyens d’utiliser des vidéos dans des expériences d’origine d’IA.



Source link

Related post