Startup: Assemblyai représente la reconnaissance de la parole de nouvelle génération

 Startup: Assemblyai représente la reconnaissance de la parole de nouvelle génération


Par le personnel des tendances de l’IA

Les progrès de l’IA derrière la reconnaissance vocale stimulent la croissance sur le marché, attirant le capital-risque et le financement des startups, posant des défis aux acteurs établis.

L’acceptation et l’utilisation croissantes des dispositifs de reconnaissance vocale stimulent le marché, qui, selon une estimation par des recherches méticuleuses, devrait atteindre 26,8 milliards de dollars dans le monde en 2025 Insight d’analyse. Une meilleure vitesse et une meilleure précision sont parmi les avantages de l’évolution de la technologie.

Dylan Fox, PDG et fondateur, Assemblyai

Une entreprise en proie à cette nouvelle croissance, Assemblyai de San Francisco, propose une API pour la reconnaissance vocale capable de transcrire des vidéos, des podcasts, des appels téléphoniques et des réunions distantes. La société a été fondée par le PDG Dylan Fox en 2017 et a reçu le soutien de Y Combinator, un accélérateur de startup, ainsi que Nvidia.

Fox a une formation inhabituelle pour un entrepreneur de haute technologie. Il est diplômé de l’Université George Washington avec un diplôme en administration des affaires, en économie des affaires et en politique publique. Il a obtenu un emploi en tant qu’ingénieur logiciel pour l’apprentissage automatique dans le laboratoire de produit émergent de Cisco à San Francisco, travaillant sur des réseaux de neurones profonds et l’apprentissage automatique. Il a eu l’idée de Assemblyai et a attiré les capitaux de Y Combinator, ce qui lui a permis d’embaucher des scientifiques des données et des ingénieurs de données pour faire décoller la technologie.

Demandé dans une interview avec Tendances de l’IA Comment il a fait cette transition du premier cycle en administration des affaires et en économie à l’entrepreneur de haute technologie, Fox a déclaré: «Je me suis appris à programmer, ce qui m’a conduit à un chemin d’apprentissage automatique. Je cherchais un défi logiciel plus difficile, ce qui a conduit au traitement du langage naturel, ce qui m’a emmené à Cisco. » Ils travaillaient sur Siri pour l’entreprise pour Apple à l’époque,

Pour accélérer le travail, Cisco cherchait à acquérir un logiciel de reconnaissance vocale; Fox était sur le siège de Catbird pour la recherche. «Nous avons examiné Nuance», par exemple, reconnu comme leader du marché et propriétaire de plus de logiciels de reconnaissance vocale que ses concurrents. (L’acquisition de Nuance par Microsoft pour 19,6 milliards de dollars devrait être finalisée d’ici la fin de l’année.) Le jeune entrepreneur en herbe n’a pas été impressionné. « C’était fou à quel point toutes les options étaient mauvaises d’une précision et d’un point de vue développeur », a-t-il déclaré.

Il a été impressionné par Twilio, une entreprise basée à San Francisco fondée en 2008, qui a publié cette année l’API Twilio Voice pour passer et recevoir des appels téléphoniques organisés dans le cloud. La société a depuis levé 103 millions de dollars en capital-risque. « Ils fixaient de nouvelles normes pour une bonne API pour les développeurs », a déclaré Fox.

L’idée de Fox était d’utiliser l’IA et l’apprentissage automatique pour obtenir «des résultats super précis et faciliter les développeurs d’intégrer l’API dans leurs produits. Un client est Callrail, offrant un logiciel de suivi des appels et d’analyse marketing, qui prévoit d’incorporer l’API d’Assembyai pour comprendre pourquoi les gens appellent. Les autres clients incluent NBC et le Wall Street Journal, en utilisant le produit pour transcrire du contenu et des entretiens, et fournir un sous-titrage fermé.

«Nous avons travaillé sur la construction que possible de la qualité de reconnaissance de la parole humaine. Cela a été beaucoup de travail », a déclaré Fox. Il s’attend à atteindre ce plateau en 2022.

Il cible les entreprises incorporant la reconnaissance vocale dans leurs produits et facilite l’achat. Les clients paient sur une base d’utilisation; Pour chaque seconde de transcrit audio, Assemblyai charge une fraction de sou. Les clients sont facturés mensuellement. Si un client utilise 10 heures par mois, cela coûte environ neuf dollars. Si un client utilise un million d’heures par mois, cela coûte environ 900 000 $.

La reconnaissance vocale est un marché brûlant. « De nombreuses nouvelles startups sont lancées », a déclaré Fox, offrant une opportunité. «De nombreuses nouvelles entreprises intéressantes sont construites sur des données vocales.»

Le produit d’Assemblyai peut détecter des sujets sensibles tels que le discours de haine et le blasphème, afin que les clients puissent économiser sur la modération du contenu humain.

Invité à décrire ce qui différencie sa technologie, Fox a déclaré: «Nous sommes une équipe expérimentée de chercheurs en profondeur», avec l’expérience de sociétés telles que BMW, Apple et Facebook. «Nous construisons des modèles d’apprentissage en profondeur très grands et très précis qui ont des résultats de reconnaissance beaucoup plus précis qu’une approche traditionnelle d’apprentissage automatique. Nous construisons de très grands modèles en utilisant des technologies de réseau de neurones avancées. » Il a comparé l’approche à ce qu’Openai utilise pour développer son modèle de grande langue GPT-3.

De plus, ils construisent des fonctionnalités AI au-dessus des transcriptions, pour fournir des résumés de contenu audio et vidéo, qui peuvent être recherchés et indexés. « Cela va au-delà de la simple transcription », a déclaré Fox.

L’entreprise compte actuellement 25 employés et prévoit de doubler dans environ quatre mois. Les affaires ont été bonnes. « Il y a une explosion de données audio et vidéo en ligne et les clients veulent en profiter, nous voyons donc beaucoup de demande », a déclaré Fox.

En savoir plus sur Assemblyai.



Source link

Related post