Google Gemini peut désormais transformer presque n’importe quoi en podcast

Résumé
-
Google Gemini introduit des aperçus audio, permettant aux utilisateurs de créer des podcasts à partir de documents téléchargés.
-
Les aperçus audio utilisent l’IA pour générer des voix réalistes et des discussions engageantes sur le contenu du document.
-
Les aperçus audio fournissent un moyen pratique d’extraire les informations des documents dans un format de podcast.
Ils disent que vous n’êtes jamais plus de six pieds d’un rat, et ces jours-ci, il en va de même pour les podcasteurs. Il semble que presque tout le monde sur la planète ait un podcast ou va en commencer un.
Avec Google Gemini, vous pouvez désormais créer vos propres podcasts sur mesure à l’aide d’une fonctionnalité intitulée APPELTS Audio. Tout ce que vous avez à faire est de télécharger un document, et Gemini créera un court podcast Deep Dive dans le contenu du document avec deux hôtes AI.
Quels sont les aperçus audio dans Google Gemini?
Les aperçus audio sont une nouvelle fonctionnalité de Gemini qui était auparavant disponible dans Application de prise de notes de Notebooklm de Google. La fonctionnalité est capable de résumer les informations d’une manière unique. Au lieu de vous donner un résumé de texte fade des informations, les aperçus audio génèrent un fichier audio d’un podcast avec les deux hôtes générés par l’AI-discussion sur les informations que vous souhaitez résumer.
Les hôtes ont une conversation de va-et-vient pour discuter du sujet de tout ce qu’ils résument et de se poser des questions les uns aux autres pour glaner plus d’informations sur des points clés spécifiques. Le résultat global est ce qui ressemble à un vrai podcast avec deux personnes informées discutant du sujet à portée de main.
Dans mes tests, Gemini a généré des aperçus audio qui variaient entre cinq et quinze minutes, selon la quantité de contenu dans les documents téléchargés. Le podcast de 15 minutes, par exemple, a été généré à partir d’un manuel de 146 pages pour une caméra SLR, tandis que même un PDF d’une seule page d’un calendrier de collecte des ordures a généré un podcast de cinq minutes.

En rapport
Que pouvez-vous utiliser pour générer des aperçus audio?
Vous pouvez créer des aperçus audio à partir d’un large éventail de différentes sources dans les Gémeaux. Vous pouvez télécharger un document, et Gemini transformera toutes les informations que le document contient dans votre propre podcast sur mesure. Ce ne sont pas seulement des documents texte non plus; Vous pouvez télécharger une présentation Google des diapositives, et Gemini créera une vue d’ensemble audio basée sur le contenu des diapositives.
Une autre option vraiment utile est que vous pouvez générer des aperçus audio à partir d’un Rapport de recherche approfondi. La recherche approfondie est une fonctionnalité qui génère un rapport sur tout sujet que vous choisissez en proposant un plan de quoi rechercher, en trouvant le contenu approprié sur le Web, puis en rassemblant les informations qu’elle trouve dans un rapport. Les résultats se présentent sous la forme d’une réponse écrite détaillée qui décompose tout ce qui a été découvert, mais ces rapports peuvent souvent être assez longs et assez secs.
Cependant, une fois que vous avez généré un rapport de recherche en profondeur, vous pouvez faire en sorte que les Gémeaux le transforment en un aperçu audio. Ensuite, au lieu d’avoir à lire l’ensemble du rapport, vous pouvez vous asseoir et écouter deux podcasteurs générés par l’IA en discutant en détail. Il peut faciliter la digestion des informations d’un rapport de recherche en profondeur, sans avoir à lire tous les détails.
Les aperçus audio semblent être un excellent moyen d’obtenir des informations à partir de pages Web avec beaucoup d’informations à leur sujet, mais actuellement, il n’y a aucun moyen de générer un aperçu de l’audio à partir d’un lien Web. Cependant, vous pouvez copier le contenu dans un fichier texte, ou Enregistrez le contenu de la page Web en tant que PDFpuis Gemini créera volontiers une vue d’ensemble audio à partir du contenu. J’ai enregistré la page Wikipedia sur l’histoire du Brésil en tant que PDF, et Gemini a créé un podcast à partir du fichier discutant de l’histoire du Brésil, qui était utile et informatif.

En rapport
Vous ne pouvez pas non plus générer des aperçus audio à partir de la plupart des fichiers d’image, mais j’ai constaté que si j’enregistrais les images en PDF, il essaierait au moins de générer un aperçu audio à partir du fichier. S’il n’y a pas de texte lisible dans l’image, cependant, la génération de vue d’ensemble audio échouera. Si l’image contient du texte, cela fonctionnera; J’ai pu obtenir les hôtes du podcast généré par l’AI-AI pour avoir une discussion enthousiaste et approfondie sur l’image PDF de mon calendrier local de collecte des déchets.
Comment créer un aperçu audio
Lorsque vous téléchargez un document sur Gemini en cliquant sur l’icône « + », vous devriez voir une suggestion apparaître au-dessus de la fenêtre de l’invite que vous pouvez cliquer pour générer votre aperçu audio. Si cela n’apparaît pas, cependant, tout ce que vous avez à faire est de demander à Gemini de générer un aperçu de l’audio à partir du document et, tant qu’il s’agit d’un document valide avec du texte lisible, un aperçu audio sera généré.
Vous pouvez télécharger un large éventail de fichiers, bien que tous ne soient pas adaptés à la génération d’une vue d’ensemble audio. Les types de fichiers pris en charge incluent les éléments suivants:
• Fichiers C, CPP, PY, Java, PHP et SQL
• TXT, DOC, DOCX, PDF, RTF, DOT, DOTX, HWP et HWPX
• Fichiers PPTX, XLS et CSV
• Google Docs et Google Slides
Si vous avez un abonnement avancé Gemini, vous pouvez également télécharger des fichiers HTML, XLSX, TSV et Google Sheets.
Comme mentionné ci-dessus, vous pouvez télécharger des images sur Gemini, mais vous ne pourrez pas générer une vue d’ensemble audio à partir des fichiers d’image. Cependant, si vous enregistrez une image en tant que PDF, il est possible de créer une vue d’ensemble audio, tant que l’image contient du texte lisible.
La génération d’un aperçu de l’audio à partir d’un rapport de recherche en profondeur est également facile à faire; Une fois que vous avez généré le rapport de recherche en profondeur, vous devriez voir une option pour générer un aperçu audio pour le rapport. Cependant, j’ai constaté que cela ne se produit pas toujours. Si l’option n’apparaît pas, vous pouvez simplement demander aux Gemini de générer un aperçu audio, et il en créera un pour vous.
Quelle est la qualité des aperçus audio de Gemini?
Depuis CHATBOTS AI Éclatez sur la scène, une grande partie des choses qu’ils peuvent faire se sont un peu ressenties comme de la magie. Cela me souffle toujours que, en quelques instants, L’IA peut générer des images de choses Cela n’a jamais existé dans des images auparavant, comme une licorne avec trois jambes en roller sur une discothèque. Les aperçus audio de Gemini peuvent également ressembler un peu à la magie.
C’est parce que les résultats sont vraiment impressionnants. Pour commencer, les voix sont très réalistes et donnez l’impression que vous écoutez de vraies personnes parler. La façon dont ils interagissent est également très bien fait, avec des interruptions et les hôtes se parlent les uns des autres à des occasions.
En essayant la fonctionnalité, mes résultats ont généralement été très bons pour sélectionner les points clés des documents et en discuter de manière très accessible. J’ai essayé de télécharger le manuel pour une vieille caméra de film Canon EOS 3 que je possède, et les hôtes ont eu une discussion très informative sur la fonction d’autofocus de suivi des yeux.
J’ai également téléchargé un scénario inédit et les hôtes ont discuté des points clés de l’intrigue d’une manière très divertissante, ramassant beaucoup de l’humour et la plupart des parties centrales de l’intrigue. Les résultats ne sont cependant pas toujours parfaits; Le résumé du scénario a raté un élément clé de l’intrigue qui est nécessaire pour comprendre à la fois le titre du scénario et sa dernière ligne poignante.
Les aperçus audio sont (principalement) un excellent moyen d’accéder aux informations
Certaines fonctionnalités d’IA peuvent ressembler à des entreprises Présenter ce que l’IA peut faire Plutôt que des fonctionnalités vraiment utiles. La fonction de vue d’ensemble audio ne ressemble cependant pas à cela.
La lecture d’un long document n’est pas toujours le moyen le plus simple d’en extraire les informations clés. L’écoute de deux personnes discutant des informations peut faciliter la distilation des faits clés sans avoir à passer au crible tout vous-même. Avoir deux personnes en discutant est une touche intelligente, car souvent l’un des hôtes posera la question que vous avez pensé à vous-même.
En particulier, j’ai trouvé que les aperçus audio étaient très utiles Rapports de recherche profonds. Ces rapports sont souvent de longs murs de texte, et bien qu’ils soient remplis d’informations utiles, la lecture de l’ensemble du rapport peut ressembler à une corvée. Un aperçu audio du rapport est beaucoup plus facile à digérer, et l’IA fait un assez bon travail d’extraction des informations importantes plutôt que de parcourir sur des faits moins importants.
Cela ne veut pas dire que les aperçus audio sont parfaits. J’ai trouvé que j’ai souvent le même problème avec les aperçus audio que j’ai en écoutant livre audio: Je commence à me rallier et à manquer ce qui se dit. Je dois ensuite rembobiner l’aperçu de l’audio pour rattraper ce que j’ai manqué.
Ce n’est pas la faute des aperçus audio, bien sûr, mais je suis sûr que je ne suis pas la seule personne qui souffre de ce problème. Pour moi, ils fonctionnent mieux quand je n’ai pas d’autres distractions, comme si je vais me promener avec des écouteurs, mais votre kilométrage peut varier.
Les podcasts ne comportent pas toujours toutes les informations que vous voudrez peut-être extraire non plus. L’aperçu audio du scénario a extrait la plupart des points centraux de l’intrigue, mais il a raté quelque chose qui n’était pas nécessairement au cœur de l’intrigue mais qui était certainement un thème central du script.
Si vous n’aimez pas lire de grandes quantités de texte pour extraire les informations que vous souhaitez, les aperçus audio peuvent être une alternative utile. Vous pouvez transformer presque tout ce que vous voulez dans votre propre podcast sur mesure et demander à d’autres personnes de vous expliquer les informations clés, plutôt que d’avoir à la lire par vous-même. Espérons que Google ajoutera la possibilité de générer des aperçus audio du contenu à partir de sites Web à un moment donné, car en ce moment, vous devez toujours sauter dans quelques cerceaux pour y arriver.