Text et vidéo généré par le filigrane AI avec synthétide

 Text et vidéo généré par le filigrane AI avec synthétide


Technologies

Publié

Annonce de notre nouvelle méthode de filigrane pour le texte et la vidéo générés par l’IA, et comment nous apportons SynthID aux principaux produits Google

Les outils d’IA génératifs – et les grandes technologies du modèle de langue derrière elles – ont capturé l’imagination du public. De l’aide aux tâches de travail à l’amélioration de la créativité, ces outils font rapidement partie des produits utilisés par des millions de personnes dans leur vie quotidienne.

Ces technologies peuvent être extrêmement bénéfiques, mais à mesure qu’elles deviennent de plus en plus populaires à utiliser, les augmentations de risque de personnes causant des dommages accidentels ou intentionnels, comme la diffusion de la désinformation et du phishing, si le contenu généré par l’AI n’est pas correctement identifié. C’est pourquoi L’année dernière, nous avons lancé Synthednotre nouvelle boîte à outils numérique pour le contenu généré par Ai-AI.

Aujourd’hui, nous nous développons Capacités de Synthed au filigrane du texte généré par l’AI dans le Application Gemini et expérience Webet vidéo dans Veonotre modèle vidéo génératif le plus compétent.

Synthid for Text est conçu pour compléter les modèles de génération de texte AI les plus disponibles et pour le déploiement à grande échelle, tandis que Synthed pour la vidéo s’appuie sur notre Méthode de filigrane d’image et audio Pour inclure toutes les cadres dans des vidéos générées. Cette méthode innovante intègre un filigrane imperceptible sans avoir un impact sur la qualité, la précision, la créativité ou la vitesse du processus de texte ou de génération de vidéos.

Synthed n’est pas une solution miracle pour identifier le contenu généré par l’IA, mais est un élément de construction important pour développer des outils d’identification d’IA plus fiables et peut aider des millions de personnes à prendre des décisions éclairées sur la façon dont ils interagissent avec le contenu généré par l’IA. Plus tard cet été, nous prévoyons de synthèse open-source pour le filigrane de texte, afin que les développeurs puissent construire avec cette technologie et l’intégrer dans leurs modèles.

Comment fonctionne le filigrane du texte

Les modèles de grands langues génèrent des séquences de texte lorsqu’ils donnent une invite comme «Expliquez-moi la mécanique quantique comme je suis cinq ans» ou «Quel est votre fruit préféré?». Les LLM prédisent quel jeton suit très probablement un autre, un jeton à la fois.

Les jetons sont les éléments constitutifs qu’un modèle génératif utilise pour le traitement des informations. Dans ce cas, ils peuvent être un seul caractère, un mot ou une partie d’une phrase. Chaque jeton possible se voit attribuer un score, ce qui est le pourcentage de chances qu’il soit le bon. Les jetons avec des scores plus élevés sont plus susceptibles d’être utilisés. Les LLMs répètent ces étapes pour construire une réponse cohérente.

Le synthide est conçu pour intégrer les filigranes imperceptibles directement dans le processus de génération de texte. Il le fait en introduisant des informations supplémentaires dans la distribution de jetons au point de génération en modulant la probabilité que les jetons soient générés – le tout sans compromettre la qualité, la précision, la créativité ou la vitesse de la génération de texte.

Synthid ajuste le score de probabilité de jetons générés par un modèle de langue large.

Le modèle final de scores pour les deux choix de mots du modèle combiné avec les scores de probabilité ajustés est considéré comme le filigrane. Ce modèle de scores est comparé au modèle attendu de scores pour le texte filigrané et à marqué inutile, aidant à détecter synthétique si un outil d’IA a généré le texte ou s’il peut provenir d’autres sources.

Un morceau de texte généré par les Gémeaux avec le filigrane mis en évidence en bleu.

Les avantages et les limites de cette technique

Synthid pour le filigrane de texte fonctionne mieux lorsqu’un modèle de langue génère des réponses plus longues, et de diverses manières – comme lorsqu’elle est invitée à générer un essai, un script de théâtre ou des variations sur un e-mail.

Il fonctionne bien même sous certaines transformations, telles que des morceaux de texte de recadrage, la modification de quelques mots et la légère paraphrase. Cependant, ses scores de confiance peuvent être considérablement réduits lorsqu’un texte généré par l’AI est entièrement réécrit ou traduit dans une autre langue.

Le filigrane de texte synthétique est moins efficace sur les réponses aux invites factuelles, car il y a moins d’occasions d’ajuster la distribution de jetons sans affecter la précision factuelle. Cela comprend des invites comme «Quelle est la capitale de la France?» ou des questions où peu ou pas de variation est attendue comme «réciter un poème William Wordsworth».

De nombreux outils de détection d’IA actuellement disponibles utilisent des algorithmes pour l’étiquetage et les données de tri, appelés classificateurs. Ces classificateurs ne fonctionnent souvent que sur des tâches particulières, ce qui les rend moins flexibles. Lorsque le même classificateur est appliqué sur différents types de plates-formes et de contenu, ses performances ne sont pas toujours fiables ou cohérentes. Cela peut conduire à un texte mal étiqueté, ce qui peut causer des problèmes, par exemple, où le texte peut être mal identifié comme généré par l’AI.

Synthid fonctionne efficacement seul, mais il peut également être combiné avec d’autres approches de détection d’IA pour donner une meilleure couverture entre les types et plates-formes de contenu. Bien que cette technique ne soit pas conçue pour arrêter directement les adversaires motivés comme les cyberattaques ou les pirates de nuire, il peut rendre plus difficile d’utiliser du contenu généré par l’AI à des fins malveillantes.

Comment fonctionne le filigrane vidéo

À l’E / S de cette année, nous avons annoncé Veonotre modèle vidéo génératif le plus compétent. Bien que les technologies de génération de vidéos ne soient pas aussi largement disponibles que les technologies de génération d’images, elles évoluent rapidement et il deviendra de plus en plus important d’aider les gens à savoir si une vidéo est générée par une IA ou non.

Les vidéos sont composées de cadres individuels ou d’images fixes. Nous avons donc développé une technique de filigrane inspirée par notre outil synthétique pour l’image. Cette technique intègre un filigrane directement dans les pixels de chaque cadre vidéo, ce qui le rend imperceptible à l’œil humain, mais détectable pour l’identification.

L’autonomisation des personnes ayant des connaissances lorsqu’ils interagissent avec les médias générés par l’IA peuvent jouer un rôle important en aidant à prévenir la propagation de la désinformation. À partir d’aujourd’hui, toutes les vidéos générées par Veo sur Vidéofx sera filigrané par Synthed.

Synthid pour la vidéo.

Amener Synthid à l’écosystème d’IA plus large

La technologie de filigrane de texte de Synthid est conçue pour être compatible avec la plupart des modèles de génération de texte d’IA et pour l’échelle de différents types de contenu et plates-formes. Pour aider à prévenir une utilisation abusive généralisée du contenu généré par l’IA, nous travaillons à amener cette technologie à l’écosystème d’IA plus large.

Cet été, nous prévoyons d’en publier davantage sur notre technologie de wasermarking text dans un document de recherche détaillé, et nous allons ouverter le texte synthétique. Boîte à outils Générative responsablequi fournit des conseils et des outils essentiels pour créer des applications d’IA plus sûres, afin que les développeurs puissent construire avec cette technologie et l’intégrer dans leurs modèles.

Remerciements

Le projet de filigrane de texte synthétique a été dirigé par Sumanth Dathathri et Pushmeet Kohli, avec des recherches clés et des contributions d’ingénierie de (répertorié par ordre alphabétique): Vandana Bachani, SUMEDH Ghaisas, Po-Sen Huang, Rob McAdam, Abi See et Johannes Welbl.

Merci à Po-Sen Huang et Johannes Welbl pour avoir aidé à initier le projet. Merci à Brad Hekman, CIP Baetu, Nir Shabat, Niccolò Dal Santo, Valentin Anklin et Majd Al Merey d’avoir collaboré à l’intégration des produits; Borja Balle, Rudy Bunel, Taylan Cemgil, Sven Gowal, Jamie Hayes, Alex Kaskasoli, Ilia Shumailov, Tatiana Matejoviva et Robert Stanforth pour une contribution technique et des commentaires. Merci également à de nombreuses autres personnes qui ont contribué à Google Deepmind et Google, y compris nos partenaires chez Gemini et Coreml.

Le projet de filigrane vidéo synthétique a été dirigé par Sven Gowal et Pushmeet Kohli, avec des contributions clés de (répertorié par ordre alphabétique): Rudy Bunel, Christina Kouridi, Guillermo Ortiz-Jimenez, Sylvestre-Alvise Rebuffi, Florian Stimberg et David Stutz. Un merci supplémentaire à Jamie Hayes et à d’autres énumérés ci-dessus.

Merci à Nidhi Vyas et Zahra Ahmed pour avoir conduit la livraison synthétique des produits.



Source link

Related post