Expérimentez avec la génération d’images native Gemini 2.0 Flash

 Expérimentez avec la génération d’images native Gemini 2.0 Flash


Dans Décembre Nous avons d’abord introduit la sortie d’image native dans Gemini 2.0 Flash aux testeurs de confiance. Aujourd’hui, nous le rendons disponible pour l’expérimentation des développeurs à travers toutes les régions Actuellement pris en charge par Google AI Studio. Vous pouvez tester cette nouvelle capacité à l’aide d’une version expérimentale de Gemini 2.0 Flash (gemini-2.0-flash-exp) dans Google AI Studio et via l’API Gemini.

Gemini 2.0 Flash combine l’entrée multimodale, le raisonnement amélioré et la compréhension du langage naturel pour créer des images.

Voici quelques exemples de la brillance des sorties multimodales de 2.0 Flash:


1. Texte et images ensemble

Utilisez Gemini 2.0 Flash pour raconter une histoire et il l’illustra avec des images, en gardant les personnages et les paramètres cohérents tout au long. Donnez-lui des commentaires et le modèle racontera l’histoire ou changera le style de ses dessins.

Désolé, votre navigateur ne prend pas en charge la lecture de cette vidéo

Génération d’histoire et d’illustration dans Google AI Studio

2. Édition d’image conversationnelle

Gemini 2.0 Flash vous aide à modifier les images à travers de nombreux tours d’un dialogue de langue naturelle, idéal pour itération vers une image parfaite ou pour explorer différentes idées ensemble.

Désolé, votre navigateur ne prend pas en charge la lecture de cette vidéo

Édition d’image de conversation multi-tour en maintenant le contexte tout au long de la conversation dans Google AI Studio

3. Compréhension du monde

Contrairement à de nombreux autres modèles de génération d’images, Gemini 2.0 Flash exploite les connaissances mondiales et le raisonnement amélioré pour créer le droite image. Cela le rend parfait pour créer des images détaillées réalistes – comme illustrant une recette. Bien qu’il s’efforce de l’exactitude, comme tous les modèles de langue, ses connaissances sont larges et générales, pas absolues ou complètes.

Désolé, votre navigateur ne prend pas en charge la lecture de cette vidéo

Sortie de texte et d’image entrelacée pour une recette dans Google AI Studio

4. Rendu texte

La plupart des modèles de génération d’images ont du mal à rendre avec précision de longues séquences de texte, ce qui entraîne souvent des caractères mal formatés ou illisibles, ou maltraités. Les références internes montrent que 2.0 Flash a un rendu plus fort par rapport aux modèles compétitifs de premier plan, et idéal pour créer des publicités, des publications sociales ou même des invitations.

Désolé, votre navigateur ne prend pas en charge la lecture de cette vidéo

Sorties d’image avec un long rendu de texte dans Google AI Studio

Commencez à faire des images avec Gemini aujourd’hui

Commencez avec Gemini 2.0 Flash via l’API Gemini. En savoir plus sur la génération d’images dans notre docs.

from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.generate_content(
    model="gemini-2.0-flash-exp",
    contents=(
        "Generate a story about a cute baby turtle in a 3d digital art style. "
        "For each scene, generate an image."
    ),
    config=types.GenerateContentConfig(
        response_modalities=("Text", "Image")
    ),
)

Que vous construisiez des agents d’IA, en développant des applications avec de beaux visuels comme des histoires interactives illustrées ou un brainstorming des idées visuelles dans la conversation, Gemini 2.0 Flash vous permet d’ajouter du texte et de la génération d’images avec un seul modèle. Nous sommes impatients de voir ce que les développeurs créent avec une sortie d’image native et votre retour nous aidera bientôt à finaliser une version prête pour la production.



Source link

Related post