Google révèle Gemini 2.5 Flash, son « modèle de pensée le plus rentable »

Quelques semaines seulement après avoir dévoilé Gemini 2.5 ProGoogle est sur son prochain modèle le plus performant.
Jeudi, la société a publié une « première version » de Gemini 2.5 Flash en avant-première dans l’API Gemini, le studio AI et Vertex AI. Le modèle a une coupure de connaissances de janvier 2025. Il peut prendre du texte, des images, des vidéos et des invites audio, et a une fenêtre de contexte d’un million.
Aussi: Gemini Pro 2.5 est un assistant de codage incroyablement capable – et une grande menace pour Chatgpt
Google dit que la nouvelle version se développe Flash 2.0 avec un raisonnement amélioré, mais « sans compromettre sa vitesse ou son coût renommé ». Les modèles de raisonnement passent plus de temps à «réfléchir» – ou à interpréter une requête – avant de répondre, ce qui se traduit par une sortie plus approfondie et directe qui, idéalement, s’aligne mieux avec les besoins d’un utilisateur, par rapport aux modèles antérieurs qui hiérarchisent la vitesse. Les modèles qui raisonnent sont également mieux équipés pour fournir avec précision des problèmes ou des tâches en plusieurs étapes.
« Gemini 2.5 Flash fonctionne fortement sur les invites dures Arène de chatbotseconde seulement à 2.5 Pro, « note Google dans l’annonce.
Se référant au nouveau modèle comme son plus rentable, Google note que 2.5 Flash « permet aux développeurs de configurer la quantité de réflexion qu’il fait pour maximiser les performances. » Cela donne aux développeurs un «budget de réflexion» ou le pouvoir de payer le raisonnement uniquement lorsqu’ils en ont le plus besoin. Avec le raisonnement, le prix de production passe de 60 cents par million de jetons à 3,50 $.
Si les développeurs ne donnent pas un budget au modèle, il détermine les besoins de la pensée de la requête en évaluant la demande de complexité. Par exemple, il identifiera les invites avec des besoins de raisonnement minimaux – comme « Combien d’états y a-t-il aux États-Unis? » – séparément des problèmes mathématiques en plusieurs étapes. Google note que pour reproduire la latence et le coût Flash 2.0, les développeurs doivent définir le budget à 0.
Aussi: Comment essayer le générateur de vidéos Veo 2 de Google – et ce que vous pouvez en faire
Gemini 2.5 Flash a marqué 12% sur Le dernier examen de l’humanité (HLE), une nouvelle référence alternative aux tests de l’industrie qui sont devenus trop faciles pour des modèles en évolution rapide. Ce score a surpassé les modèles de concurrents, notamment Claude 3.7 Sonnet et Deepseek R1, mais pas d’Openai o4-min lancéqui est arrivé à 14% sur le test.
Vous pouvez essayer Gemini 2.5 Flash en aperçu via l’API Gemini dans Google AI Studio et Vertex AI.
Vous voulez plus d’histoires sur l’IA? Inscrivez-vous à l’innovationnotre newsletter hebdomadaire.