Gemini 2.5 Pro de Google est meilleur en codage, mathématiques et sciences que votre modèle d’IA préféré

 Gemini 2.5 Pro de Google est meilleur en codage, mathématiques et sciences que votre modèle d’IA préféré


Google a dévoilé Gemini 2.5 Pro, le premier de sa famille Gemini 2.5. Ce modèle de raisonnement multimodal surpasse les concurrents d’Openai, anthropic et profondément dans des références clés liées au codage, aux mathématiques et aux sciences.

Que sont les modèles d’IA pour raisonner?

Le raisonnement AIS est conçu pour «réfléchir avant de parler». Ils évaluent le contexte, les détails du traitement méthodiquement et la vérification des faits pour garantir une précision logique – bien que ces capacités exigent plus de puissance de calcul et des coûts opérationnels plus élevés.

OpenAI a lancé le premier modèle de raisonnement En septembre dernier avec O1, un écart notable de la série GPT, qui était en grande partie axée sur la génération de la langue. Depuis lors, les principaux acteurs de la course de l’IA ont répondu: Deepseek avec R1Anthropique avec Claude Sonnet 3.7et xai avec Grok 3.

Évoluant au-delà de la «pensée flash»

Google a précédemment lancé son premier modèle de raisonnement AI, Gémini 2.0 Flash Thinkingen décembre. Commercialisé pour ses capacités agentiques, Flash Thinking était récemment Mise à jour pour autoriser les téléchargements de fichiers et des invites plus importantes; Cependant, avec l’introduction de Gemini 2.5 Pro, Google semble retirer complètement l’étiquette «pensée».

Selon Annonce de Google sur Gemini 2.5En effet, les capacités de raisonnement seront désormais intégrées nativement dans tous les futurs modèles. Ce changement marque une évolution vers une architecture d’IA plus unifiée, plutôt que de séparer les fonctionnalités de «pensée» comme une marque autonome.

Le nouveau modèle expérimental combine «un modèle de base significativement amélioré» avec «Amélioration du post-entraînement». Google vante ses performances en haut du classement LMarena, qui classe les principaux modèles de langue importants sur diverses tâches.

TÉLÉCHARGER: Comment utiliser l’IA dans les affaires de TechRepublic Premium

Leader de référence en sciences, mathématiques et code

Gemini 2.5 Pro excelle dans les références de raisonnement académique, marquant 86,7% sur l’AIME 2025 (mathématiques) et 84,0% sur le référence en diamant GPQA (science). Sur le dernier examen de l’humanité – un large test mettant en vedette des milliers de questions à travers les mathématiques, les sciences et les sciences humaines – le modèle mène avec un score de 18,8%.

Notamment, ces résultats ont été obtenus sans utiliser de techniques de temps de test coûteuses, qui permettent aux modèles comme O1 et R1 de continuer à apprendre pendant l’évaluation.

Dans les références de développement logiciel, les performances Gemini 2.5 Pro sont mitigées. Il a marqué 68,6% sur la référence Aider Polyglot pour l’édition de code, surperformant la plupart des modèles de niveau supérieur. Cependant, il a marqué 63,8% sur SWE-Bench vérifié, se classant deuxième à Claude Sonnet 3.7 dans des tâches de programmation plus larges.

Malgré cela, Google dit que Gemini 2.5 Pro «excelle à créer des applications Web et des applications de code agentiques visuellement convaincantes», comme en témoignent sa capacité à créer un jeu vidéo à partir d’une seule invite.

Le modèle prend en charge une fenêtre de contexte d’un million de jetons, ce qui signifie qu’il peut traiter l’équivalent d’une invite de 750 000 mots, ou des six premiers livres de Harry Potter. Google prévoit d’augmenter ce seuil à deux millions de jetons en temps voulu.

Gemini 2.5 Pro est actuellement disponible via l’application Gemini Advanced, qui nécessite un abonnement de 20 $ par mois, et pour les développeurs et les entreprises via Google AI Studio. Au cours des prochaines semaines, Gemini 2.5 Pro sera mis à disposition sur Vertex AI, la plate-forme d’apprentissage automatique de Google pour les développeurs et les détails de tarification pour différentes limites de taux seront également introduits.



Source link

Related post