Gemini 2.5 Pro est le LLM le plus performant: Phybench révèle la lutte de l’IA avec la physique du monde réel | par Jenray | Avril 2025

Explorez Phybench, une révolution révolutionnaire évaluant le raisonnement physique LLM. Découvrez pourquoi l’IA actuelle se débat avec la physique du monde réel, découvrez la métrique innovante du score EED et voyez comment les modèles s’accumulent contre les experts humains. Lecture essentielle pour les développeurs et chercheurs de l’IA.
Les modèles de grands langues (LLM) comme GPT-4, Claude 3, Gemini et Llama 3 ont pris d’assaut le monde. Ils écrivent de la poésie, génèrent du code, traduisent des langues et même des examens mathématiques complexes ACE. Les voir résoudre des problèmes mathématiques au niveau de l’Olympiad ou déboguer les logiciels complexes peuvent avoir l’impression d’être témoin de l’aube de la véritable intelligence générale artificielle (AGI). Nous voyons des étincelles de brillance, des éclairs de raisonnement profond qui semblent presque humains.
Mais cette intelligence est-elle fondée dans la même réalité que nous habitons? Ces modèles, formés principalement sur le texte et le code, peuvent-ils vraiment comprendre Le monde physique – le monde des pommes tombantes, des engrenages en rotation et des particules de ricoche? Bien qu’ils puissent réciter les lois de Newton ou expliquer les théories d’Einstein, possèdent-ils le intuition physique nécessaire pour appliquer ces concepts à des scénarios nouveaux et complexes?
Des recherches récentes suggèrent un écart important. Les références existantes, bien que précieuses, testent souvent le raisonnement abstrait ou le rappel de connaissances. Ils pourraient demander à un LLM de résoudre un prédéfini…