Gemini 2.5 Pro est le LLM le plus performant: Phybench révèle la lutte de l’IA avec la physique du monde réel | par Jenray | Avril 2025

Intelligence Artificielle
Noesis News
avril 25, 2025
0
130
4 minutes de lecture

Explorez Phybench, une révolution révolutionnaire évaluant le raisonnement physique LLM. Découvrez pourquoi l’IA actuelle se débat avec la physique du monde réel, découvrez la métrique innovante du score EED et voyez comment les modèles s’accumulent contre les experts humains. Lecture essentielle pour les développeurs et chercheurs de l’IA.

Les modèles de grands langues (LLM) comme GPT-4, Claude 3, Gemini et Llama 3 ont pris d’assaut le monde. Ils écrivent de la poésie, génèrent du code, traduisent des langues et même des examens mathématiques complexes ACE. Les voir résoudre des problèmes mathématiques au niveau de l’Olympiad ou déboguer les logiciels complexes peuvent avoir l’impression d’être témoin de l’aube de la véritable intelligence générale artificielle (AGI). Nous voyons des étincelles de brillance, des éclairs de raisonnement profond qui semblent presque humains.

Mais cette intelligence est-elle fondée dans la même réalité que nous habitons? Ces modèles, formés principalement sur le texte et le code, peuvent-ils vraiment comprendre Le monde physique – le monde des pommes tombantes, des engrenages en rotation et des particules de ricoche? Bien qu’ils puissent réciter les lois de Newton ou expliquer les théories d’Einstein, possèdent-ils le intuition physique nécessaire pour appliquer ces concepts à des scénarios nouveaux et complexes?

Des recherches récentes suggèrent un écart important. Les références existantes, bien que précieuses, testent souvent le raisonnement abstrait ou le rappel de connaissances. Ils pourraient demander à un LLM de résoudre un prédéfini…

Source link

Gemini 2.5 Pro est le LLM le plus performant: Phybench révèle la lutte de l’IA avec la physique du monde réel | par Jenray | Avril 2025

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Tarifs américains: comment la taxe de Trump frappe...

Signaux d’erreur de prédiction sensorielle dans le néocortex...

L’appareil compatible avec les lycéens dissuade la conduite...

# 418 – Débat Israël-Palestine: Finkelstein, Destiny, M....

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags