(N) Quoi de neuf dans Agent LAFIDBOED V2?

Intelligence Artificielle
Noesis News
juillet 24, 2025
0
33
3 minutes de lecture

Voici un TL rapide; dr 👇

🧠 GPT-4.1 Tops avec 62% d’action (AC) dans l’ensemble.
⚡ Gémeaux 2.5 Flash excelle dans l’utilisation des outils (94% TSQ) mais est en retard sur l’achèvement des tâches (38% AC).
💸 GPT-4.1-Mini est le plus rentable à 0,014 $ / session contre 0,068 $ de GPT-4.1.
🏭 Aucun modèle unique ne domine dans toutes les industries.
🤖 Grok 4 n’a conduit dans aucune métrique.
🧩 Modèles de raisonnement sous-performer par rapport à ceux non relâchés.
🆕 Kimi’s K2 conduit modèles open source avec 0,53 AC, 0,90 TSQ et 0,039 $ / session.

Lien ci-dessous:

(Blog): https://galileo.ai/blog/agent-leaderboard-v2

(Agent V2 Live Leadboard): https://huggingface.co/spaces/galileo-ai/agent-leaderboard

soumis par / u / 5h3r_10ck
(lien) (Commentaires)

Source link

(N) Quoi de neuf dans Agent LAFIDBOED V2?

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Arrêter d’écrire un python désordonné: un cours accidentel...

The best sunglasses for seniors in 2025, according...

40 mèmes hilarants relatables partagés sur le compte...

WELEVEL RAshes 5,7 millions de dollars au développement...

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags