(N) Quoi de neuf dans Agent LAFIDBOED V2?


(N) Quoi de neuf dans Agent LAFIDBOED V2?

AGENT LA LABEAU V2

Voici un TL rapide; dr 👇

🧠 GPT-4.1 Tops avec 62% d’action (AC) dans l’ensemble.
Gémeaux 2.5 Flash excelle dans l’utilisation des outils (94% TSQ) mais est en retard sur l’achèvement des tâches (38% AC).
💸 GPT-4.1-Mini est le plus rentable à 0,014 $ / session contre 0,068 $ de GPT-4.1.
🏭 Aucun modèle unique ne domine dans toutes les industries.
🤖 Grok 4 n’a conduit dans aucune métrique.
🧩 Modèles de raisonnement sous-performer par rapport à ceux non relâchés.
🆕 Kimi’s K2 conduit modèles open source avec 0,53 AC, 0,90 TSQ et 0,039 $ / session.

Lien ci-dessous:

(Blog): https://galileo.ai/blog/agent-leaderboard-v2

(Agent V2 Live Leadboard): https://huggingface.co/spaces/galileo-ai/agent-leaderboard

soumis par / u / 5h3r_10ck
(lien) (Commentaires)



Source link

Related post