(R) GPT-ASS est bon: une étude de cas sur le banc Sata

Intelligence Artificielle
Noesis News
août 14, 2025
0
53
3 minutes de lecture

J’expérimente GPT-ASS depuis sa sortie, et contrairement à de nombreux articles / nouvelles que j’ai vus, il est étonnamment puissant – même sur des ensembles de données inhabituels. Je l’ai testé sur notre récent Benchmark Sata Bench – une référence où chaque question a au moins deux réponses correctes (rare dans l’évaluation LLM standard).

Résultats (voir l’image ci-dessous):

Le modèle open source 120b est similaire aux performances de GPT-4.1 sur SATA-Bench.
Le modèle 20B est en retard mais correspond toujours à Deepseek R1 & Llama-3.1-405b.

https://preview.redd.it/eowlge0jjiif1.jpg?width=1568&format=pjpg&auto=webp&s=bfc0fdc20fc1545000ff55cc45f3b65391e85c46

à emporter:

Raisonnement répétitif fait mal – 11% de la boucle de sortie 20B, perdant ~ 9 taux de correspondance exacte.

Des inadéquations de raisons de résumé se produisent souvent en 20B et ont tendance à produire une réponse même si leur raison suggère que quelques réponses sont correctes.

Plus long ≠ mieux – la réflexion réduit la précision.

Résultats détaillés: https://weijiexu.com/posts/sata_bench_experiments.html

Ensemble de données SATA-BENCH: https://huggingface.co/datasets/sata-bench/sata-bench

soumis par / U / APPRÉFIVIVEAD3311
(lien) (Commentaires)

Source link

(R) GPT-ASS est bon: une étude de cas sur le banc Sata

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Tarifs américains: comment la taxe de Trump frappe...

Signaux d’erreur de prédiction sensorielle dans le néocortex...

L’appareil compatible avec les lycéens dissuade la conduite...

# 418 – Débat Israël-Palestine: Finkelstein, Destiny, M....

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags