(R) GPT-ASS est bon: une étude de cas sur le banc Sata

 (R) GPT-ASS est bon: une étude de cas sur le banc Sata


J’expérimente GPT-ASS depuis sa sortie, et contrairement à de nombreux articles / nouvelles que j’ai vus, il est étonnamment puissant – même sur des ensembles de données inhabituels. Je l’ai testé sur notre récent Benchmark Sata Bench – une référence où chaque question a au moins deux réponses correctes (rare dans l’évaluation LLM standard).

Résultats (voir l’image ci-dessous):

  1. Le modèle open source 120b est similaire aux performances de GPT-4.1 sur SATA-Bench.
  2. Le modèle 20B est en retard mais correspond toujours à Deepseek R1 & Llama-3.1-405b.

https://preview.redd.it/eowlge0jjiif1.jpg?width=1568&format=pjpg&auto=webp&s=bfc0fdc20fc1545000ff55cc45f3b65391e85c46

à emporter:

Raisonnement répétitif fait mal – 11% de la boucle de sortie 20B, perdant ~ 9 taux de correspondance exacte.

Des inadéquations de raisons de résumé se produisent souvent en 20B et ont tendance à produire une réponse même si leur raison suggère que quelques réponses sont correctes.

Plus long ≠ mieux – la réflexion réduit la précision.

Résultats détaillés: https://weijiexu.com/posts/sata_bench_experiments.html

Ensemble de données SATA-BENCH: https://huggingface.co/datasets/sata-bench/sata-bench

soumis par / U / APPRÉFIVIVEAD3311
(lien) (Commentaires)



Source link

Related post