(R) GPT-ASS est bon: une étude de cas sur le banc Sata

J’expérimente GPT-ASS depuis sa sortie, et contrairement à de nombreux articles / nouvelles que j’ai vus, il est étonnamment puissant – même sur des ensembles de données inhabituels. Je l’ai testé sur notre récent Benchmark Sata Bench – une référence où chaque question a au moins deux réponses correctes (rare dans l’évaluation LLM standard). Résultats (voir l’image ci-dessous):
à emporter: Raisonnement répétitif fait mal – 11% de la boucle de sortie 20B, perdant ~ 9 taux de correspondance exacte. Des inadéquations de raisons de résumé se produisent souvent en 20B et ont tendance à produire une réponse même si leur raison suggère que quelques réponses sont correctes. Plus long ≠ mieux – la réflexion réduit la précision. Résultats détaillés: https://weijiexu.com/posts/sata_bench_experiments.html Ensemble de données SATA-BENCH: https://huggingface.co/datasets/sata-bench/sata-bench soumis par / U / APPRÉFIVIVEAD3311 |