(R) Paper2Code: Automating Code Génération à partir d’articles scientifiques dans l’apprentissage automatique

 (R) Paper2Code: Automating Code Génération à partir d’articles scientifiques dans l’apprentissage automatique


Papier: https://www.arxiv.org/pdf/2504.17192

Code: https://github.com/gout-doer/paper2code

Abstrait:

Malgré la croissance rapide de la recherche sur l’apprentissage automatique, les implémentations de code correspondantes ne sont souvent pas disponibles, ce qui le rend lent et à forte intensité de main-d’œuvre pour que les chercheurs reproduisent les résultats et s’appuient sur des travaux antérieurs. En attendant, les modèles récents de grande langue (LLM) excellent dans la compréhension des documents scientifiques et la génération de code de haute qualité. Inspirés par cela, nous introduisons PaperCoder, un cadre LLM multi-agent qui transforme les papiers d’apprentissage automatique en référentiels de code fonctionnel. PaperCoder fonctionne en trois étapes: la planification, où elle construit une feuille de route de haut niveau, conçoit l’architecture du système avec des diagrammes, identifie les dépendances de fichiers et génère des fichiers de configuration; Analyse, qui se concentre sur l’interprétation des détails spécifiques à la mise en œuvre; et la génération, où le code modulaire et consacré à la dépendance est produit. De plus, chaque phase est instanciée grâce à un ensemble d’agents spécialisés conçus pour collaborer efficacement à travers le pipeline. Nous évaluons ensuite PaperCoder sur la génération d’implémentations de code à partir de papiers d’apprentissage automatique basés sur des évaluations basées sur des modèles et humaines, en particulier à partir des auteurs d’articles originaux, avec des référentiels publiés par l’auteur comme vérité du sol si disponible. Nos résultats démontrent l’efficacité de Papercoder dans la création d’implémentations fidèles de haute qualité. En outre, il montre systématiquement les forces dans le référence de Paperbench récemment publié, dépassant de fortes lignes de base par des marges substantielles.

Points forts:

Papercoder démontre des améliorations substantielles par rapport aux lignes de base, générant des bases de code plus valides et fidèles qui pourraient soutenir de manière significative les chercheurs humains dans la compréhension et la reproduction des travaux antérieurs. Plus précisément, 77% des référentiels générés par PaperCoder sont considérés comme les meilleurs, et 85% des juges humains rapportent que les référentiels générés sont en effet utiles. De plus, des analyses supplémentaires montrent que chaque composant de PaperCoder (composé de planification, d’analyse et de génération) contribue aux gains de performance, mais également que les bases de code générées peuvent être exécutées, parfois avec des modifications mineures (en moyenne 0,48% des lignes de code total) dans les cas où des erreurs d’exécution se produisent.

(…) La plupart des modifications impliquent des correctifs de routine tels que la mise à jour des appels API OpenAI dépréciés vers leurs dernières versions ou la correction des conversions de type simples.

(…) Le code initialement produit peut nécessiter un débogage ou un raffinement ultérieur pour garantir l’exactitude et les fonctionnalités complètes. Dans ce travail, des stratégies de débogage complètes et des workflows détaillés de correction des erreurs restent au-delà de la portée actuelle de cet article.

Faits saillants visuels:

Le graphique le plus honteux pour la communauté ML …

https://preview.redd.it/mjkzqoozd0xe1.png?width=881&format=png&auto=webp&s=108a55dda3758a625728bc0b0568f72db054aeb5

À en juger par le nombre de jetons, les références originales écrites par l’homme sont sensiblement plus étoffées.

https://preview.redd.it/6dqob5ooe0xe1.png?width=1113&format=png&auto=webp&s=a655eb68913e8807040b1f85fd27def451f8fa1

https://preview.redd.it/f4vwv1spe0xe1.png?width=775&format=png&auto=webp&s=9cf921e1dbb286e33cc6eca556cab35a14b92a42

https://preview.redd.it/9av1jl62f0xe1.png?width=1139&format=png&auto=webp&s=f84686152e160ef95f6dd1f4ec278ca42f21108c

soumis par / U / STRARPLEDWATERMELON
(lien) (Commentaires)



Source link

Related post