Alibaba Qwen QWQ-32B: vitrine d’apprentissage en renforcement à l’échelle

L’équipe QWEN d’Alibaba a dévoilé QWQ-32B, un modèle d’IA de 32 milliards de paramètres qui démontre les performances rivalisant bien Deepseek-R1. Cette percée met en évidence le potentiel de l’échelle d’apprentissage par renforcement (RL) sur les modèles de fondations robustes.
L’équipe Qwen a réussi à intégrer capacités d’agent dans le modèle de raisonnement, en lui permettant de penser de manière critique, d’utiliser des outils et d’adapter son raisonnement en fonction de la rétroaction environnementale.
«La mise à l’échelle de RL a le potentiel d’améliorer les performances du modèle au-delà des méthodes de pré-formation et de post-entraînement conventionnelles», a déclaré l’équipe. «Des études récentes ont démontré que la RL peut améliorer considérablement les capacités de raisonnement des modèles.»
Le QWQ-32B obtient des performances comparables à Deepseek-R1, qui possède 671 milliards de paramètres (avec 37 milliards activés), un témoignage de l’efficacité de la RL lorsqu’il est appliqué à des modèles de fondation robustes pré-étendus sur des connaissances mondiales approfondies. Ce résultat remarquable souligne le potentiel de RL pour combler l’écart entre la taille du modèle et les performances.
Le modèle a été évalué dans une gamme de repères, notamment AIME24, LivecodeBench, LiveBench, Ifeval et BFCL, conçus pour évaluer son raisonnement mathématique, sa compétence de codage et ses capacités générales de résolution de problèmes.
Les résultats mettent en évidence les performances de QWQ-32B par rapport à d’autres modèles de premier plan, notamment en profondeur-distillée-QWEN-32B, en profondeur-distillée-llama-70b, O1-Mini et le profondeur R-R1 d’origine.
Résultats de référence:
- AIME24: Le QWQ-32B a atteint 79,5, légèrement derrière 79,8 de Deepseek-R1-6718, mais considérablement en avance sur les modèles d’OpenAl-O1-MinI et les modèles distillés.
- Livecodebench: QWQ-32B a marqué 63,4, à nouveau étroitement adapté par le 65,9 de Deepseek-R1-6718, et dépassant les modèles distillés et l’Openal-O1-MinI 53,8.
- LiveBench: QWQ-32B a atteint 73,1, avec Deepseek-R1-6718 score 71,6 et sur-performant les modèles distillés et l’Openal-O1-MinI 57,5.
- Ifeval: QWQ-32B a marqué 83,9, très proche de la 83,3 de Deepseek-R1-6718, et menant les modèles distillés et l’Openal-O1-MINI 59.1.
- BFCL: QWQ-32B a atteint 66,4, avec Deepseek-R1-6718 score de 62,8, démontrant un avance sur les modèles distillés et l’Openal-O1-MINI 49.3.
L’approche de l’équipe QWEN impliquait un point de contrôle à froid et un processus RL en plusieurs étapes dirigée par des récompenses basées sur les résultats. L’étape initiale s’est concentrée sur la mise à l’échelle de RL pour les tâches mathématiques et codantes, en utilisant des vérificateurs de précision et des serveurs d’exécution de code. La deuxième étape s’est étendue aux capacités générales, incorporant des récompenses à partir de modèles de récompense généraux et de vérificateurs basés sur des règles.
« Nous constatons que cette étape de la formation RL avec une petite quantité d’étapes peut augmenter les performances d’autres capacités générales, telles que l’enseignement suivant, l’alignement sur la préférence humaine et les performances des agents, sans baisse significative des performances en mathématiques et en codage », a expliqué l’équipe.
QWQ-32B est le poids ouvert et disponible sur Visage étreint et Modelcope Sous la licence Apache 2.0, et est également accessible via le chat Qwen. L’équipe QWEN considère cela comme une étape initiale dans la mise à l’échelle de RL pour améliorer les capacités du raisonnement et vise à explorer davantage l’intégration des agents avec RL pour le raisonnement à long horizon.
« Alors que nous travaillons à développer la prochaine génération de QWEN, nous sommes convaincus que la combinaison de modèles de fondation plus forts avec RL alimentés par des ressources de calcul à l’échelle nous propulsera plus près de la réalisation de l’intelligence générale artificielle (AGI) », a déclaré l’équipe.
Voir aussi: Deepgram Nova-3 Medical: un modèle de discours AI coupe les erreurs de transcription des soins de santé
Vous voulez en savoir plus sur l’IA et les Big Data des leaders de l’industrie? Vérifier AI et Big Data Expo se déroulant à Amsterdam, en Californie et à Londres. L’événement complet est colocalisé avec d’autres événements de premier plan, notamment Conférence d’automatisation intelligente, Blockx, Semaine de transformation numériqueet Cyber Security & Cloud Expo.
Explorez d’autres événements et webinaires de technologie d’entreprise à venir alimentés par Techforge ici.