Présentation d’une technique de raisonnement IA améliorée

 Présentation d’une technique de raisonnement IA améliorée


Image: Envato / DC_Studio

Des chercheurs de la société d’IA Deepseek et de l’Université Tsinghua ont introduit une nouvelle technique pour améliorer le «raisonnement» dans les modèles de grande langue (LLM).

Les capacités de raisonnement sont devenues une référence critique dans la course pour construire des systèmes d’IA génératifs les plus performants. La Chine et les États-Unis sont activement concurrents pour développer les modèles les plus puissants et les plus pratiques. Selon un rapport de l’Université de Stanford en avril, les LLM chinoises comblent rapidement l’écart avec leurs homologues américains. En 2024, la Chine a produit 15 modèles d’IA notables contre 40 aux États-Unis, mais il mène des brevets et des publications académiques.

Quelle est la nouvelle technique de Deepseek?

Deepseek chercheurs a publié un article intitulé «Échelle du temps d’inférence pour la modélisation des récompenses généralistes», sur Arxiv de l’Université Cornell, les archives des articles scientifiques. Notez que les articles publiés sur ArXIV ne sont pas nécessairement évalués par les pairs.

Dans l’article, les chercheurs ont détaillé une combinaison de Deux méthodes de formation d’IA: Modélisation générative de la récompense et réglage de la critique autoprincipy.

«Dans ce travail, nous étudions comment améliorer la modélisation des récompenses (RM) avec plus de calcul d’inférence pour les requêtes générales, c’est-à-dire l’évolutivité du temps d’inférence de la RM généraliste, et en outre, comment améliorer l’efficacité de la mise à l’échelle des performances avec des méthodes d’apprentissage appropriées», ont écrit les chercheurs.

VOIR: DDOS attaque désormais des armes clés dans les conflits géopolitiquesAvertit Netscout

La modélisation des récompenses est le processus de formation de l’IA pour s’aligner plus étroitement avec les préférences des utilisateurs. Avec le réglage de la critique autoprécitée, le modèle génère ses propres critiques ou «principes» pendant l’inférence à affiner ses réponses. L’approche combinée poursuit l’effort pour permettre aux LLM de fournir des réponses plus pertinentes plus rapidement.

« Empiriquement, nous montrons que le SPCT améliore considérablement la qualité et l’évolutivité des GRM, surpassant les méthodes et les modèles existants dans divers repères RM sans biais graves, et pourraient obtenir de meilleures performances par rapport à la mise à l’échelle du temps de formation », ont écrit les chercheurs.

Ils ont appelé les modèles formés avec cette méthode Deepseek-Grm.

« Deepseek-Grm relève toujours des défis dans certaines tâches, qui, selon nous, peuvent être traitées par les efforts futurs dans les systèmes de récompense généraliste », ont écrit les chercheurs.

Quelle est la prochaine étape pour Deepseek?

Deepseek a généré un buzz important autour du modèle R1, qui rivalise avec des modèles axés sur le raisonnement comme OpenAI O1. Un deuxième modèle, Deepseek-R2, est la publication pour sa sortie en mai. La société a également lancé Deepseek-V3-0324un modèle de raisonnement mis à jour publié fin mars.

Selon l’article, les modèles construits avec la nouvelle méthode GRM-SPCT seront recherchés ouverts, bien qu’aucune date de sortie n’ait été spécifiée.



Source link

Related post