Un modèle de raisonnement pour rivaliser avec GPT-4 à 0,5% du coût – informatique

«L’ensemble de la phase d’apprentissage du renforcement n’a utilisé que 512 H800 pour trois semaines, avec un coût de location de seulement 534 700 $», a expliqué la société. «Il s’agit d’un ordre de grandeur inférieur aux premiers prévus.»
Cependant, les analystes de l’industrie incitent la prudence. «Le premier modèle de raisonnement de Minimax, M1, a généré une excitation justifiée avec sa prétention de réduire les demandes de calcul jusqu’à 70% par rapport à des pairs comme Deepseek-R1», a déclaré Sanchit Vir Gogia, analyste en chef et PDG de Greyhound Research. «Cependant, au milieu d’un examen approfondi des pratiques d’analyse comparative de l’IA, les entreprises doivent reproduire indépendamment ces réclamations à travers les charges de travail pratiques.»
Capacités de contexte étendues
La caractéristique la plus impressionnante de M1 pourrait être sa capacité à gérer simultanément des quantités massives d’informations. Avec une fenêtre de contexte prenant en charge un million de jetons d’entrée et jusqu’à 80 000 jetons de sortie, le modèle peut essentiellement lire et comprendre plusieurs tâches nouvelles à la fois tout en maintenant la cohérence dans toute la conversation.