Microsoft libère le plus grand LLM 1 bits, permettant à une IA puissante fonctionner sur un matériel plus ancien

Les chercheurs de Microsoft prétendent avoir développé le premier modèle de grande langue 1 bits avec 2 milliards de paramètres. Le modèle, Bitnet B1.58 2B4T, peut fonctionner sur des processeurs commerciaux tels que M2 d’Apple.
« Formé sur un corpus de 4 billions de jetons, ce modèle montre comment les LLM 1 bits natifs peuvent obtenir des performances comparables à la principale modèle de taille ouverte et pleine précis Le dépôt de face étreint du projet.
Qu’est-ce qui rend un modèle Bitnet différent?
Les bitnets, ou LLMS 1 bits, sont des versions compressées de modèles de grande langue. Le modèle d’échelle d’origine de 2 milliards de paramètres formé sur un corpus de 4 milliards de jetons a été réduit dans une version avec des exigences de mémoire considérablement réduites. Tous les poids sont exprimés comme l’une des trois valeurs: -1, 0 et 1. D’autres LLM peuvent utiliser des formats à virgule flottante 32 bits ou 16 bits.
Voir: Les acteurs de la menace peuvent Injecter des forfaits malveillants dans les modèles d’IA qui refait surface pendant le «codage de l’ambiance».
Dans le document de recherchequi a été publié sur Arxiv en tant que travail en cours, les chercheurs détaillent comment ils ont créé le Bitnet. D’autres groupes ont déjà créé des bitnets, mais, selon les chercheurs, la plupart de leurs efforts sont soit des méthodes de quantification post-formation (PTQ) appliquées aux modèles de précision complète pré-formés ou à des modèles 1 bits natifs formés à partir de zéro qui ont été développés à plus petite échelle en premier lieu. Bitnet B1.58 2B4T est un LLM natif 1 bits formé à grande échelle; Il ne prend que 400 Mo, par rapport à d’autres «petits modèles» qui peuvent atteindre jusqu’à 4,8 Go.
Bitnet B1.58 Performances, but et limitations du modèle 2B4T
Performance par rapport aux autres modèles d’IA
Bitnet B1.58 2B4T surpasse les autres modèles 1 bits, selon Microsoft. Bitnet B1.58 2B4T a une longueur de séquence maximale de 4096 jetons; Microsoft affirme qu’il surpasse les petits modèles comme Meta’s Llama 3.2 1B ou Google’s Gemma 3 1b.
Objectif des chercheurs pour ce bitnet
L’objectif de Microsoft est de rendre les LLM accessibles à plus de personnes en créant des versions qui fonctionnent sur des appareils Edge, dans des environnements liés aux ressources ou dans des applications en temps réel.
Cependant, Bitnet B1.58 2B4T n’est toujours pas simple à exécuter; Il nécessite un matériel compatible avec le framework Bitnet.cpp de Microsoft. L’exécuter sur une bibliothèque Transformers standard ne produira aucun des avantages en termes de vitesse, de latence ou de consommation d’énergie. Bitnet B1.58 2B4T ne fonctionne pas sur les GPU, comme le font la majorité des modèles d’IA.
Quelle est la prochaine étape?
Les chercheurs de Microsoft prévoient d’explorer la formation de modèles 1 bits natifs plus grands (paramètres 7B, 13B et plus). Ils notent que la plupart des infrastructures d’IA d’aujourd’hui manquent de matériel approprié pour des modèles 1 bits, ils prévoient donc d’explorer les «accélérateurs de matériel futurs de co-conception» spécifiquement conçus pour une AI compressée. Les chercheurs visent également à:
- Augmenter la longueur du contexte.
- Améliorez les performances sur les tâches de raisonnement à longue durée de contexte.
- Ajoutez la prise en charge de plusieurs langues autres que l’anglais.
- Intégrez les modèles 1 bits dans les architectures multimodales.
- Mieux comprendre la théorie de la raison pour laquelle l’entraînement 1 bits a produit des gains d’efficacité.