7 LLMS populaires expliqués en 7 minutes

Image de l’auteur | Toile
Nous utilisons de grands modèles de langue dans plusieurs de nos tâches quotidiennes. Ces modèles ont été formés sur des milliards de documents en ligne et divers ensembles de données, ce qui les rend capables de comprendre, de comprendre et de répondre dans un langage humain. Cependant, tous les LLM ne sont pas créés de la même manière. Bien que l’idée principale reste similaire, Ils diffèrent dans leurs architectures sous-jacentes et ces variations ont un impact significatif sur leurs capacités. Par exemple, comme on le voit à travers divers repères, Deepseek excelle dans les tâches de raisonnement, Claude fonctionne bien dans le codage et Chatgpt se démarque dans l’écriture créative.
Dans cet article, je vous guiderai à travers 7 architectures LLM populaires pour vous donner un aperçu clair, le tout en autant de minutes. Alors, commençons.
1. Bert
Lien papier: https://arxiv.org/pdf/1810.04805
Développé par Google en 2018, Bert a marqué un changement significatif dans la compréhension du langage naturel en introduisant une profonde attention bidirectionnelle dans la modélisation du langage. Contrairement aux modèles précédents qui lisent le texte de gauche à droite ou de droite à gauche, Bert utilise un encodeur de transformateur pour considérer les deux directions simultanément. Il est formé à l’aide de deux tâches: la modélisation du langage masqué (prédire les mots masqués au hasard) et la prédiction de phrase suivante (déterminer si une phrase en suit logiquement une autre). Architecturalement, Bert est disponible en deux tailles: Bert Base (12 couches, paramètres de 110 m) et Bert Large (24 couches, 340 m de paramètres). Sa structure repose uniquement sur des piles d’encodeur et comprend des jetons spéciaux comme (CLS) pour représenter la phrase complète et (SEP) pour séparer deux phrases. Vous pouvez l’affiner pour des tâches comme l’analyse des sentiments, la réponse aux questions (comme l’escouade), et plus encore. C’était le premier du genre à vraiment comprendre le sens total des phrases.
2. GPT
Lien papier (GPT 4): https://arxiv.org/pdf/2303.08774
La famille GPT (Generative pré-formé) a été introduite par OpenAI. La série a commencé avec GPT-1 en 2018 et a évolué vers GPT-4 d’ici 2023, avec la dernière version, GPT-4O, publiée en mai 2024, présentant des capacités multimodales, gérant à la fois du texte et des images. Ils sont pré-formés sur des corpus de texte très grands avec un objectif de modélisation du langage de prédiction de prédiction suivante standard: à chaque étape, le modèle prédit le mot suivant dans une séquence donnée tous les mots précédents. Après cette étape de pré-formation non supervisée, le même modèle peut être affiné sur des tâches spécifiques ou utilisés de manière zéro / à quelques coups avec un minimum de paramètres supplémentaires. La conception du décodeur signifie que GPT s’occupe uniquement des jetons précédents contrairement à l’encodeur bidirectionnel de Bert. Ce qui était notable lors de l’introduction, c’est l’échelle et la capacité de GPT: à mesure que chaque génération successive (GPT – 2, GPT – 3) a grandi, le modèle a démontré une génération de texte très courante et des capacités d’apprentissage à quelques coups, établissant le «Pré-Trains et Invite / Fine-tune» Paradigme pour les modèles de grande langue. Cependant, ils sont propriétaires, avec un accès généralement fourni via des API, et leurs architectures exactes, en particulier pour les versions récentes, ne sont pas entièrement divulguées.
3. LLAMA
LIEN LLAMA 4 BLOG: https://ai.meta.com/blog/llama-4-multimodal-intelligence/
Lien papier (Llama 3): https://arxiv.org/abs/2407.21783
Llama, développé par Meta AI et publié pour la première fois en février 2023, est une famille de modèles de transformateurs uniquement décodeur à source open. Il varie de 7 à 70 milliards de paramètres, avec la dernière version, Llama 4, publiée en avril 2025. Comme GPT, Llama utilise une architecture de décodeur de transformateur uniquement (chaque modèle est un transformateur autorégressif) mais avec quelques ajustements architecturaux. Par exemple, les modèles LLAMA d’origine ont utilisé l’activation de Swiglu au lieu de Gelu, des incorporations de position rotatives (corde) au lieu de celles fixes et Rmsnorm à la place de la norme de couche. La famille Llama a été publiée en plusieurs tailles de 7B à 65B paramètres dans LLAMA1, plus tard encore plus grande dans LLAMA3 pour rendre les modèles à grande échelle plus accessibles. Notamment, malgré des dénombrements de paramètres relativement modestes, ces modèles ont fonctionné de manière compétitive avec des contemporains beaucoup plus grands: Meta a rapporté que le modèle 13B de Llama a surperformé le GPT-3 du 175B d’Openai sur de nombreux repères, et son modèle 65B était compétitif avec des contemporains comme Google Palm et Chinchilla de Deepmind. La libération ouverte (bien que restreinte) de Llama (bien que la recherche) a engendré une utilisation communautaire approfondie; Sa nouveauté clé a été de combiner une formation efficace à grande échelle avec un accès plus ouvert aux poids du modèle.
4. Palme
Rapport technique de Palm 2: https://arxiv.org/abs/2305.10403
Lien papier (palmier): https://arxiv.org/pdf/2204.02311
Palm (Pathways Language Model) est une série de modèles de grande langue développés par Google Research. Le palmier d’origine (annoncé 2022) était un paramètre de 540 milliards de dollars, le transformateur uniquement sur le décodeur et fait partie du système Pathways de Google. Il a été formé sur un corpus de haute qualité de 780 milliards de jetons et à travers des milliers de puces TPU V4 dans l’infrastructure de Google, utilisant un parallélisme pour obtenir une utilisation élevée de matériel. Le modèle a également une attention multi-requier pour réduire les exigences de la bande passante de la mémoire pendant l’inférence. Palm est connu pour son Capacités d’apprentissage à quelques coupsbien performer sur de nouvelles tâches avec un minimum d’exemples en raison de ses données de formation énormes et diverses, qui comprend des pages Web, des livres, Wikipedia, des nouvelles, du code GitHub et des conversations sur les réseaux sociaux. Palm 2, annoncé en mai 2023, améliorait encore les capacités multilingues, de raisonnement et de codage, des applications d’alimentation comme Google Bard et les fonctionnalités de l’IA de l’espace de travail.
5. Gémeaux
Blog Gemini 2.5: https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
Lien papier (Gemini 1.5): https://arxiv.org/abs/2403.05530
Lien papier (Gémeaux): https://arxiv.org/abs/2312.11805
Gemini est la famille LLM de nouvelle génération de Google (de Google Deepmind et Google Research), introduite fin 2023. Les modèles Gemini sont nativement multimodaux, ce qui signifie qu’ils sont conçus à partir de zéro pour gérer le texte, les images, l’audio, la vidéo et même le code dans un seul modèle. Comme Palm et GPT, les Gémeaux sont basés sur le transformateur, mais ses caractéristiques clés incluent une échelle massive, un support pour des contextes extrêmement longs et (dans Gemini 1.5) une architecture de mélange-de-experts (MOE) pour l’efficacité. Par exemple, Gemini 1.5 («Pro») utilise des couches d’experts peu activées (centaines de sous-réseaux experts, avec seulement quelques-uns actifs par entrée) pour augmenter la capacité sans coût de calcul proportionnel. La série Gemini 2.5, lancée en mars 2025, s’est construite sur cette fondation avec des capacités de «pensée» encore plus profondes. En juin 2025, Google a publié Gemini 2.5 Flash et Pro en tant que modèles stables et a prévisualisé Flash-Lite, leur version la plus rentable et la plus rapide à ce jour, optimisée pour les tâches à haut débit tout en prenant en charge la fenêtre de contexte et les intégrations de la fenêtre de contexte à un million de personnes comme la recherche et l’exécution de code. La famille Gemini est disponible en plusieurs tailles (Ultra, Pro, Nano) afin qu’il puisse fonctionner des serveurs cloud aux appareils mobiles. La combinaison de l’échelle de pré-formation multimodale et basée sur le MOE fait des Gémeaux un modèle de base flexible et hautement capable.
6. Mistral
Lien papier (Mistral 7B): https://arxiv.org/abs/2310.06825
Mistral est une startup française de l’IA qui a publié son premier LLMS en 2023. Son modèle phare, Mistral 7B (sept 2023), est un modèle de décodeur basé sur un transformateur de 7,3 milliards paramètres. Architecturalement, Mistral 7B est similaire à un modèle de style GPT mais comprend des optimisations pour l’inférence: Il utilise l’attention groupée (GQA) pour accélérer l’attention et l’attention de la fenêtre coulissante pour gérer plus efficacement les contextes plus longs. En termes de performances, Mistral 7B a surpassé le LLAMA 2 13B de Meta et a même donné des résultats solides contre 34b, tout en étant beaucoup plus petit. Mistral AI a publié le modèle sous une licence Apache 2.0, ce qui le rend libre pour une utilisation. Sa prochaine version majeure était Mixtral 8 × 7B, un modèle de mélange de réseaux clairsemé (MOE) avec huit réseaux d’experts à 7 paramètres B par couche. Cette conception a aidé à mixtral ou à battre GPT – 3.5 et LLAMA 2 70B sur des tâches comme les mathématiques, le codage et les références multilingues. En mai 2025, Mistral a libéré Mistral Medium 3, un modèle de taille moyenne propriétaire destiné aux entreprises. Ce modèle offre plus de 90% du score de modèles plus chers comme Claude 3.7 Sonnet sur des références standard, tout en réduisant considérablement le coût par intervention (environ 0,40 $ en VS 3,00 $ pour le sonnet). Il prend en charge les tâches multimodales (texte + images), le raisonnement professionnel et est offerte via une API ou pour un déploiement sur site sur aussi peu que quatre GPU. Cependant, contrairement aux modèles antérieurs, Medium 3 est une source fermée, ce qui a provoqué la critique de la communauté selon laquelle Mistral s’éloigne de sa philosophie open source. Peu de temps après, en juin 2025, Mistral a présenté le magistral, leur premier modèle dédié au raisonnement explicite. La petite version est ouverte sous Apache 2.0, tandis que le support magistral est uniquement en entreprise. Le support magistral a marqué 73,6% sur AIME2024, la petite version marquant 70,7%, démontrant de solides compétences en mathématiques et logiques en plusieurs langues.
7. Deepseek
Lien papier (Deepseek-R1): https://arxiv.org/abs/2501.12948
Deepseek est une entreprise d’IA chinoise (spin-off de l’IA de haut vol, fondée en 2023) qui développe de grands LLM. Ses modèles récents (comme Deepseek V3 et Deepseek-R1) utilisent une architecture de transformateur de mélange de mélange très peu activé. Dans Deepseek V3 / R1, chaque couche de transformateur a des centaines de sous-réseaux experts, mais seuls quelques-uns sont activés par jeton. Cela signifie qu’au lieu d’exécuter toutes les parties du modèle à la fois, le modèle possède des centaines de réseaux d’experts et n’active que quelques (comme 9 sur 257) en fonction de ce qui est nécessaire pour chaque entrée. Cela permet à Deepseek d’avoir une énorme taille totale de modèle (plus de 670 milliards de paramètres) tout en n’utilisant qu’environ 37 milliards de personnes au cours de chaque réponse, ce qui le rend beaucoup plus rapide et moins cher à fonctionner qu’un modèle dense de taille similaire. Comme les autres LMS modernes, il utilise des activations Swiglu, des incorporations rotatives (corde) et des optimisations avancées (y compris la précision expérimentale FP8 pendant l’entraînement) pour la rendre plus efficace. Cette conception MOE agressive permet à Deepseek d’atteindre une capacité très élevée (comparable aux modèles denses beaucoup plus grands) à un coût de calcul inférieur. Les modèles de Deepseek (publiés sous licences ouvertes) ont attiré l’attention pour rivaliser avec les principaux modèles comme GPT-4 dans la génération et le raisonnement multilingues, tout en réduisant considérablement les exigences de formation et de ressources d’inférence.
Kanwal Mehreen Kanwal est ingénieur d’apprentissage automatique et écrivain technique avec une profonde passion pour la science des données et l’intersection de l’IA avec la médecine. Elle a co-écrit l’ebook « Maximiser la productivité avec Chatgpt ». En tant que Google Generation Scholar 2022 pour APAC, elle défend la diversité et l’excellence académique. Elle est également reconnue comme une diversité de Teradata dans Tech Scholar, le boursier de recherche Mitacs Globalink et le savant de Harvard WECODE. Kanwal est un ardent défenseur du changement, après avoir fondé des femmes pour autonomiser les femmes dans les champs STEM.