De LSTMS à RLHF – comment une idée enflamme le suivant | par Romee Panchal | Jul, 2025

Chaque point de repère de la PNL moderne a commencé comme une réponse modeste à une limitation concrète. Un groupe publie une solution intelligente, un autre remarque la fissure restante et un troisième découvre un raccourci que les deux premiers n’ont jamais imaginé. Les LSTM ont sauvé les RNN des gradients en fuite; Des intégres contextuels ont rendu des vecteurs statiques obsolètes; Transformers a brisé le plafond compuminant parallèle; Les modèles réglés par l’instruction ont fermé l’écart d’alignement humain.
Le suivi de cette race de relais est plus instructif que de mémoriser un seul résultat: il montre pourquoi Chaque percée importait et comment Le centre de gravité du champ continuait de changer.
Vous trouverez ci-dessous un récit – plutôt qu’une liste de contrôle – des articles qui ont transformé les impossibilités d’hier en défaut d’aujourd’hui.
Glove (2014) A fait valoir que la prédiction locale basée sur les fenêtres (Word2VEC) ignore les statistiques globales, il est donc à la place une matrice log-co-occurrence. Le saut dans la précision de l’analogie a laissé entendre ce contexte plus riche importe.
Quatre ans plus tard, Elmo (2018) a montré un défaut encore plus grand: statique Les intégres ne peuvent pas capturer des homonymes ou de la polysémie. En alimentant les phrases à travers un modèle de langue LSTM bidirectionnel et en prenant des mélanges pondérés en fonction de la couche, Elmo a fait un mot signifiant conditionnel sur toute la séquence – carburant pour les premiers gains à deux chiffres à travers l’AQ et les tâches de coreférence.
Cette perspicacité a atteint la vitesse d’échappement avec Bert (2018). Remplacez les RNN par des transformateurs, masquez 15% des jetons, prédisez-les en utilisant un contexte bidirectionnel et vous avez un codeur universel qui peut être affiné pour presque n’importe quoi. Roberta (2019) Puis a posé une question hérétique: Et si la magie de Bert n’est que de gros lots, plus de données et une formation plus longue? En dépouillant de manière agressive de prédiction et de mise à l’échelle de la phrase suivante, il a prouvé que les astuces d’optimisation Trump Architecture ajustent.
Dès que Transformers a remporté des tâches à courte séquence, les chercheurs ont frappé le mur quadratique: le coût de l’auto-attention explose avec une longueur. Transformer-XL (2019) Récurrence relancée – stocker des états cachés du segment précédent et utiliser un schéma de position relatif afin que les horizons textuels puissent s’étendre de 512 jetons à des milliers. Le saut importait pour la génération d’histoires et la modélisation du langage long.
Alors que Transformer-XL a gardé le modèle d’attention complet, d’autres chassaient la rareté. Linformer (2020) Clés et valeurs projetées à un espace de faible rang, rétrécissant la complexité de O (n²) à O (NK); LongFormer (2020) La localité combinée de la fenêtre coulissante avec quelques jetons mondiaux pour traiter 8 articles scientifiques K-Token sur un seul GPU. D’ici 2022, l’enquête de Tay et al. A catalogué plus de 50 variantes de ce type, signalant le consensus que le matériel – pas la théorie – est maintenant le goulot d’étranglement.
Si la longueur du contexte était un plafond, les têtes spécifiques à la tâche en étaient une autre. T5 (2020) démoli en casting tous Problèmes – traduction, résumé, classification – comme «Texte d’entrée -> Texte de sortie». Avec un corpus nettoyé de 750 Go et un transformateur SEQ-SEQ, il a montré que le formatage minutieux des tâches peut débloquer autant de transfert que de plus grands modèles.
En parlant de plus grand: GPT-3 (2020) Interrogé sur ce qui se passe lorsque vous émettiez simplement un transformateur autorégressif en paramètres 175 B et sautez le réglage fin. La réponse était apprentissage en contexte – La capacité d’effectuer de nouvelles tâches à partir de quelques invites de démonstration. Kaplan et al. (2020) Ensuite, mettez des nombres sur l’intuition, en dérivant des règles de mise à l’échelle de la loi de puissance qui guident toujours les feuilles de calcul du budget GPU à chaque laboratoire.
La capacité brute est inutile – ou dangereuse – si un modèle ignore l’intention humaine. Ouyang et al. (2022) Introduit le pipeline RLHF désormais canonique: réglage des instructions supervisé, un modèle de récompense formé sur les comparaisons de préférences et l’apprentissage du renforcement PPO à la génération de direction. Cette recette sous-tend Chatgpt et tous les déploiement sérieux concernant la sécurité, l’utilité ou le ton de la marque.
Avec du texte bien appris, l’attention se tourne vers les bords: multimodalité (AGRAFE2021), ma mémoire de 100 k-token via des modèles d’espace d’état (S42021), Génération de la récupération auprès de la fiabilité factuelle (Rétro2022), et des mélanges clairsemés d’Experts pour augmenter la capacité sans flops quadratiques (Transformateur de commutateur2021). Chaque frontière reprend là où la dernière percée montre la tension – preuve que la course de relais continue.
Ensuite, il y a une toute nouvelle race de modèles de raisonnement.
- Modèles de raisonnement d’abord – Openai O1 / O3. Au lieu de serrer de plus en plus de jetons en une seule passe avant, ces variantes ralentir et allouer explicitement le calcul supplémentaire au raisonnement étape par étape, à l’utilisation des outils et à l’auto-réflexion. Le résultat est une précision plus élevée sur les problèmes multi-HOP et la synthèse du code sans course aux armements paramètre. Camp de donnéesTechtarget
- Mélange de prochaine génération des experts – Deepseek-R1 (671 B total / 37 B actif). Deepseek montre que Moe n’est plus une astuce exotique sur Google: en activant une petite tranche de réseau par jeton, il réalise des scores de mathématiques et de codage de classe GPT-4 tout en fonctionnant sur les produits H800 de marchandises – une coupe d’ordre de grandeur dans les flops d’entraînement. HeidloffModulaireThe Wall Street Journal
- Échelle open source – Llama 4 (avril 2025). La famille de quatrième génération de Meta ajoute deux variantes de poids ouvert (Maverick & Scout) qui correspondent aux références de niveau GPT-4 tout en restant convivial. Pour les universitaires et les start-ups, il réinitialise la base de référence «libre à piller». AiwireWikipedia
- Contexte ultra-long – GPT-4.1 (jusqu’à 1 m jetons). Le nouveau produit phare pousse la longueur du contexte de 128 K à un million Tokens, suffisamment pour contenir huit exemplaires de la base de code React entière ou une semaine d’histoire de Slack. Il comble également l’écart de précision du codage avec des copilotes spécifiques au domaine. OpenaiTechtargetReuters
- Alignement amélioré par la vision – Claude 3.5 Sonnet. Le modèle de taille moyenne d’Anthropic lep-gold son propre Claude 3 Opus sur la vision et les tâches de raisonnement, lisant avec précision les graphiques, les reçus et les images de faible qualité – critique pour les flux de travail de vente au détail et de logistique. AnthropiqueCamp de données
Chaque effort aborde les points de pression révélés par la vague précédente. Ces ajouts renforcent le même motif de relais que nous avons vu:
- Identifier un plafond pratique (Profondeur de raisonnement, coût de formation, ouverture, fenêtre de contexte, mise à la terre multimodal).
- Ingénieur une solution de contournement ciblée (Réflexion planifiée, experts clairsemés, licences permissives, attention économe en mémoire, encodeurs de vision).
- Regardez la solution de contournement Créer ses questions de suivi (Comment déboguer les experts cachés? Comment rechercher une invite à un million de tonnes?).
- Le progrès est itératif mais pas incrémentiel. Un seul piratage intelligent (masquage, récidive, RLHF) peut ouvrir un nouvel espace de conception.
- Les goulots d’étranglement créent des thèmes de recherche. Une fois la qualité de la représentation, la longueur du contexte et le coût de calcul sont devenus les problèmes urgents; Maintenant, l’alignement et la mise à la terre dominent.
- Adopter sélectivement. Cartez votre point de douleur – représentation, contexte, échelle ou alignement – sur le papier qui l’a résolu. Implémentez cette solution avant de poursuivre la prochaine onde de battage médiatique.
- Hochreiter, S., et Schmidhuber, J. (1997). Mémoire à court terme. Calcul neuronal, 9(8), 1735–1780.
- Pennington, J., Socher, R. et Manning, CD (2014). Gant: vecteurs mondiaux pour la représentation des mots. EMNLP.
- Peters, moi, et al. (2018). Représentations de mots contextualisés profonds. Naacl.
- Devlin, J., et al. (2018). Bert: pré-formation des transformateurs bidirectionnels profonds pour la compréhension du langage. Naacl.
- Liu, Y., et al. (2019). Roberta: une approche de pré-formation Bert optimisée à optimisation. Arxiv: 1907.11692.
- Dai, Z., et al. (2019). Transformateur-XL: modèles de langage attentif au-delà d’un contexte de longueur fixe. ACL.
- Wang, S., et al. (2020). LinFormer: auto-attention avec complexité linéaire. Arxiv: 2006.04768.
- Beltagy, I., Peters, M. et Cohan, A. (2020). LongFormer: le transformateur à long document. Arxiv: 2004.05150.
- Raffel, C., et al. (2020). Exploration des limites de l’apprentissage du transfert avec un transformateur de texte à texte unifié. JMLR, 21(140).
- Brown, TB, et al. (2020). Les modèles de langue sont des apprenants à quelques tirs. Neurips.
- Kaplan, J., et al. (2020). Échelle des lois pour les modèles de langage neuronal. Arxiv: 2001.08361.
- Ouyang, L., et al. (2022). Modèles de langue de formation pour suivre les instructions avec les commentaires humains. Arxiv: 2203.02155.
- Radford, A., et al. (2021). Apprentissage des modèles visuels transférables à partir de la supervision du langage naturel. Icml.
- Gu, A., et al. (2021). Modélisation efficace de longues séquences avec des espaces d’état structurés. Arxiv: 2111.00396.
- Fetus, W., et al. (2021). Transformateurs de commutation: mise à l’échelle des modèles de paramètres de milliards de dollars avec une rareté simple et efficace. JMLR, 23(120).
- Borgeaud, S., et al. (2022). Améliorer les modèles de langue en récupérant des milliards de jetons. Nature, 601590–595.
- Tay, Y., et al. (2022). Transformers efficaces: une enquête. Enquêtes informatiques ACM, 55(6), 1–28.
- Heidloff, N. (2025). Concepts clés de Deepseek-R1. Heidloff
- AI modulaire. (2025). Exploration de l’architecture du mélange de profondeur de Deepseek-R1. Modulaire
- Meta Ai. (2025). Blog et documentation de la version de Llama 4. Aiwire
- Openai. (2025). Présentation de GPT-4.1 dans l’API. Openai
- Reuters. (2025, 14 avril). OpenAI lance les modèles GPT-4.1 avec un codage amélioré et un contexte long. Reuters
- Anthropique. (2024). Présentation de Claude 3.5 Sonnet. Anthropique