La percée d’Apple dans le raisonnement LLMS: la montée du raisonnement entrelacé | par Akhil Vakkalanka | Juin 2025

 La percée d’Apple dans le raisonnement LLMS: la montée du raisonnement entrelacé | par Akhil Vakkalanka | Juin 2025


Un cerveau d’IA montrant le nouveau paradigme de la pomme pour former des modèles de raisonnement

Dans le monde en évolution rapide de l’IA, les modèles de raisonnement sont devenus une pierre angulaire pour résoudre des problèmes complexes. Jusqu’à récemment, la plupart des modèles de raisonnement, comme la série Deepseek-R, ont suivi un modèle familier: un processus séquentiel de pensée et de réponse. Ces modèles sont affinés avec une structure de et où le modèle raisonne d’abord par le problème, puis génère la réponse finale. Bien que efficace, cette approche présente un inconvénient significatif – il augmente le Temps de premier jeton (TTFT)le temps nécessaire pour produire le premier jeton de la réponse finale une fois le raisonnement terminé. Entrez l’innovation qui change la donne d’Apple: Raisonnement entrelacé.

Le vieux paradigme: raisonnement séquentiel

Au cours des derniers mois, la communauté de l’IA a largement adhéré à un paradigme standard pour la formation de modèles de raisonnement. Des modèles comme Deepseek reposent sur un processus séquentiel où la phase de raisonnement () est entièrement terminé avant la réponse () est généré. Cette méthode, bien que logique, a un défaut critique: si une seule étape dans le raisonnement tourne mal, la réponse finale est susceptible d’être incorrecte. De plus, le TTFT est élevé car le modèle attend jusqu’à ce que le processus de raisonnement soit terminé avant de sortir la réponse.

Ces modèles sont souvent formés à l’aide de techniques d’apprentissage par renforcement comme PPO (optimisation de politique proximale), GRPO ou Renforcement ++, incorporant un modèle de politique et un modèle de récompense. Traditionnellement, la récompense est donnée en fonction de l’exactitude de la réponse finale, ce qui signifie que le modèle est incité à obtenir le bon résultat final – mais il ne tient pas compte des erreurs dans les étapes de raisonnement intermédiaires.

Percée d’Apple: raisonnement entrelacé

Apple a introduit une nouvelle approche qui retourne ce paradigme sur sa tête. Avec Raisonnement entrelacéle modèle est formé pour décomposer le raisonnement complexe en étapes plus petites et gérables, fournissant des réponses immédiates après chaque segment de raisonnement. Au lieu de récompenser uniquement la réponse finale, la méthode d’Apple récompense le modèle à chaque étape du processus de raisonnement. Cela réduit non seulement le TTFT, mais assure également une plus grande précision en attrapant les erreurs tôt.

Voici comment cela fonctionne: le modèle alterne entre et à un niveau plus granulaire. Par exemple, si un problème nécessite plusieurs étapes – comme le calcul d’une date, l’identification d’un événement et la détermination d’une personne impliquée – le modèle est récompensé pour l’exactitude à chaque étape, pas seulement à la fin. Cette approche entrelacée permet au modèle de générer des réponses plus rapidement tout en maintenant ou même à l’amélioration de la précision.

Pourquoi ça compte

L’impact du raisonnement entrelacé est double. Premièrement, en raccourcissant le processus de réflexion et en fournissant des réponses immédiates, Apple a considérablement réduit le TTFT, ce qui rend les modèles de raisonnement plus efficaces et pratiques pour les applications en temps réel. Deuxièmement, la rupture du raisonnement complexe en morceaux plus petits rend le processus plus transparent et moins sujet aux erreurs en cascade. Si une erreur est commise en une étape, le modèle peut se corriger dans le suivant, plutôt que de transporter l’erreur à la réponse finale.

Un exemple du monde réel

Considérez une question comme: «Qui a été le réalisateur du film qui a remporté l’Academy Award du meilleur film cinq ans après la chute du mur de Berlin?» Un modèle de raisonnement traditionnel pourrait d’abord réfléchir à toutes les étapes – déterminer l’année où le mur de Berlin a chuté (1989), calculer cinq ans plus tard (1994), identifier le meilleur gagnant du film et trouver le réalisateur – avant de générer la réponse finale. Si une étape est erronée (par exemple, en supposant le mauvais film gagné en 1994), la réponse finale sera incorrecte et le TTFT sera élevé en raison du long processus de raisonnement.

Avec le raisonnement entrelacé, le modèle s’attaque au problème étape par étape, générant des réponses intermédiaires et recevant des récompenses pour chaque étape correcte. Il pourrait d’abord confirmer que le mur de Berlin est tombé en 1989 (: 1989, récompense: +0.1), puis calculez 1994 (: 1994, récompense: +0.1), identifier Forrest Gump En tant que gagnant du meilleur film de 1994 (: Forrest GumpRécompense: +0.1), et enfin nommer Robert Zemeckis comme réalisateur (: Robert Zemeckis, récompense: +1). Cette approche réduit non seulement le TTFT, mais assure également une précision plus élevée en validant chaque étape.

L’avenir des modèles de raisonnement

Le raisonnement entrelacé d’Apple marque un changement significatif dans la façon dont nous abordons le raisonnement dans les LLM. En tirant parti du renforcement apprenant à récompenser les étapes intermédiaires et à réduire le TTFT, Apple a établi une nouvelle norme pour l’efficacité et la précision. Ce changement de paradigme pourrait avoir des implications de grande envergure, de l’amélioration des applications d’IA en temps réel à l’amélioration des outils éducatifs qui reposent sur la résolution de problèmes étape par étape.

Alors que la communauté de l’IA continue d’explorer cette approche, nous pouvons nous attendre à de nouvelles innovations qui s’appuient sur la percée d’Apple. Pour l’instant, le raisonnement entrelacé est un témoignage de la puissance de repenser les méthodes traditionnelles – et un rappel que parfois, les plus petites étapes conduisent aux plus grands sauts en avant.



Source link

Related post