(D) L’architecture du MOE du contexte des Gémeaux (hypothétique)

Architecture MOE du contexte long des Gémeaux (hypothétique): Partager comment je pense que les modèles Gemini (hypothèse) réalisent leur fenêtre de contexte de 1 à 10 millions de longs. Avec des détails sur des indices pour prendre en charge la même chose. Ensemble d’expert (EOE) ou mail Le jeton 1M + Gemini utilise probablement probablement "instances" (ensembles d’experts actifs / éclats de TPU) Partage d’un contexte distribué commun; Les groupes d’experts actifs individuels utilisent ensuite pertinent "parties" de ce vaste contexte pour la génération. Cela permet des demandes indépendantes simultanées via un système distinct "partitions." Le contexte est fragné et géré sur de nombreux TPU interconnectés dans un pod. Pour toute entrée donnée, seulement un ensemble clairsemé de spécialisé "expert" sous-réseaux (un "voie dynamique") Dans le modèle total, le modèle est activé, en fonction de la complexité et du contexte requis. Le modèle global MOE peut gérer simultanément plusieurs demandes d’utilisateurs simultanées. Chaque demande, avec son entrée et son contexte spécifiques, déclenchera sa propre voie distincte et isolée d’experts actifs. Contexte partagé qui peut agir comme des éclats indépendants de (mini) contextes. Le mélange massivement distribué d’architecture d’experts (MOE), à travers les TPU dans un seul pod, a le contexte long et géré via le parallélisme, et avec la capacité de traiter les demandes simultanées par une partie de cette fenêtre de contexte et des voies d’experts indépendantes à travers un grand pod TPU, il peut également utiliser la fenêtre de contexte entière pour une seule demande d’experts. Les preuves indiquent que la recherche Pionering MOE de Google (Shazeer, Gshard, Switch), Advanced TPU (V4 / V5P / Ironwood) avec un HBM massif et une distribution essentielle 3D Torus / OCS interconnexion (ICI) permettre des experts en parallèle de la parallèle de la parallèle) et du POD TPU. Les parcours et les optimisations du système de Google prennent en outre ce modèle simultané distribué. Filetage OG X: https://x.com/ditpoo/status/1923966380854157434 soumis par / u / ditpoo94 |