Un modèle de fondation uniquement pour les prévisions de séries chronologiques


Séries chronologiques La prévision est omniprésente dans divers domaines, tels que la vente au détail, la finance, la fabrication, les soins de santé et les sciences naturelles. Dans les cas d’utilisation au détail, par exemple, il a été observé que Améliorer la précision des prévisions de la demande peut réduire de manière significative les coûts des stocks et augmenter les revenus. Les modèles d’apprentissage en profondeur (DL) sont devenus une approche populaire pour prévoir des données riches, multivariées et de séries chronologiques, car elles se sont avérées bien fonctionner dans une variété de paramètres (par exemple, les modèles DL ont bien fonctionné dans le Compétition M5).
Dans le même temps, il y a eu des progrès rapides dans les grands modèles de langage de base utilisés pour les tâches de traitement du langage naturel (NLP), telles que traduction, Génération de la récupérationet Achèvement du code. Ces modèles sont formés sur des quantités massives de textuel Données dérivées d’une variété de sources comme rampe et le code open source qui leur permet d’identifier les modèles dans les langues. Cela les rend très puissants zéro outils; par exemple, Lorsqu’il est associé à une récupérationils peuvent répondre aux questions sur et résumer les événements actuels.
Malgré les prévisionnistes basés sur DL surperformant Les méthodes et progrès traditionnels sont réalisés en Réduire les coûts de formation et d’inférenceils sont confrontés à des défis: la plupart des architectures DL nécessitent cycles de formation et de validation longs et impliqués Avant qu’un client puisse tester le modèle sur une nouvelle série temporelle. Un modèle de fondation pour les prévisions de séries chronologiques, en revanche, peut fournir des prévisions décentes prêtes à l’emploi sur les données invisibles de séries chronologiques sans formation supplémentaire, permettant aux utilisateurs de se concentrer sur le raffinage des prévisions pour la tâche réelle en aval comme Planification de la demande de détail.
À cette fin, dans «Un modèle de fondation uniquement pour les prévisions de séries chronologiques», accepté à ICML 2024, Nous introduisons TimesFM, un modèle de prévision unique pré-formé sur un grand corpus de la série temporelle de 100 milliards de points du monde réel. Par rapport aux derniers modèles de langage grand (LLMS), TIMEFM est beaucoup plus petit (paramètres de 200 m), mais nous montrons que même à ces échelles, ses performances zéro-shot sur une variété de ensembles de données invisibles de différents domaines et granulations temporelles se rapprochent de ces approches supervisées de pointe formées explicitement sur ces données. Pour accéder au modèle, veuillez visiter notre Étreinte et Github REPOS.
Un modèle de fondation uniquement pour les prévisions de séries chronologiques
Les LLM sont généralement formés à un décodeur uniquement mode qui implique trois étapes. Tout d’abord, le texte est divisé en sous-mots appelés jetons. Ensuite, les jetons sont introduits dans la causalité empilée transformateur Couches qui produisent une sortie correspondant à chaque jeton d’entrée (il ne peut pas s’occuper des futurs jetons). Enfin, la sortie correspondant au je-Th Token résume toutes les informations des jetons précédents et prédit le (je+1) -th jeton. Pendant l’inférence, le LLM génère le jeton de sortie un à la fois. Par exemple, lorsqu’il est invité à «Quelle est la capitale de la France?», Cela pourrait générer le jeton «le», puis condition sur «Quelle est la capitale de la France? Le «pour générer le prochain jetage« capital »et ainsi de suite jusqu’à ce qu’il génère la réponse complète:« La capitale de la France est Paris ».
Un modèle de fondation pour les prévisions de séries chronologiques devrait s’adapter à des longueurs de contexte variable (ce que nous observons) et de l’horizon (ce que nous interrogeons le modèle pour prévoir), tout en ayant une capacité suffisante pour coder tous les modèles à partir d’un grand ensemble de données de prélèvement. Semblable aux LLM, nous utilisons à l’aise couches) comme principaux blocs de construction du modèle TimesFM. Dans le contexte des prévisions de séries chronologiques, nous traitons un patch (un groupe de points temporels contigus) comme un jeton qui a été popularisé par un récent Travail de prévision à horizon long. La tâche consiste alors à prévoir le (je+1) -th patch de points de temps compte tenu du je-th Sortie à la fin des couches de transformateur empilées.
Cependant, il existe plusieurs différences clés par rapport aux modèles de langue. Premièrement, nous avons besoin d’un Perceptron multicouche Bloquer avec des connexions résiduelles pour convertir un patch de séries chronologiques en un jeton qui peut être entré aux couches du transformateur avec codages positionnels (PE). Pour cela, nous utilisons un bloc résiduel similaire à nos travaux antérieurs prévision à horizon long. Deuxièmement, à l’autre extrémité, un jeton de sortie du transformateur empilé peut être utilisé pour prédire une longueur plus longue des points de temps ultérieurs que la longueur du patch d’entrée, c’est-à-dire que la longueur du patch de sortie peut être plus grande que la longueur du patch d’entrée.
Considérons une série temporelle de 512 points de temps utilisée pour former un modèle TimesFM avec une longueur de patch d’entrée 32 et une longueur de patch de sortie 128. Pendant la formation, le modèle est simultanément formé pour utiliser les 32 premiers points temporels pour prévoir les 128 prochains points de temps, les 64 premiers points temporels pour prévoir des points temporels de 65 à 192, les premiers points temporels pour prévoir des points temporels. Pendant l’inférence, supposons que le modèle reçoive une nouvelle série temporelle de longueur 256 et chargée de prévoir les 256 prochains points dans le futur. Le modèle générera d’abord les prévisions futures des points temporels 257 à 384, puis la condition sur l’entrée initiale 256 de longueur plus la sortie générée pour générer des points temporels 385 à 512. D’un autre côté, si dans notre modèle, la longueur du patch de sortie était égale à la longueur du patch d’entrée de 32 puis pour la même tâche, nous devons passer par huit étapes de génération au lieu des deux ci-dessus. Cela augmente les chances de plus d’erreurs qui s’accumulent et, par conséquent, dans la pratique, nous voyons qu’une longueur de patch de sortie plus longue permette de meilleures performances pour les prévisions à horizon long
![]() |
| Architecture TimesFM. |
Données de prélèvement
Tout comme les LLM s’améliorent avec plus de jetons, TimesFM nécessite un grand volume de données de séries chronologiques légitimes pour apprendre et s’améliorer. Nous avons passé beaucoup de temps à créer et à évaluer nos ensembles de données de formation, et ce qui suit est ce que nous avons trouvé le mieux fonctionne:
Les données synthétiques aident les bases. Des données significatives de séries chronologiques synthétiques peuvent être générées à l’aide de modèles statistiques ou de simulations physiques. Ces modèles temporels de base peuvent enseigner au modèle la grammaire des prévisions de séries chronologiques.
Les données du monde réel ajoutent une saveur du monde réel. Nous combinons les ensembles de données de séries chronologiques publiques disponibles et assemblons sélectivement un grand corpus de 100 milliards de points. Parmi ces ensembles de données, il y a Tendances Google et Page-vues Wikipediaqui suit ce que les gens intéressent, et qui reflète bien les tendances et les modèles dans de nombreuses autres séries chronologiques du monde réel. Cela aide TimesFM à comprendre la situation dans son ensemble et à mieux généraliser lorsqu’il est fourni avec des contextes spécifiques au domaine non vus pendant la formation.
Résultats d’évaluation zéro
Nous évaluons TimesFM Zero-Shot sur les données non observées lors de la formation en utilisant des repères de séries chronologiques populaires. Nous observons que TimesFM fonctionne mieux que la plupart des méthodes statistiques comme Arima, Ets et peut égaler ou surpasser les modèles DL puissants comme Deepar, Patchtst qui ont été explicitement formé sur la série temporelle cible.
Nous avons utilisé le Archives de prévision de monash Pour évaluer les performances prêtes à l’emploi de TimesFM. Cette archive contient des dizaines de milliers de séries chronologiques à partir de divers domaines comme le trafic, la météo et les prévisions de la demande couvrant des fréquences allant de quelques minutes à des données annuelles. Suivant la littérature existante, nous inspectons le Erreur absolue moyenne (Mae) à l’échelle appropriée afin qu’il puisse être moyenné sur les ensembles de données. Nous voyons que le TimesFM Zero-Shot (ZS) est meilleur que la plupart des approches supervisées, y compris les modèles récents d’apprentissage en profondeur. Nous comparons également TimesFM à GPT-3.5 pour les prévisions en utilisant une technique d’incitation spécifique proposée par llmtime (zs). Nous démontrons que TimesFM fonctionne mieux que LLMtime (ZS) malgré les ordres de grandeur.
![]() |
| Moyenne géométrique (GM, et Pourquoi nous le faisons) de MAE à l’échelle (le plus bas le mieux) de TimesFM (ZS) contre d’autres approches supervisées et zéro-tirs sur les ensembles de données Monash. |
La plupart des ensembles de données Monash sont à horizon court ou moyen, c’est-à-dire que la longueur de prédiction n’est pas trop longue. Nous testons également TimesFM sur les références populaires pour une longue prévision de l’horizon contre une récente ligne de base ultramoderne Patchtst (et autres lignes de base de prévisions à horizon long). Dans la figure suivante, nous tracons le mae sur ETT ensembles de données pour la tâche de prédire les points temporels 96 et 192 dans le futur. La métrique a été calculée sur la dernière fenêtre de test de chaque ensemble de données (comme le fait le llmtime papier). Nous voyons que TimesFM dépasse non seulement les performances de LLMTime (ZS), mais correspond également à celle du modèle PatchTST supervisé explicitement formé sur les ensembles de données respectifs.
![]() |
| Dernière fenêtre MAE (le plus bas le mieux) de TimesFM (ZS) contre LLMtime (ZS) et les lignes de base de prévision long-horizon sur les ensembles de données ETT. |
Conclusion
Nous formons un modèle de fondation uniquement au décodeur pour les prévisions de séries chronologiques en utilisant un grand corpus de pré-formation de points temporels du monde 100B, dont la majorité était des données de séries chronologiques d’intérêt dérivées de Google Tendances et des pages vues de Wikipedia. Nous montrons que même un modèle pré-étiré par un paramètre relativement petit qui utilise notre architecture TIMEFM affiche des performances impressionnantes sur une variété de références publiques à partir de différents domaines et granulations.
Remerciements
Ce travail est le résultat d’une collaboration entre plusieurs individus sur Google Research et Google Cloud, notamment (par ordre alphabétique): Abhimanyu Das, Weihao Kong, Andrew Leach, Mike Lawrence, Alex Martin, Rajat Sen, Yang Yang, Skander Hannachi, Ivan Kuznetsov et Yichen Zhou.
Source link



