(D) Prévision des pages vues Wikipedia avec saisonnalité – meilleure approche de modélisation?

 (D) Prévision des pages vues Wikipedia avec saisonnalité – meilleure approche de modélisation?


Bonjour à tous,

Je travaille sur une tâche de stagiaire de science des données et je pourrais vraiment utiliser quelques conseils.

La tâche:

Prévision Page-vues quotidiennes pour la page sur Figma (l’outil de conception) depuis maintenant jusqu’à la mi-2026.

L’énoncé du problème réel:

Il s’agit de la page quotidienne de la page Wikipedia Figma (le logiciel de conception) depuis le début de 2022. Notez que le trafic vers la page a une saisonnalité hebdomadaire et une légère tendance à la hausse. Notez également qu’il y a quelques jours avec un trafic anormal. Concevez une méthodologie ou écrivez du code pour prédire les pages vues quotidiennes à cette page jusqu’au milieu de l’année prochaine. Justifier tout choix d’ensembles de données ou de bibliothèques de logiciels considérés.

L’ensemble de données va de Janvier 2022 à juin 2025tiré de Page-vues Wikipediaet ressemble à ceci (échelle de journal):

https://preview.redd.it/v1ined65qc5f1.png?width=1267&format=png&auto=webp&s=d63999c29a6c502395f9727c49b2691ad0b1cb311

Observations à partir des données:

  • Fort saisonnalité hebdomadaire
  • Graduel tendance à la hausse Jusqu’à la fin 2023
  • Plusieurs pics (probablement liés aux nouvelles)
  • UN Une baisse de trafic massive et soutenue en novembre 2023
  • Comportement relativement stable après

Ce que j’ai essayé:

J’ai utilisé Facebook Prophète de deux manières:

  1. En utilisant uniquement des données post-goutte (après novembre 2023):
    • MAE: 12.99
    • RMSE: 10.33
    • Mape: 25% pas parfait, mais quelque peu acceptable.
  2. Utilisation de données complètes (2022-2025) avec un Changepoint forcé vers novembre 2023 → Les prévisions étaient complètement éteint et inutilisable.

Ce avec quoi j’ai besoin d’aide:

  • Comment dois-je gérer ça rupture structurelle de la circulation Vers novembre 2023?
  • Devrais-je:
    • Jeter entièrement les données pré-dépasser?
    • Utiliser la détection de changement et la modélisation des segments?
    • Utilisez un modèle différent mieux adapté aux changements de régime de manipulation?

Serait reconnaissant pour vos réflexions sur la stratégie de modélisation, la gestion des points de changement et si des outils comme Prophète, XGBoost ou même LSTM sont mieux adaptés à ce scénario.

Merci!

soumis par / u / yash_yagami
(lien) (Commentaires)



Source link

Related post