Apprentissage du renforcement des plug-and-play pour le recalibrage des prévisions en temps réel

 Apprentissage du renforcement des plug-and-play pour le recalibrage des prévisions en temps réel


Auteur (s): Shenggang Li

Publié à l’origine sur Vers l’IA.

Mise à jour des modèles de vente arma hérités avec un correcteur résiduel PPO – pas de recyclage complet requisPhoto d’Anders Jildén sur unclash

Lorsque je construis un modèle de série chronologique – disons qu’un ARMA s’est formé sur les prix, les promotions et les drapeaux de vacances de la saison dernière – pour prévoir les ventes quotidiennes, tout semble vif sur les parcelles de validation.

Quelques mois plus tard, l’équipe marketing retourne son livre de jeu, les concurrents Slash Tags et les résidus autrefois-neat dérivent hors centre. De nombreuses équipes de la chaîne d’approvisionnement haussent les épaules, déversent les nouvelles données et broyent un recyclage complet: choisissez de nouveaux décalages, relâchez la recherche de grille, redéploitez le pipeline.

Ce cycle de reconstruction est lent, brise les points de contrôle de la gouvernance et réinitialise constamment les seuils d’alerte. Pire, chaque redémarrage élimine la structure dure déjà cuite dans l’ARMA d’origine.

Donc, ce papier pose une question plus simple: pourquoi ne pas garder le noyau et le boulon de confiance sur un auto-tueur de renforcement d’apprentissage? L’agent RL observe l’erreur de prévision d’hier avec le contexte en direct (prix d’aujourd’hui, drapeau promotionnel, prix du concurrent, dépenses de marketing), puis pousse la ligne de base vers le haut ou vers le bas d’un pourcentage modeste – pensez à un thermostat donnant le radiateur de minuscules éclats supplémentaires lorsqu’un front froid frappe.

Nous formons cet agent avec l’optimisation de la politique proximale (PPO). Le PPO traite chaque correction comme une action continue, récompense la réduction des erreurs relatives et des étapes de politique de clips afin que le tweak ne saute jamais sauvagement. En apprenant en ligne… Lisez le blog complet gratuitement sur Medium.

Publié via Vers l’IA



Source link

Related post