Un déploiement de l’autoroute de 100 av

 Un déploiement de l’autoroute de 100 av

Formation de modèles de diffusion avec apprentissage de renforcement

Nous avons déployé 100 voitures contrôlées par le renforcement (RL) dans le trafic routier de l’heure de pointe pour lisser la congestion et réduire la consommation de carburant pour tout le monde. Notre objectif est de s’attaquer vagues « stop-and-go »ces ralentissements et accélérations frustrants qui n’ont généralement pas de cause claire mais entraînent une congestion et des déchets d’énergie importants. Pour former des contrôleurs efficaces à libellule, nous avons construit des simulations rapides et basées sur les données avec lesquelles les agents RL interagissent, apprenant à maximiser l’efficacité énergétique tout en maintenant le débit et en fonctionnant en toute sécurité autour des conducteurs humains.

Dans l’ensemble, une petite proportion de véhicules autonomes (AVS) bien contrôlés est suffisant pour améliorer considérablement le débit de la circulation et l’efficacité énergétique pour tous les conducteurs sur la route. De plus, les contrôleurs qualifiés sont conçus pour être déployables sur la plupart des véhicules modernes, opérant de manière décentralisée et s’appuyant sur des capteurs radar standard. Dans notre dernier documentnous explorons les défis du déploiement de contrôleurs RL sur une grande échelle, de la simulation au champ, au cours de cette expérience de 100 voitures.

Les défis des jams fantômes


Une vague d’arrêt et de go recula dans le trafic routier.

Si vous conduisez, vous avez sûrement connu la frustration des vagues d’arrêt, ces ralentissements de trafic apparemment inexplicables qui apparaissent de nulle part et qui s’éclaircissent soudainement. Ces vagues sont souvent causées par de petites fluctuations de notre comportement de conduite qui sont amplifiées par le flux de trafic. Nous ajustons naturellement notre vitesse en fonction du véhicule devant nous. Si l’espace s’ouvre, nous accélérons pour suivre. S’ils freinent, nous ralentissons également. Mais en raison de notre temps de réaction non nulle, nous pourrions freiner un peu plus fort que le véhicule à l’avant. Le prochain conducteur derrière nous fait de même, ce qui continue d’amplifier. Au fil du temps, ce qui a commencé comme un ralentissement insignifiant se transforme en un arrêt complet plus loin dans la circulation. Ces vagues reculent dans le flux de trafic, entraînant une baisse significative de l’efficacité énergétique en raison de fréquentes accélérations, accompagnées d’une augmentation du CO2 émissions et risque d’accident.

Et ce n’est pas un phénomène isolé! Ces vagues sont omniprésentes sur les routes très fréquentées lorsque la densité de la circulation dépasse un seuil critique. Alors, comment pouvons-nous résoudre ce problème? Les approches traditionnelles comme la mesure de la rampe et les limites de vitesse variable tentent de gérer le flux de trafic, mais elles nécessitent souvent une infrastructure coûteuse et une coordination centralisée. Une approche plus évolutive consiste à utiliser des AV, qui peuvent ajuster dynamiquement leur comportement de conduite en temps réel. Cependant, le simple fait d’insérer des AV parmi les chauffeurs humains ne suffit pas: ils doivent également conduire de manière plus intelligente qui rend le trafic meilleur pour tout le monde, où RL entre en jeu.


Diagramme fondamental de la circulation. Le nombre de voitures sur la route (densité) affecte la quantité de trafic qui va de l’avant (débit). À faible densité, l’ajout de voitures augmente le flux car plus de véhicules peuvent passer. Mais au-delà d’un seuil critique, les voitures commencent à se bloquer, conduisant à la congestion, où l’ajout de voitures ralentit réellement le mouvement global.

Apprentissage du renforcement pour les AV lisses par les vagues

RL est une approche de contrôle puissante où un agent apprend à maximiser un signal de récompense par des interactions avec un environnement. L’agent recueille l’expérience par essais et erreurs, apprend de ses erreurs et s’améliore avec le temps. Dans notre cas, l’environnement est un scénario de trafic à l’autonomie mixte, où AVS apprend des stratégies de conduite pour atténuer les vagues d’arrêt et réduir la consommation de carburant pour les véhicules à proximité et à proximité humaine.

La formation de ces agents RL nécessite des simulations rapides avec une dynamique de trafic réaliste qui peut reproduire le comportement d’arrêt et de go à l’autoroute. Pour y parvenir, nous avons exploité des données expérimentales collectées sur l’Interstate 24 (I-24) près de Nashville, Tennessee, et l’avons utilisé pour construire des simulations où les véhicules rejouent les trajectoires routières, créant un trafic instable que les AV qui conduisent derrière eux apprennent à lisser.


Simulation rejouant une trajectoire routière qui présente plusieurs vagues d’arrêt et de go.

Nous avons conçu l’AVS en pensant à un déploiement, en nous assurant qu’ils peuvent fonctionner en utilisant uniquement des informations de base sur eux-mêmes et le véhicule devant. Les observations sont constituées de la vitesse de l’AV, de la vitesse du véhicule principal et de l’écart spatial entre eux. Compte tenu de ces entrées, l’agent RL prescrit alors soit une accélération instantanée ou une vitesse souhaitée pour l’AV. L’avantage clé de l’utilisation uniquement de ces mesures locales est que les contrôleurs RL peuvent être déployés sur la plupart des véhicules modernes de manière décentralisée, sans nécessiter une infrastructure supplémentaire.

Conception de récompense

La partie la plus difficile est de concevoir une fonction de récompense qui, une fois maximisé, s’aligne sur les différents objectifs que nous souhaitons atteindre les AV:

  • Lissage des vagues: Réduisez les oscillations des arrêts.
  • Efficacité énergétique: Consommation de carburant plus faible pour tous les véhicules, pas seulement AVS.
  • Sécurité: Assurez-vous des distances raisonnables et évitez le freinage brutal.
  • Confort de conduite: Évitez les accélérations agressives et les décélérations.
  • Adhésion aux normes de conduite humaine: Assurez-vous qu’un comportement de conduite «normal» qui ne rend pas les conducteurs environnants mal à l’aise.

Équilibrer ces objectifs ensemble est difficile, car les coefficients appropriés pour chaque terme doivent être trouvés. Par exemple, si la minimisation de la consommation de carburant domine la récompense, les RL AVS apprennent à s’arrêter au milieu de l’autoroute car cela est optimal d’énergie. Pour éviter cela, nous avons introduit des seuils d’écart minimum et maximum dynamiques pour assurer un comportement sûr et raisonnable tout en optimisant l’efficacité énergétique. Nous avons également pénalisé la consommation de carburant de véhicules humains derrière l’AV pour le décourager d’apprendre un comportement égoïste qui optimise les économies d’énergie pour l’AV au détriment du trafic environnant. Dans l’ensemble, nous visons à trouver un équilibre entre les économies d’énergie et le comportement de conduite raisonnable et sûr.

Résultats de la simulation


Illustration des seuils d’écart minimum et maximum dynamiques, dans lesquels l’AV peut fonctionner librement pour lisser le trafic aussi efficacement que possible.

Le comportement typique appris par les AV est de maintenir des lacunes légèrement plus grandes que les conducteurs humains, ce qui leur permet d’absorber plus efficacement les ralentissements de trafic à venir, peut-être abruptes. Dans la simulation, cette approche a entraîné des économies de carburant importantes allant jusqu’à 20% parmi tous les usagers de la route dans les scénarios les plus congestionnés, avec moins de 5% des AV sur la route. Et ces AV ne doivent pas être des véhicules spéciaux! Ils peuvent simplement être des voitures de consommation standard équipées d’un régulateur de vitesse adaptatif intelligent (ACC), ce que nous avons testé à grande échelle.

Comportement de lissage de RL AVS. Rouge: une trajectoire humaine de l’ensemble de données. Bleu: Avs successifs dans le peloton, où Av 1 est le plus proche de la trajectoire humaine. Il y a généralement entre 20 et 25 véhicules humains entre AV. Chaque AV ne ralentit pas autant ou ne s’accélère pas aussi vite que son leader, entraînant une diminution de l’amplitude des vagues au fil du temps et donc des économies d’énergie.

Test de terrain de 100 AV: déploiement de RL à grande échelle

Nos 100 voitures se sont garées dans notre centre opérationnel pendant la semaine de l’expérience.

Compte tenu des résultats de simulation prometteurs, l’étape naturelle naturelle était de combler l’écart de la simulation à l’autoroute. Nous avons pris les contrôleurs RL qualifiés et les avons déployés sur 100 véhicules sur l’I-24 pendant les heures de pointe de la circulation sur plusieurs jours. Cette expérience à grande échelle, que nous avons appelée le Megavandest, est la plus grande expérience de lisse de trafic à l’autonomie mixte jamais menée.

Avant de déployer des contrôleurs RL sur le terrain, nous les avons formés et évalués largement dans la simulation et les avons validés sur le matériel. Dans l’ensemble, les étapes vers le déploiement concernaient:

  • Formation dans les simulations basées sur les données: Nous avons utilisé des données sur le trafic routier de l’I-24 pour créer un environnement de formation avec une dynamique des vagues réaliste, puis valider les performances et la robustesse de l’agent formé dans une variété de nouveaux scénarios de trafic.
  • Déploiement sur matériel: Après avoir été validé dans le logiciel de robotique, le contrôleur qualifié est téléchargé sur la voiture et est capable de contrôler la vitesse définie du véhicule. Nous opérons via le régulateur de vitesse embarqué du véhicule, qui agit comme un contrôleur de sécurité de niveau inférieur.
  • Cadre de contrôle modulaire: Un défi clé pendant le test était de ne pas avoir accès aux capteurs d’information du véhicule leader. Pour surmonter cela, le contrôleur RL a été intégré dans un système hiérarchique, le MegaController, qui combine un guide de planificateur de vitesse qui tient compte des conditions de trafic en aval, avec le contrôleur RL en tant que décideur final.
  • Validation sur le matériel: Les agents de RL ont été conçus pour fonctionner dans un environnement où la plupart des véhicules étaient axés sur l’homme, nécessitant des politiques robustes qui s’adaptent à un comportement imprévisible. Nous vérifions cela en conduisant les véhicules contrôlés par RL sur la route sous une supervision humaine minutieuse, apportant des modifications au contrôle en fonction des commentaires.
Chacune des 100 voitures est connectée à un Raspberry Pi, sur lequel le contrôleur RL (un petit réseau de neurones) est déployé.
Le contrôleur RL contrôle directement le système de régulateur de vitesse adaptatif (ACC) embarqué, réglant sa vitesse et la distance suivante.

Une fois validés, les contrôleurs RL ont été déployés sur 100 voitures et conduits sur la I-24 pendant les heures de pointe du matin. Le trafic environnant n’était pas au courant de l’expérience, assurant un comportement conducteur impartial. Les données ont été collectées au cours de l’expérience à partir de dizaines de caméras aériennes placées le long de l’autoroute, ce qui a conduit à l’extraction de millions de trajectoires individuelles de véhicule via un pipeline de vision par ordinateur. Les métriques calculées sur ces trajectoires indiquent une tendance à la réduction de la consommation de carburant autour des AV, comme prévu des résultats de simulation et des déploiements de validation plus petits précédents. Par exemple, nous pouvons observer que plus les personnes se rapprochent derrière nos AV, moins ils semblent consommer en moyenne (qui est calculé à l’aide d’un modèle d’énergie calibré):


La consommation moyenne de carburant en fonction de la distance derrière l’AV engagée à RL engagée le plus proche dans le trafic en aval. À mesure que les conducteurs humains s’éloignent derrière AVS, leur consommation de carburant moyenne augmente.

Une autre façon de mesurer l’impact est de mesurer la variance des vitesses et des accélérations: plus la variance est faible, moins les ondes devraient avoir d’amplitude, ce que nous observons à partir des données de test sur le terrain. Dans l’ensemble, bien que l’obtention de mesures précises à partir d’une grande quantité de données vidéo sur la caméra soit compliquée, nous observons une tendance de 15 à 20% des économies d’énergie autour de nos voitures contrôlées.


Les points de données de tous les véhicules de l’autoroute sur une seule journée de l’expérience, tracés dans l’espace d’accélération de vitesse. Le cluster à gauche de la ligne rouge représente la congestion, tandis que celui à droite correspond à un flux libre. Nous observons que le cluster de congestion est plus petit lorsque des AV sont présents, tels que mesurés en calculant la zone d’une enveloppe convexe douce ou en montrant un noyau gaussien.

Réflexions finales

Le test opérationnel de 100 voitures a été décentralisé, sans coopération ni communication explicite entre AV, reflétant le déploiement d’autonomie actuel et nous rapprochant des autoroutes plus lisses et plus économes en énergie. Pourtant, il y a encore un grand potentiel d’amélioration. La mise à l’échelle des simulations pour être plus rapide et plus précise avec de meilleurs modèles de conduite humaine est crucial pour combler l’écart de simulation à la réalité. L’équipement AVS de données de trafic supplémentaires, que ce soit par des capteurs avancés ou une planification centralisée, pourrait améliorer encore les performances des contrôleurs. Par exemple, bien que la RL multi-agents soit prometteuse pour améliorer les stratégies de contrôle coopératif, il reste une question ouverte comment l’activation de la communication explicite entre les réseaux AVS sur la 5G pourrait améliorer encore la stabilité et atténuer davantage les vagues d’arrêt et de go. Surtout, nos contrôleurs s’intègrent parfaitement aux systèmes existants du régulateur de vitesse adaptatif (ACC), ce qui rend le déploiement sur le terrain possible à grande échelle. Plus il y a de véhicules équipés d’un contrôle intelligent des lisses de circulation, moins nous verrons de vagues sur nos routes, ce qui signifie moins de pollution et d’économies de carburant pour tout le monde!


De nombreux contributeurs ont participé à la réalisation de The Megavandestrest! La liste complète est disponible sur le Projet de cercles Page, ainsi que plus de détails sur le projet.

En savoir plus: (papier)



Source link

Related post