《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 设计应用 > 交通场景下基于深度强化学习的感知型路径分配算法
交通场景下基于深度强化学习的感知型路径分配算法
信息技术与网络安全 6期
曹 欢
(中国科学技术大学 信息科学技术学院,安徽 合肥230026)
摘要: 路径分配问题是交通数字孪生系统的重要研究方向之一,其重点是综合考量行驶需求的动态变化以及路网信息的实时改变,实现高效合理的路径规划。现阶段一些经典的分配算法如粒子群、Dijkstra等算法及其优化模型仅能达到全局静态最优,忽略了现实交通中的复杂变化。而逐渐推出的各种深度学习算法虽能进行全面的时空预测,但受限于海量历史数据的归纳分析以及较高的运算成本,难以大规模应用。鉴于此,提出了一种静态分配算法与深度强化学习算法结合的感知型路径分配算法,在行驶中依据实时路网信息和车辆当前状态,实现全局路径动态再分配及更新,相关算法的精度和效率在仿真实验中得到验证。
中圖分類號(hào): TP181
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2022.06.008
引用格式: 曹歡. 交通場(chǎng)景下基于深度強(qiáng)化學(xué)習(xí)的感知型路徑分配算法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2022,41(6):43-49.
Perceptual path allocation algorithm based on deep reinforcement learning in traffic scene
Cao Huan
(School of Information Science and Technology,University of Science and Technology of China,Hefei 230026,China)
Abstract: Path allocation problem is one of the important research directions of traffic digital twin system. Its focus is to comprehensively consider the dynamic changes of driving demand and the real-time changes of road network information, so as to realize efficient and reasonable path planning. At present, some classical allocation algorithms such as particle swarm optimization, Dijkstra and their optimization models can only achieve global static optimization, ignoring the complex changes in real traffic. Although various depth learning algorithms gradually introduced can carry out comprehensive spatio-temporal prediction, they are difficult to be applied on a large scale due to the inductive analysis of massive historical data and high operation cost. In view of this, this paper proposes a perceptual path allocation algorithm based on the combination of static allocation algorithm and deep reinforcement learning algorithm. During driving, the global path is dynamically redistributed and updated according to the real-time road network information and the current state of vehicles. The accuracy and efficiency of the proposed algorithm are verified in the simulation experiment.
Key words : path allocation;deep reinforcement learning;road network;traffic perception

0 引言

目前我國(guó)交通環(huán)境日益復(fù)雜,現(xiàn)有交通體系的服務(wù)能力難以滿足城市居民的出行期望,城市面臨日益嚴(yán)峻的交通管理挑戰(zhàn)。研究者們希望借助交通數(shù)字孿生技術(shù),通過(guò)數(shù)據(jù)驅(qū)動(dòng)、精準(zhǔn)建模,實(shí)現(xiàn)交通的模擬、預(yù)測(cè)診斷和優(yōu)化[1]。然而在交通仿真模擬層次,現(xiàn)有的路徑分配模塊不能反映出現(xiàn)實(shí)交通的多變狀況。在人-車-路的核心體系中,天氣氣候、交通管制、突發(fā)事故等影響因子將時(shí)刻影響駕駛員的判斷以及路網(wǎng)的狀態(tài)[2]。

在當(dāng)前的交通數(shù)字孿生系統(tǒng)中,現(xiàn)有的路徑分配方法主要分為兩類,第一類為用于實(shí)現(xiàn)靜態(tài)全局路徑最優(yōu)的傳統(tǒng)算法,如經(jīng)典的蟻群算法、Floyd算法、A-Star、粒子群算法、Dijkstra及其改進(jìn)算法等,本質(zhì)為基于圖論中重要的最短路徑問(wèn)題所提出的各種方案,也即在一個(gè)加權(quán)有向圖中,按一定要求尋找一條權(quán)重總和最短的路徑[3]。如Xu[4]等基于二叉樹(shù)結(jié)構(gòu),通過(guò)雙向搜索方法加快搜索效率,作為A-Star改進(jìn)算法;Lee[5]等基于遺傳算法實(shí)現(xiàn)蟻群算法中的參數(shù)調(diào)節(jié)優(yōu)化。在路網(wǎng)信息發(fā)生變化時(shí),該類算法難以做出及時(shí)反饋。如果需要滿足動(dòng)態(tài)路徑規(guī)劃的需求,則需要施加額外的更新優(yōu)化和重規(guī)劃?rùn)C(jī)制。第二類指的是通過(guò)機(jī)器學(xué)習(xí)、時(shí)空神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等技術(shù)來(lái)實(shí)現(xiàn)路徑分配。這一類更加強(qiáng)調(diào)數(shù)據(jù)的搜集、分析和處理,通過(guò)提取海量歷史數(shù)據(jù)的價(jià)值信息,為解決路徑規(guī)劃問(wèn)題提供了一個(gè)新的思路[6]。

本文的中心工作是研究了一種基于傳統(tǒng)路徑算法與深度強(qiáng)化學(xué)習(xí)的感知型路徑分配算法,首先通過(guò)改進(jìn)版Dijkstra算法為所有車輛分配初始路徑,路網(wǎng)中的車輛在不斷感知當(dāng)前位置、行駛軌跡以及目標(biāo)路網(wǎng)中各路段的車流等信息后,通過(guò)DDQN(Double DQN)將自動(dòng)選擇是否重新進(jìn)行全局的路徑規(guī)劃,實(shí)現(xiàn)路徑更新。與現(xiàn)有的經(jīng)典路徑規(guī)劃方法相比,本文提出的規(guī)劃方案填補(bǔ)了傳統(tǒng)模型在路況變化下的泛化性、拓展性不足,優(yōu)化了深度學(xué)習(xí)型方法的資源損耗,同時(shí)基于強(qiáng)化學(xué)習(xí)模型在長(zhǎng)期收益方面的優(yōu)越性,本文模型更加滿足路徑分配模型對(duì)當(dāng)今城市路網(wǎng)交通出行的各種需求。




本文詳細(xì)內(nèi)容請(qǐng)下載http://m.ihrv.cn/resource/share/2000004534





作者信息:

曹  歡

(中國(guó)科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥230026)




微信圖片_20210517164139.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容