基于強(qiáng)化學(xué)習(xí)的自動(dòng)泊車運(yùn)動(dòng)規(guī)劃
發(fā)布時(shí)間:2022-01-05 21:12
自動(dòng)泊車運(yùn)動(dòng)規(guī)劃需滿足安全性、舒適性、最終泊車位姿等多目標(biāo)最優(yōu)。提出一種基于模型的強(qiáng)化學(xué)習(xí)運(yùn)動(dòng)規(guī)劃方法,以最大限度擺脫人類泊車經(jīng)驗(yàn),并綜合考慮上述需求。建立了用于逼近實(shí)車的仿真模型;構(gòu)建了基于加速度和距離控制的縱向策略;基于蒙特卡洛樹搜索和神經(jīng)網(wǎng)絡(luò),結(jié)合構(gòu)建的縱向策略強(qiáng)化學(xué)習(xí),最終收斂得到最優(yōu)的泊車策略,迭代過程中的獎(jiǎng)勵(lì)函數(shù)綜合考慮安全性、舒適性及最終泊車位姿等因素;通過實(shí)車實(shí)驗(yàn)對(duì)獲得的泊車策略進(jìn)行了驗(yàn)證。結(jié)果表明,規(guī)劃策略能夠滿足對(duì)安全性、舒適性、最終泊車位姿等多目標(biāo)最優(yōu)的需求。
【文章來源】:同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019,47(S1)北大核心EICSCD
【文章頁數(shù)】:5 頁
【部分圖文】:
平行泊車庫位模型
泊車策略強(qiáng)化學(xué)習(xí)系統(tǒng)架構(gòu)圖見圖2。每次數(shù)據(jù)迭代分3個(gè)階段:(1)產(chǎn)生數(shù)據(jù)階段,基于MCTS(Monte Carlo tree search)和訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò),結(jié)合車速策略控制車輛模型,針對(duì)不同工況(不同庫位及起始位姿)仿真,產(chǎn)生泊車數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)為MCTS提供不同轉(zhuǎn)角的概率分布,引導(dǎo)搜索過程。模擬過程中,MCTS兼顧神經(jīng)網(wǎng)絡(luò)的引導(dǎo)與一定的隨機(jī)探索。(2)評(píng)價(jià)數(shù)據(jù)階段,利用構(gòu)建的獎(jiǎng)勵(lì)函數(shù)評(píng)價(jià)泊車數(shù)據(jù)質(zhì)量。獎(jiǎng)勵(lì)函數(shù)綜合考慮安全性、舒適性以及最終泊車位姿等因素,最終,篩選出各仿真工況下泊車質(zhì)量最佳的數(shù)據(jù)。(3)更新網(wǎng)絡(luò)階段,利用篩選的質(zhì)量最優(yōu)的數(shù)據(jù)更新網(wǎng)絡(luò)參數(shù)。該更新的網(wǎng)絡(luò)又用到下一次迭代產(chǎn)生數(shù)據(jù)中,從而為MCTS提供更強(qiáng)的搜索引導(dǎo)。這樣使得產(chǎn)生的泊車數(shù)據(jù)質(zhì)量不斷提升,學(xué)習(xí)到的泊車策略不斷增強(qiáng),最終收斂到最優(yōu),從而達(dá)到自主學(xué)習(xí)的目的。
安全是對(duì)泊車系統(tǒng)最基本的要求。因此,安全性在獎(jiǎng)勵(lì)函數(shù)中應(yīng)該被賦予足夠的權(quán)重。圖4為平行泊車場景示意圖,入庫過程中,組成庫位邊界的前車左側(cè)和后側(cè)以及兩條邊的交點(diǎn)(即左后角點(diǎn))為容易發(fā)生碰撞的區(qū)域。設(shè)置安全距離dsafe,即圖4中曲線所包圍的區(qū)域?yàn)榕鲎矃^(qū)域。若車輛進(jìn)入該區(qū)域,即賦予很大的懲罰值;否則,該項(xiàng)值為0。3.1.2 入庫最終位姿指標(biāo)
【參考文獻(xiàn)】:
期刊論文
[1]自主泊車系統(tǒng)研究綜述[J]. 石天聰,劉雪,余政濤. 汽車實(shí)用技術(shù). 2021(09)
[2]基于改進(jìn)深度強(qiáng)化學(xué)習(xí)的自動(dòng)泊車路徑規(guī)劃[J]. 陳鑫,蘭鳳崇,陳吉清. 重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)). 2021(07)
博士論文
[1]自主泊車的最優(yōu)軌跡規(guī)劃與跟蹤控制研究[D]. 吳冰.合肥工業(yè)大學(xué) 2021
碩士論文
[1]基于多信息融合的自動(dòng)泊車控制系統(tǒng)研究[D]. 曾虹鈞.西安科技大學(xué) 2020
本文編號(hào):3571084
【文章來源】:同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019,47(S1)北大核心EICSCD
【文章頁數(shù)】:5 頁
【部分圖文】:
平行泊車庫位模型
泊車策略強(qiáng)化學(xué)習(xí)系統(tǒng)架構(gòu)圖見圖2。每次數(shù)據(jù)迭代分3個(gè)階段:(1)產(chǎn)生數(shù)據(jù)階段,基于MCTS(Monte Carlo tree search)和訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò),結(jié)合車速策略控制車輛模型,針對(duì)不同工況(不同庫位及起始位姿)仿真,產(chǎn)生泊車數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)為MCTS提供不同轉(zhuǎn)角的概率分布,引導(dǎo)搜索過程。模擬過程中,MCTS兼顧神經(jīng)網(wǎng)絡(luò)的引導(dǎo)與一定的隨機(jī)探索。(2)評(píng)價(jià)數(shù)據(jù)階段,利用構(gòu)建的獎(jiǎng)勵(lì)函數(shù)評(píng)價(jià)泊車數(shù)據(jù)質(zhì)量。獎(jiǎng)勵(lì)函數(shù)綜合考慮安全性、舒適性以及最終泊車位姿等因素,最終,篩選出各仿真工況下泊車質(zhì)量最佳的數(shù)據(jù)。(3)更新網(wǎng)絡(luò)階段,利用篩選的質(zhì)量最優(yōu)的數(shù)據(jù)更新網(wǎng)絡(luò)參數(shù)。該更新的網(wǎng)絡(luò)又用到下一次迭代產(chǎn)生數(shù)據(jù)中,從而為MCTS提供更強(qiáng)的搜索引導(dǎo)。這樣使得產(chǎn)生的泊車數(shù)據(jù)質(zhì)量不斷提升,學(xué)習(xí)到的泊車策略不斷增強(qiáng),最終收斂到最優(yōu),從而達(dá)到自主學(xué)習(xí)的目的。
安全是對(duì)泊車系統(tǒng)最基本的要求。因此,安全性在獎(jiǎng)勵(lì)函數(shù)中應(yīng)該被賦予足夠的權(quán)重。圖4為平行泊車場景示意圖,入庫過程中,組成庫位邊界的前車左側(cè)和后側(cè)以及兩條邊的交點(diǎn)(即左后角點(diǎn))為容易發(fā)生碰撞的區(qū)域。設(shè)置安全距離dsafe,即圖4中曲線所包圍的區(qū)域?yàn)榕鲎矃^(qū)域。若車輛進(jìn)入該區(qū)域,即賦予很大的懲罰值;否則,該項(xiàng)值為0。3.1.2 入庫最終位姿指標(biāo)
【參考文獻(xiàn)】:
期刊論文
[1]自主泊車系統(tǒng)研究綜述[J]. 石天聰,劉雪,余政濤. 汽車實(shí)用技術(shù). 2021(09)
[2]基于改進(jìn)深度強(qiáng)化學(xué)習(xí)的自動(dòng)泊車路徑規(guī)劃[J]. 陳鑫,蘭鳳崇,陳吉清. 重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)). 2021(07)
博士論文
[1]自主泊車的最優(yōu)軌跡規(guī)劃與跟蹤控制研究[D]. 吳冰.合肥工業(yè)大學(xué) 2021
碩士論文
[1]基于多信息融合的自動(dòng)泊車控制系統(tǒng)研究[D]. 曾虹鈞.西安科技大學(xué) 2020
本文編號(hào):3571084
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3571084.html
最近更新
教材專著