基于直接強化學習的面向目標的仿生導航模型
發(fā)布時間:2020-02-17 19:08
【摘要】:針對連續(xù)動作和狀態(tài)空間中面向目標的導航問題,依據(jù)海馬結(jié)構(gòu)中位置細胞相關(guān)特性和相關(guān)信息傳遞通路,構(gòu)建海馬位置細胞到前額葉皮層假設的動作細胞的脈沖神經(jīng)網(wǎng)絡模型.連續(xù)的狀態(tài)空間和動作空間分別由位置細胞和動作細胞進行表征,模型采用直接強化學習與脈沖響應模型相結(jié)合的算法進行面向目標的自主導航.在Morris水迷宮環(huán)境中的仿真實驗結(jié)果表明,該模型能夠解決連續(xù)狀態(tài)空間中面向目標導航問題,所采用算法在性能上優(yōu)于傳統(tǒng)的時間差分學習算法.調(diào)整網(wǎng)絡中動作細胞的數(shù)量,模型的收斂性能不變,在改變狀態(tài)空間和目標位置時,也可以實現(xiàn)面向目標的導航.
【圖文】:
I邐Delayed邋and邋weighted.邐i逡逑|邐postsynaptic邋potential^邋\邐|逡逑;/邋?邋■邋^邋^逡逑i邋/邐\邋Total邋potential邋Postsynaptic邋potentials逡逑Presynaptie/邐/邋\一邋|\邐A逡逑\邋i邐i邋/邐Stochastic邋threshold邋model逡逑:xs-?——^邐_逡逑Place邋cellj邐Delayed邋synaptic邐|邐Action邋cell逡逑圖2位置細胞到動作細胞突觸連接示意圖逡逑Figure邋2邋The邋sketch邋map邋of邋synaptic邋from邋place邋cells邋to邋action邋cells逡逑中為最大放龜設定為100邋Hz,邋(m,?)是當前位置、,a表示位置野的寬度.由(1)式可}當前逡逑位置可由位置細胞群聯(lián)合編碼,通過這種密集編碼方式,位置細胞對整個環(huán)境進行了表征.位置細胞逡逑被建模為Poisson神經(jīng)元,所以,瞬時放電率為巧的位置細胞在:無窮小的持續(xù)時間(At)產(chǎn)生脈沖的逡逑可能性為b6(spike)邋=邋e邋r邋(^At)邋?悐p._}0)大寧一個到1之_.均句分布的隨機懫樣逡逑值時,位置細胞產(chǎn)生一個脈沖.逡逑模型假設前額葉皮層中存在著代表動物運動方向的動作細胞丨action邋cells),將動作細胞構(gòu)建成環(huán)逡逑狀模型,不同于文獻[12,13,27],動作細胞之間不存在著橫向突觸連接.動作細胞被建模成脈沖響應模逡逑M邋(spikeiesponse:皿idel,SRM)邋_,位置細胞到動作細胞的突..觸信息傳遞示?Yj圖如畫2所示,動作細逡逑胞i的膜電位為逡
、、、、、逡逑14-邋-邋'邋一一、■逡逑12-邋:;;;:■邐/邋l^vw-逡逑s./Z/Z/H邋t邋t邋t\邋^邋H逡逑/邋/邋M邋/邐f邋f邋\邋\邋\逡逑\邐/邋M邋\邋\邋.逡逑/邋/邋#邐邐邐//f邋令、、逡逑4_.邋,/#邋令\\邋\邐爹邋\\\.逡逑//邋/邋/邋\\邋\^-邐\邋v\逡逑2.,、、--,,,方丨、?邐*■逡逑\邐\邐<邐\邐\邋V邋?邋V邋t邐\邋I逡逑0l邐'邐'邐'邐逡逑0邐5邐10邐15邐20逡逑圖10有障礙物環(huán)境中的導航地圖逡逑Figure邋10邋Navigation邋map邋with邋obstacle邋environment逡逑5結(jié)論逡逑本文根據(jù)海馬體到前額葉皮晨的生理學研究,,構(gòu)建位置細胞到假設動作細胞的脈沖神經(jīng)網(wǎng)絡模逡逑型,在無先驗知識的條件下,在連續(xù)的狀態(tài)和動作空間中進行面向g標位置的導航,其中,狀態(tài)空間由逡逑位置野構(gòu)成,動作空間由動作細胞所代表的運動方向表示.本文使用基于脈沖響應模型的宣接強化學逡逑習,調(diào)節(jié)位置細胞到動作細胞的突觸連接權(quán)構(gòu)成整個狀態(tài)空間的導航地圖.仿真實驗結(jié)果表明,該逡逑模型能夠有效的學習到連續(xù)狀態(tài)和動作空間面向S標位置的導航策略,所采用的方法在收斂性上優(yōu)于逡逑傳統(tǒng)的強化學習方法,在改變模型中位置細胞和動作細胞的數(shù)量、_目標位置以及在環(huán)境中加入障礙物逡逑后,模型也能夠有穩(wěn)定的表現(xiàn),能夠?qū)崿F(xiàn)在連續(xù)狀態(tài)和動作空_中的有效的學習和導航活動.逡逑模型采用脈沖神經(jīng)網(wǎng)絡,更加切合生物學事實,但也使得整個模型的計算鷥有所增加.仿真實驗逡逑中,初始位置和目標位置是隨機給定的二維坐標,使得模型輸入信息不是智能體完全自主探測所得.
本文編號:2580486
【圖文】:
I邐Delayed邋and邋weighted.邐i逡逑|邐postsynaptic邋potential^邋\邐|逡逑;/邋?邋■邋^邋^逡逑i邋/邐\邋Total邋potential邋Postsynaptic邋potentials逡逑Presynaptie/邐/邋\一邋|\邐A逡逑\邋i邐i邋/邐Stochastic邋threshold邋model逡逑:xs-?——^邐_逡逑Place邋cellj邐Delayed邋synaptic邐|邐Action邋cell逡逑圖2位置細胞到動作細胞突觸連接示意圖逡逑Figure邋2邋The邋sketch邋map邋of邋synaptic邋from邋place邋cells邋to邋action邋cells逡逑中為最大放龜設定為100邋Hz,邋(m,?)是當前位置、,a表示位置野的寬度.由(1)式可}當前逡逑位置可由位置細胞群聯(lián)合編碼,通過這種密集編碼方式,位置細胞對整個環(huán)境進行了表征.位置細胞逡逑被建模為Poisson神經(jīng)元,所以,瞬時放電率為巧的位置細胞在:無窮小的持續(xù)時間(At)產(chǎn)生脈沖的逡逑可能性為b6(spike)邋=邋e邋r邋(^At)邋?悐p._}0)大寧一個到1之_.均句分布的隨機懫樣逡逑值時,位置細胞產(chǎn)生一個脈沖.逡逑模型假設前額葉皮層中存在著代表動物運動方向的動作細胞丨action邋cells),將動作細胞構(gòu)建成環(huán)逡逑狀模型,不同于文獻[12,13,27],動作細胞之間不存在著橫向突觸連接.動作細胞被建模成脈沖響應模逡逑M邋(spikeiesponse:皿idel,SRM)邋_,位置細胞到動作細胞的突..觸信息傳遞示?Yj圖如畫2所示,動作細逡逑胞i的膜電位為逡
、、、、、逡逑14-邋-邋'邋一一、■逡逑12-邋:;;;:■邐/邋l^vw-逡逑s./Z/Z/H邋t邋t邋t\邋^邋H逡逑/邋/邋M邋/邐f邋f邋\邋\邋\逡逑\邐/邋M邋\邋\邋.逡逑/邋/邋#邐邐邐//f邋令、、逡逑4_.邋,/#邋令\\邋\邐爹邋\\\.逡逑//邋/邋/邋\\邋\^-邐\邋v\逡逑2.,、、--,,,方丨、?邐*■逡逑\邐\邐<邐\邐\邋V邋?邋V邋t邐\邋I逡逑0l邐'邐'邐'邐逡逑0邐5邐10邐15邐20逡逑圖10有障礙物環(huán)境中的導航地圖逡逑Figure邋10邋Navigation邋map邋with邋obstacle邋environment逡逑5結(jié)論逡逑本文根據(jù)海馬體到前額葉皮晨的生理學研究,,構(gòu)建位置細胞到假設動作細胞的脈沖神經(jīng)網(wǎng)絡模逡逑型,在無先驗知識的條件下,在連續(xù)的狀態(tài)和動作空間中進行面向g標位置的導航,其中,狀態(tài)空間由逡逑位置野構(gòu)成,動作空間由動作細胞所代表的運動方向表示.本文使用基于脈沖響應模型的宣接強化學逡逑習,調(diào)節(jié)位置細胞到動作細胞的突觸連接權(quán)構(gòu)成整個狀態(tài)空間的導航地圖.仿真實驗結(jié)果表明,該逡逑模型能夠有效的學習到連續(xù)狀態(tài)和動作空間面向S標位置的導航策略,所采用的方法在收斂性上優(yōu)于逡逑傳統(tǒng)的強化學習方法,在改變模型中位置細胞和動作細胞的數(shù)量、_目標位置以及在環(huán)境中加入障礙物逡逑后,模型也能夠有穩(wěn)定的表現(xiàn),能夠?qū)崿F(xiàn)在連續(xù)狀態(tài)和動作空_中的有效的學習和導航活動.逡逑模型采用脈沖神經(jīng)網(wǎng)絡,更加切合生物學事實,但也使得整個模型的計算鷥有所增加.仿真實驗逡逑中,初始位置和目標位置是隨機給定的二維坐標,使得模型輸入信息不是智能體完全自主探測所得.
本文編號:2580486
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2580486.html
最近更新
教材專著