天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 領導決策論文 >

部分可觀察馬氏決策問題的近似規(guī)劃方法研究

發(fā)布時間:2023-04-02 14:20
  能否在不確定、動態(tài)環(huán)境下正確地決策,是衡量自主機器人性能好壞的一項重要指標。部分可觀察馬爾科夫決策過程(Partially Observable Markov Decision Processes,POMDPs)為自主機器人在不確定性環(huán)境中的規(guī)劃問題,提供了一個極富表達力的數(shù)學框架。POMDP現(xiàn)已在無人駕駛、機械臂操作等自主機器人任務中得到成功的應用。現(xiàn)有的處理連續(xù)空間POMDP規(guī)劃問題的方法常使用離散化來求解策略,該方法計算量大,效率偏低。本文為了解決連續(xù)空間中的POMDP規(guī)劃問題,提出三種新的算法:(1)針對連續(xù)狀態(tài)空間中現(xiàn)有算法使用離散化,將連續(xù)的狀態(tài)離散化為網(wǎng)格,導致算法性能低下的缺陷,提出一種面向連續(xù)空間POMDP問題的高效算法——GPG算法。該算法在狀態(tài)空間和相應的信念空間中抽樣,同時使用廣義策略圖和抽樣最大化方法,將算法推廣到連續(xù)觀察和連續(xù)動作空間。實驗結果表明,GPG算法收斂速度快且能獲得更優(yōu)的策略。(2)針對連續(xù)狀態(tài)空間中蒙特卡羅值迭代算法所得策略圖會隨著時間迅速增長,算法性能急劇降低的問題,提出一種優(yōu)化的連續(xù)狀態(tài)蒙特卡羅值迭代算法——OMVCI算法。該算法優(yōu)化新增結...

【文章頁數(shù)】:77 頁

【學位級別】:碩士

【文章目錄】:
中文摘要
abstract
第一章 引言
    1.1 研究背景及意義
    1.2 研究現(xiàn)狀
    1.3 研究內(nèi)容
    1.4 論文組織結構
第二章 背景知識
    2.1 馬爾科夫決策過程
    2.2 POMDP模型
    2.3 信念狀態(tài)
    2.4 值函數(shù)與最優(yōu)策略的計算方法
    2.5 POMDP的基本方法
        2.5.1 精確值迭代方法
        2.5.2 改進的Perseus算法
    2.6 本章小結
第三章 面向連續(xù)空間POMDP問題的高效算法
    3.1 策略圖
    3.2 面向連續(xù)空間POMDP問題的高效算法
        3.2.1 連續(xù)狀態(tài)空間的表示方法
        3.2.2 連續(xù)動作空間的表示方法
        3.2.3 連續(xù)觀察空間的表示方法
        3.2.4 GPG算法
        3.2.5 算法分析
    3.3 實驗及結果分析
        3.3.1 一維Corridor問題
        3.3.2 Intersection問題
        3.3.3 Navigation問題
    3.4 本章小結
第四章 優(yōu)化的連續(xù)狀態(tài)蒙特卡羅值迭代算法
    4.1 蒙特卡羅值迭代算法
        4.1.1 蒙特卡羅更新
        4.1.2 蒙特卡羅值迭代算法
    4.2 連續(xù)狀態(tài)POMDP問題的優(yōu)化算法
        4.2.1 OMCVI算法
        4.2.2 算法分析
    4.3 實驗及結果分析
        4.3.1 一維Corridor問題
        4.3.2 Music-Chair問題
    4.4 本章小結
第五章 連續(xù)狀態(tài)大規(guī)模觀察空間的銀杏葉搜索算法
    5.1 基于試驗的異步值迭代算法
        5.1.1 基于試驗的搜索和銀杏葉搜索
        5.1.2 HSVI2算法
        5.1.3 SARSOP算法
    5.2 連續(xù)狀態(tài)大規(guī)模觀察空間的銀杏葉搜索算法
        5.2.1 GLS算法
        5.2.2 算法分析
    5.3 實驗及結果分析
        5.3.1 Gantry Crane問題
    5.4 本章小結
第六章 總結與展望
    6.1 總結
    6.2 展望
參考文獻
攻讀碩士學位期間公開發(fā)表(錄用)的論文及參與的項目
    一、公開發(fā)表(錄用)的學術論文
    二、參加的科研項目
致謝



本文編號:3779374

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/lindaojc/3779374.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶18adf***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com