天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

強(qiáng)化學(xué)習(xí)樣本效率理論研究

發(fā)布時(shí)間:2020-07-26 08:07
【摘要】:強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)主要分支,主要研究如何讓智能體從與環(huán)境的交互中推斷出最優(yōu)控制決策。目前的強(qiáng)化學(xué)習(xí)算法往往需要大量的交互數(shù)據(jù)才能達(dá)到良好的學(xué)習(xí)效果,這限制了己有技術(shù)在交互數(shù)據(jù)較為昂貴的實(shí)際問題中的應(yīng)用。為減少強(qiáng)化學(xué)習(xí)對(duì)于數(shù)據(jù)量的高度依賴,我們需要對(duì)相關(guān)算法的樣本效率有更深入的了解。己有的理論分析雖然能夠一定程度上刻畫出算法、問題實(shí)例與樣本效率之間的關(guān)系,然而其分析結(jié)果過于針對(duì)最難問題實(shí)例,對(duì)于一般難易度的問題上的樣本效率則無法給出足夠精確的預(yù)測。這就導(dǎo)致已有理論結(jié)果很難用來幫助使用者和研究者比較、挑選、設(shè)置、改善算法。本論文通過改善己有分析方法和提出新分析方法這兩種思路來嘗試得到能夠更好地預(yù)測實(shí)際情況的樣本效率理論。在第一個(gè)工作中,我們對(duì)于己有的PAC-MDP樣本復(fù)雜度分析方法進(jìn)行改善,提出停更樣本復(fù)雜度分析方法,以使之能夠更好地反映問題實(shí)例不同難易度對(duì)于算法樣本效率的影響。在此基礎(chǔ)之上,我們提出謹(jǐn)慎度逐增的樂觀原則,以改善已有的具有PAC-MDP理論保證的算法,使其在保持原有良好理論性質(zhì)的前提下,提高其實(shí)際樣本效率。我們使用停更樣本復(fù)雜度分析方法對(duì)改善后的算法進(jìn)行分析,指出它們?cè)诜亲铍y問題上比起原算法具有更好的理論樣本效率。實(shí)驗(yàn)結(jié)果顯示改善后的算法也具有更好的實(shí)際樣本效率,展現(xiàn)出我們的分析方法對(duì)于分析和改善算法的有效性。在第二個(gè)工作中,我們提出強(qiáng)化學(xué)習(xí)成功概率分析法,直接刻畫算法、具體問題實(shí)例、樣本效率之間的數(shù)學(xué)關(guān)系,以得出在同一問題上算法不同參數(shù)設(shè)置對(duì)于最終樣本效率的影響。我們對(duì)一個(gè)原型算法在鏈?zhǔn)組DP問題上的成功概率函數(shù)進(jìn)行逐層分解并詳細(xì)分析,給出算法成功找出良好策略的概率關(guān)于算法參數(shù)值和問題特性相關(guān)變量的具體數(shù)學(xué)表達(dá)式,并通過使用對(duì)數(shù)正態(tài)分布為成功概率給出了一個(gè)更易于計(jì)算的近似。實(shí)驗(yàn)結(jié)果表明我們的成功概率分析結(jié)果在鏈?zhǔn)組DP及迷宮MDP上以較高準(zhǔn)確度和精確度預(yù)測出了算法在不同參數(shù)設(shè)置下的實(shí)際樣本效率。在第三個(gè)工作中,我們深入分析導(dǎo)致同一算法在不同問題實(shí)例上樣本效率有高有低的關(guān)鍵因素,指出估計(jì)價(jià)值的偏態(tài)特性正是這樣一個(gè)因素。我們對(duì)第二個(gè)工作的一些結(jié)果進(jìn)行推廣,指出一個(gè)狀態(tài)價(jià)值估計(jì)值等于一系列路徑狀態(tài)價(jià)值的加權(quán)和,而路徑狀態(tài)價(jià)值服從對(duì)數(shù)正態(tài)分布。因此,狀態(tài)價(jià)值估計(jì)值服從的分布是一系列具有正偏態(tài)的對(duì)數(shù)正態(tài)分布與具有負(fù)偏態(tài)的“翻轉(zhuǎn)”對(duì)數(shù)正態(tài)分布的卷積,其最終偏態(tài)可正可負(fù),取決于兩組分布的綜合影響孰強(qiáng)孰弱。最終具有正偏態(tài)的估計(jì)價(jià)值有較高概率被低估,而具有負(fù)偏態(tài)的估計(jì)價(jià)值則有較高概率被高估,這對(duì)于算法正確判斷狀態(tài)價(jià)值優(yōu)劣關(guān)系造成嚴(yán)重干擾。我們推導(dǎo)出估計(jì)價(jià)值偏態(tài)的方向與尺度關(guān)于問題特性和樣本大小的數(shù)學(xué)表達(dá)式,并根據(jù)該結(jié)果指出一些能夠減小負(fù)面影響的措施。
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP181
【圖文】:

組織結(jié)構(gòu)圖,組織結(jié)構(gòu)


圖1.1本文組織結(jié)構(gòu)。逡逑工作中得到的一些中間結(jié)果進(jìn)行推廣,通過這些結(jié)果指出強(qiáng)化學(xué)習(xí)算法對(duì)逡逑于狀態(tài)價(jià)值的估計(jì)值所服從的概率分布具有非零偏態(tài)特性,且不同狀態(tài)價(jià)逡逑值可以具有不同的偏態(tài),如果結(jié)果為正偏態(tài),則導(dǎo)致價(jià)值容易被低估,如果逡逑為負(fù)偏態(tài),則容易被高估。這對(duì)于算法正確判斷狀態(tài)價(jià)值之間優(yōu)劣關(guān)系造逡逑成了嚴(yán)重干擾;干擾越強(qiáng),問題就越難,算法也就越需要更多數(shù)據(jù)來排除逡逑這些干擾。我們推導(dǎo)出了估計(jì)價(jià)值偏態(tài)的方向與尺度的數(shù)學(xué)表達(dá)式,由此逡逑找出了影響這些特性的決定性因素,并依此提出了一些針對(duì)性的措施,以逡逑幫助降低偏態(tài)現(xiàn)象造成的干擾,間接地提高算法的樣本效率。最后,我們逡逑通過一些實(shí)驗(yàn)結(jié)果來對(duì)我們的分析進(jìn)行了補(bǔ)充。逡逑1.4本文的組織結(jié)構(gòu)逡逑本文組織結(jié)構(gòu)如圖U所示。逡逑1紹了強(qiáng)習(xí)的研景,述了文的主要工。第逡逑

交互過程,咖啡豆,機(jī)器人


強(qiáng)化學(xué)習(xí)有著更強(qiáng)的自動(dòng)性、通用性。逡逑強(qiáng)化學(xué)習(xí)過程中最為重要的部分在于智能體(Agent)與環(huán)境(Environment)逡逑之間的交互。這里智能體是對(duì)學(xué)習(xí)算法和使用學(xué)習(xí)算法的主體的抽象,而環(huán)境則逡逑是對(duì)所有會(huì)與智能體進(jìn)行交互的要素的抽象概括。舉例來說,假如我們希望設(shè)計(jì)逡逑.一個(gè)人工智能來讓機(jī)器人通過強(qiáng)化學(xué)習(xí)學(xué)會(huì)“對(duì)咖啡豆進(jìn)行研磨”這樣的技能,逡逑那么搭載了強(qiáng)化學(xué)習(xí)算法的機(jī)器人從整體上可以視為是一個(gè)智能體,而咖啡豆,逡逑研磨器,放著咖啡豆與研磨器的桌子,機(jī)器人所處的房間,重力,空氣等等所有逡逑不屬于智能體本身的要素都可以視為是環(huán)境的一部分。逡逑這里需要注意的是,智能體與環(huán)境之間的分界線取決于強(qiáng)化學(xué)習(xí)算法所處逡逑的問題層次。比如對(duì)于機(jī)器人研磨咖啡豆問題,如果強(qiáng)化學(xué)習(xí)算法位于較為宏觀逡逑的層次,負(fù)責(zé)機(jī)器人在房間里的移動(dòng)、尋找咖啡豆與研磨器的位置、將咖啡豆倒逡逑入研磨器等高層決策,那么就如上述那樣,機(jī)器人整體可視為問題中的智能體。逡逑然而如果強(qiáng)化學(xué)習(xí)算法被作為一個(gè)底層控制算法來使用,負(fù)責(zé)控制機(jī)器人所有逡逑的傳感器與舵機(jī),那么這些傳感器與舵機(jī)也可以視為是環(huán)境的一部分,而智能體逡逑邐邐邐邋邐

格子,陷阱,迷宮,灰色


有取自DeardenetaU69]的“旗幟”和Leffleretal.["]的“陷阱”要素。智能體在逡逑復(fù)合迷宮中的學(xué)習(xí)任務(wù)是找到一個(gè)策略,使之能夠從起點(diǎn)出發(fā)用盡量少的步數(shù)逡逑收集所有旗幟,安全地到達(dá)終點(diǎn),同時(shí)避開所有陷阱。圖3.1給出了一些復(fù)合迷逡逑宮問題實(shí)例。逡逑復(fù)合迷宮的具體設(shè)置如下。環(huán)境的狀態(tài)表示為s=邋(pos,flag1,flag2,...,flagfc),逡逑其中pos表不智能體所處格子編號(hào),flagi,…,flagfc分別表不編號(hào)為1,邋...,A:的旗巾只逡逑是否己經(jīng)獲得。智能體從標(biāo)有S的起始位置開始學(xué)習(xí)過程,此時(shí)沒有任何旗幟。逡逑在每一步交互中,智能體必須從上下左右四個(gè)方向中選擇一個(gè),做出相應(yīng)移動(dòng)逡逑動(dòng)作。當(dāng)智能體選擇一個(gè)動(dòng)作后,其位置有p的概率向相應(yīng)位置移動(dòng)一格,而有逡逑1-P的概率“滑”到與該方向垂直的兩個(gè)方向的相鄰格子之一上。舉例來說,如逡逑果智能體選擇向上移動(dòng),那么其位置將以p概率變?yōu)樯戏较噜徃,以0.5(1邋-邋p)逡逑概率變(yōu)樽蠓较噜徃?

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 老舍;;中國民眾的生氣[J];中文自修;2008年Z1期

2 ;See art,Love art,Buy art——ART HK低谷中備受關(guān)注[J];東方藝術(shù);2009年11期

3 Richard Chace;王惠生;;美國物理電子安全行業(yè)產(chǎn)品和服務(wù)需求規(guī)模[J];中國安防;2007年Z1期

4 ;聲音[J];東方收藏;2011年06期

5 胡;;○ILFC訂購大批B737[J];民航經(jīng)濟(jì)與技術(shù);1995年09期

6 彭正琪;估價(jià)入帳固定資產(chǎn)折舊調(diào)整之淺見[J];上海會(huì)計(jì);1992年01期

7 趙文源;;ZD Micron網(wǎng)上聯(lián)合辦大學(xué) 經(jīng)銷商用戶免費(fèi)學(xué)習(xí)一年[J];每周電腦報(bào);1999年01期

8 薛業(yè)清;企業(yè)揚(yáng)名策略評(píng)析[J];化工管理;1996年02期

9 T.L.Stanley;許楊晶晶;;與星共舞[J];成功營銷;2010年04期

10 ;Lucent海底布線 賬上收錢[J];每周電腦報(bào);1998年21期

相關(guān)重要報(bào)紙文章 前1條

1 齊繼成 譯;印度藥品出口迅猛增長[N];醫(yī)藥導(dǎo)報(bào)(中藥報(bào));2003年

相關(guān)博士學(xué)位論文 前1條

1 張良鵬;強(qiáng)化學(xué)習(xí)樣本效率理論研究[D];中國科學(xué)技術(shù)大學(xué);2018年

相關(guān)碩士學(xué)位論文 前1條

1 潘瑤;晚清廣州外銷畫的貿(mào)易、生產(chǎn)及訂件[D];中央美術(shù)學(xué)院;2009年



本文編號(hào):2770511

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2770511.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶816de***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com