強(qiáng)化學(xué)習(xí)樣本效率理論研究
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP181
【圖文】:
圖1.1本文組織結(jié)構(gòu)。逡逑工作中得到的一些中間結(jié)果進(jìn)行推廣,通過這些結(jié)果指出強(qiáng)化學(xué)習(xí)算法對(duì)逡逑于狀態(tài)價(jià)值的估計(jì)值所服從的概率分布具有非零偏態(tài)特性,且不同狀態(tài)價(jià)逡逑值可以具有不同的偏態(tài),如果結(jié)果為正偏態(tài),則導(dǎo)致價(jià)值容易被低估,如果逡逑為負(fù)偏態(tài),則容易被高估。這對(duì)于算法正確判斷狀態(tài)價(jià)值之間優(yōu)劣關(guān)系造逡逑成了嚴(yán)重干擾;干擾越強(qiáng),問題就越難,算法也就越需要更多數(shù)據(jù)來排除逡逑這些干擾。我們推導(dǎo)出了估計(jì)價(jià)值偏態(tài)的方向與尺度的數(shù)學(xué)表達(dá)式,由此逡逑找出了影響這些特性的決定性因素,并依此提出了一些針對(duì)性的措施,以逡逑幫助降低偏態(tài)現(xiàn)象造成的干擾,間接地提高算法的樣本效率。最后,我們逡逑通過一些實(shí)驗(yàn)結(jié)果來對(duì)我們的分析進(jìn)行了補(bǔ)充。逡逑1.4本文的組織結(jié)構(gòu)逡逑本文組織結(jié)構(gòu)如圖U所示。逡逑1紹了強(qiáng)習(xí)的研景,述了文的主要工。第逡逑
強(qiáng)化學(xué)習(xí)有著更強(qiáng)的自動(dòng)性、通用性。逡逑強(qiáng)化學(xué)習(xí)過程中最為重要的部分在于智能體(Agent)與環(huán)境(Environment)逡逑之間的交互。這里智能體是對(duì)學(xué)習(xí)算法和使用學(xué)習(xí)算法的主體的抽象,而環(huán)境則逡逑是對(duì)所有會(huì)與智能體進(jìn)行交互的要素的抽象概括。舉例來說,假如我們希望設(shè)計(jì)逡逑.一個(gè)人工智能來讓機(jī)器人通過強(qiáng)化學(xué)習(xí)學(xué)會(huì)“對(duì)咖啡豆進(jìn)行研磨”這樣的技能,逡逑那么搭載了強(qiáng)化學(xué)習(xí)算法的機(jī)器人從整體上可以視為是一個(gè)智能體,而咖啡豆,逡逑研磨器,放著咖啡豆與研磨器的桌子,機(jī)器人所處的房間,重力,空氣等等所有逡逑不屬于智能體本身的要素都可以視為是環(huán)境的一部分。逡逑這里需要注意的是,智能體與環(huán)境之間的分界線取決于強(qiáng)化學(xué)習(xí)算法所處逡逑的問題層次。比如對(duì)于機(jī)器人研磨咖啡豆問題,如果強(qiáng)化學(xué)習(xí)算法位于較為宏觀逡逑的層次,負(fù)責(zé)機(jī)器人在房間里的移動(dòng)、尋找咖啡豆與研磨器的位置、將咖啡豆倒逡逑入研磨器等高層決策,那么就如上述那樣,機(jī)器人整體可視為問題中的智能體。逡逑然而如果強(qiáng)化學(xué)習(xí)算法被作為一個(gè)底層控制算法來使用,負(fù)責(zé)控制機(jī)器人所有逡逑的傳感器與舵機(jī),那么這些傳感器與舵機(jī)也可以視為是環(huán)境的一部分,而智能體逡逑邐邐邐邋邐
有取自DeardenetaU69]的“旗幟”和Leffleretal.["]的“陷阱”要素。智能體在逡逑復(fù)合迷宮中的學(xué)習(xí)任務(wù)是找到一個(gè)策略,使之能夠從起點(diǎn)出發(fā)用盡量少的步數(shù)逡逑收集所有旗幟,安全地到達(dá)終點(diǎn),同時(shí)避開所有陷阱。圖3.1給出了一些復(fù)合迷逡逑宮問題實(shí)例。逡逑復(fù)合迷宮的具體設(shè)置如下。環(huán)境的狀態(tài)表示為s=邋(pos,flag1,flag2,...,flagfc),逡逑其中pos表不智能體所處格子編號(hào),flagi,…,flagfc分別表不編號(hào)為1,邋...,A:的旗巾只逡逑是否己經(jīng)獲得。智能體從標(biāo)有S的起始位置開始學(xué)習(xí)過程,此時(shí)沒有任何旗幟。逡逑在每一步交互中,智能體必須從上下左右四個(gè)方向中選擇一個(gè),做出相應(yīng)移動(dòng)逡逑動(dòng)作。當(dāng)智能體選擇一個(gè)動(dòng)作后,其位置有p的概率向相應(yīng)位置移動(dòng)一格,而有逡逑1-P的概率“滑”到與該方向垂直的兩個(gè)方向的相鄰格子之一上。舉例來說,如逡逑果智能體選擇向上移動(dòng),那么其位置將以p概率變?yōu)樯戏较噜徃,以0.5(1邋-邋p)逡逑概率變(yōu)樽蠓较噜徃?
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 老舍;;中國民眾的生氣[J];中文自修;2008年Z1期
2 ;See art,Love art,Buy art——ART HK低谷中備受關(guān)注[J];東方藝術(shù);2009年11期
3 Richard Chace;王惠生;;美國物理電子安全行業(yè)產(chǎn)品和服務(wù)需求規(guī)模[J];中國安防;2007年Z1期
4 ;聲音[J];東方收藏;2011年06期
5 胡;;○ILFC訂購大批B737[J];民航經(jīng)濟(jì)與技術(shù);1995年09期
6 彭正琪;估價(jià)入帳固定資產(chǎn)折舊調(diào)整之淺見[J];上海會(huì)計(jì);1992年01期
7 趙文源;;ZD Micron網(wǎng)上聯(lián)合辦大學(xué) 經(jīng)銷商用戶免費(fèi)學(xué)習(xí)一年[J];每周電腦報(bào);1999年01期
8 薛業(yè)清;企業(yè)揚(yáng)名策略評(píng)析[J];化工管理;1996年02期
9 T.L.Stanley;許楊晶晶;;與星共舞[J];成功營銷;2010年04期
10 ;Lucent海底布線 賬上收錢[J];每周電腦報(bào);1998年21期
相關(guān)重要報(bào)紙文章 前1條
1 齊繼成 譯;印度藥品出口迅猛增長[N];醫(yī)藥導(dǎo)報(bào)(中藥報(bào));2003年
相關(guān)博士學(xué)位論文 前1條
1 張良鵬;強(qiáng)化學(xué)習(xí)樣本效率理論研究[D];中國科學(xué)技術(shù)大學(xué);2018年
相關(guān)碩士學(xué)位論文 前1條
1 潘瑤;晚清廣州外銷畫的貿(mào)易、生產(chǎn)及訂件[D];中央美術(shù)學(xué)院;2009年
本文編號(hào):2770511
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2770511.html