基于強(qiáng)化學(xué)習(xí)的命名實(shí)體識(shí)別算法研究
發(fā)布時(shí)間:2020-12-25 09:38
文本信息是互聯(lián)網(wǎng)中海量數(shù)據(jù)的主要表現(xiàn)形式之一,也是人類目前獲取知識(shí)的最普遍途徑。這類數(shù)據(jù)往往表現(xiàn)出非結(jié)構(gòu)化和語(yǔ)義多樣化等特點(diǎn),因此對(duì)文本進(jìn)行知識(shí)抽取是自然語(yǔ)言處理技術(shù)的關(guān)鍵難題。命名實(shí)體識(shí)別就是信息抽取領(lǐng)域中一個(gè)基礎(chǔ)任務(wù),F(xiàn)有的命名實(shí)體識(shí)別模型可以分為基于統(tǒng)計(jì)的方法和基于深度學(xué)習(xí)的方法。前者需要人工抽取特征模板進(jìn)行模式匹配,后者主要通過(guò)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端的文本語(yǔ)義解析,從而實(shí)現(xiàn)自動(dòng)標(biāo)注。與此同時(shí),深度學(xué)習(xí)的發(fā)展增強(qiáng)了強(qiáng)化學(xué)習(xí)的表達(dá)能力,使其在游戲、控制系統(tǒng)上取得了一定的進(jìn)展。在這個(gè)背景下,本文主要研究了強(qiáng)化學(xué)習(xí)在命名實(shí)體識(shí)別任務(wù)上的應(yīng)用,主要工作如下:(1)針對(duì)標(biāo)注全局性的要求,本文設(shè)計(jì)了面向命名實(shí)體識(shí)別的馬爾科夫決策過(guò)程(MDP)。與Maes等人的工作不同在于:本文利用神經(jīng)網(wǎng)絡(luò)對(duì)MDP狀態(tài)進(jìn)行語(yǔ)義建模,改善了傳統(tǒng)MDP模型手工抽取特征的不足。在基于策略梯度求解的實(shí)驗(yàn)中,本文總結(jié)了算法的高方差、低經(jīng)驗(yàn)利用率等缺陷,進(jìn)一步提出了本文的核心問(wèn)題:如何求解MDP模型使其具有找到接近全局最優(yōu)標(biāo)注序列的能力?(2)針對(duì)(1)中的核心問(wèn)題,本文提出了新穎的基于策略價(jià)值網(wǎng)絡(luò)的模型,稱為MM-NE...
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1阿里小蜜信息處理流程圖⑴??習(xí)習(xí)監(jiān)習(xí)之一習(xí),它理??
征、停用訕特征、核心詞特征以及語(yǔ)義特征等;?統(tǒng)U?的模型主要以丨IMM、??MEMM和CRF為代表。這三者都屬于圖模型,其中HMM和MEMM為有向圖??模型,CRF則為無(wú)向圖模型,具體閣模型的對(duì)比見(jiàn)圖2-1。??〇^>〇?CK>-<p?0*9*9??000066660??HMM?MEMM?CRF??圖2-1?HMM,?MEMM和Li?near?GRF的圖糢型結(jié)構(gòu)對(duì)比圖??HMM適用于解決的問(wèn)題?般具有兩個(gè)特征:(1)問(wèn)題是越于序列的。(2)??問(wèn)題中存在兩類數(shù)據(jù),一類序列數(shù)據(jù)是可以觀測(cè)到的,記為可觀測(cè)序列X;另-???類數(shù)據(jù)是不可觀測(cè)的,記為隱藏狀態(tài)序列Y。HMM在基于齊次馬爾科夫鏈假設(shè)??和觀測(cè)獨(dú)立性的假設(shè)下對(duì)這兩類數(shù)據(jù)進(jìn)行建模。前者假設(shè)任意時(shí)刻的隱藏狀態(tài)只??依賴于它前?個(gè)時(shí)刻的隱藏狀態(tài),而后者假設(shè)任意時(shí)刻的可觀測(cè)序列儀僅依賴于??當(dāng)前時(shí)刻的隱藏狀態(tài)。因此模型在定義狀態(tài)轉(zhuǎn)移矩陣、發(fā)射矩陣和初始狀態(tài)分布??7??
折扣因子(DiscountFactor,y):表示主體對(duì)米來(lái)獎(jiǎng)勵(lì)的不確定性評(píng)估,其中??ye?[〇,1]。??主體和環(huán)境交互過(guò)程由圖2-6給出,主體在當(dāng)前狀態(tài)St卜根據(jù)當(dāng)前策略tt選??擇動(dòng)作At。環(huán)境在動(dòng)作At的影響下根據(jù)轉(zhuǎn)移概率P轉(zhuǎn)移到下一時(shí)刻的狀態(tài)St+1,??并將獎(jiǎng)勵(lì)Rt反饋給主體。??與監(jiān)督學(xué)習(xí)不同的是強(qiáng)化學(xué)習(xí)算法不再需要有標(biāo)簽的監(jiān)督。從模型求解方法??上看,強(qiáng)化學(xué)習(xí)模型主要分為基于價(jià)值函數(shù)的算法、基于策略的算法和同時(shí)學(xué)習(xí)??價(jià)值和策略的算法。??14??
本文編號(hào):2937396
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1阿里小蜜信息處理流程圖⑴??習(xí)習(xí)監(jiān)習(xí)之一習(xí),它理??
征、停用訕特征、核心詞特征以及語(yǔ)義特征等;?統(tǒng)U?的模型主要以丨IMM、??MEMM和CRF為代表。這三者都屬于圖模型,其中HMM和MEMM為有向圖??模型,CRF則為無(wú)向圖模型,具體閣模型的對(duì)比見(jiàn)圖2-1。??〇^>〇?CK>-<p?0*9*9??000066660??HMM?MEMM?CRF??圖2-1?HMM,?MEMM和Li?near?GRF的圖糢型結(jié)構(gòu)對(duì)比圖??HMM適用于解決的問(wèn)題?般具有兩個(gè)特征:(1)問(wèn)題是越于序列的。(2)??問(wèn)題中存在兩類數(shù)據(jù),一類序列數(shù)據(jù)是可以觀測(cè)到的,記為可觀測(cè)序列X;另-???類數(shù)據(jù)是不可觀測(cè)的,記為隱藏狀態(tài)序列Y。HMM在基于齊次馬爾科夫鏈假設(shè)??和觀測(cè)獨(dú)立性的假設(shè)下對(duì)這兩類數(shù)據(jù)進(jìn)行建模。前者假設(shè)任意時(shí)刻的隱藏狀態(tài)只??依賴于它前?個(gè)時(shí)刻的隱藏狀態(tài),而后者假設(shè)任意時(shí)刻的可觀測(cè)序列儀僅依賴于??當(dāng)前時(shí)刻的隱藏狀態(tài)。因此模型在定義狀態(tài)轉(zhuǎn)移矩陣、發(fā)射矩陣和初始狀態(tài)分布??7??
折扣因子(DiscountFactor,y):表示主體對(duì)米來(lái)獎(jiǎng)勵(lì)的不確定性評(píng)估,其中??ye?[〇,1]。??主體和環(huán)境交互過(guò)程由圖2-6給出,主體在當(dāng)前狀態(tài)St卜根據(jù)當(dāng)前策略tt選??擇動(dòng)作At。環(huán)境在動(dòng)作At的影響下根據(jù)轉(zhuǎn)移概率P轉(zhuǎn)移到下一時(shí)刻的狀態(tài)St+1,??并將獎(jiǎng)勵(lì)Rt反饋給主體。??與監(jiān)督學(xué)習(xí)不同的是強(qiáng)化學(xué)習(xí)算法不再需要有標(biāo)簽的監(jiān)督。從模型求解方法??上看,強(qiáng)化學(xué)習(xí)模型主要分為基于價(jià)值函數(shù)的算法、基于策略的算法和同時(shí)學(xué)習(xí)??價(jià)值和策略的算法。??14??
本文編號(hào):2937396
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2937396.html
最近更新
教材專著