天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

后驗概率正則化在遠程監(jiān)督關(guān)系抽取算法中的應用研究

發(fā)布時間:2021-08-19 17:55
  關(guān)系抽取是計算機科學自然語言處理中的重要任務,它能為諸多下游任務,如問答,知識圖譜構(gòu)建提供服務。由于關(guān)系抽取模型的構(gòu)建需要海量的,獲取代價高昂的訓練數(shù)據(jù),這使得遠程監(jiān)督下的關(guān)系抽取成為當下的研究熱點。針對遠程監(jiān)督的噪音數(shù)據(jù)問題和當下遠程監(jiān)督關(guān)系抽取主流的基于選擇性注意力的模型導致的多樣性抑制問題,我們利用后驗概率正則化框架引入關(guān)系類別的專家知識,提出了兩種相應的解決方法緩解這兩大問題:(1)我們利用后驗概率正則化框架,將人類專家在關(guān)系抽取領(lǐng)域的經(jīng)驗知識融入樣本選擇策略中,提出基于規(guī)則的樣本選擇策略,提升樣本選擇策略的訓練效率,減少了策略梯度方法訓練過程中所需要的無意義探索,并且提升了樣本選擇策略的表現(xiàn),通過此方法選擇的樣本集合上訓練的關(guān)系抽取模型也在領(lǐng)域內(nèi)的權(quán)威公開數(shù)據(jù)集取得了當前最先進水平。由于基于規(guī)則的選擇策略能夠動態(tài)的判斷每個數(shù)據(jù)包內(nèi)保留哪些樣本,因此能通過保留的樣本數(shù)量來實現(xiàn)對數(shù)據(jù)包質(zhì)量的評判。(2)我們分析了之前的關(guān)于遠程監(jiān)督關(guān)系抽取的研究工作的特點以及局限性,提出了之前研究工作導致的多樣性抑制問題。針對該問題,我們提出全新的算法框架,利用聚類算法動態(tài)構(gòu)造數(shù)據(jù)包,并且結(jié)合關(guān)系... 

【文章來源】:浙江大學浙江省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:83 頁

【學位級別】:碩士

【部分圖文】:

后驗概率正則化在遠程監(jiān)督關(guān)系抽取算法中的應用研究


遠程監(jiān)督生成關(guān)系抽取樣本示意

低質(zhì)量,數(shù)據(jù)包,示例


浙江大學碩士學位論文第2章國內(nèi)外研究現(xiàn)狀12如何使端到端的關(guān)系抽取模型不再拘泥于數(shù)據(jù)包內(nèi)部,能夠?qū)?shù)據(jù)包整體的質(zhì)量進行考量成為近年來很多研究工作關(guān)注的重點,Yuan等人提出跨包注意力機制對數(shù)據(jù)包本身的質(zhì)量進行建模[39],F(xiàn)eng等人利用強化學習訓練樣本選擇策略[40],都有效地緩解了低質(zhì)量數(shù)據(jù)包對關(guān)系抽取模型訓練過程中的影響。圖2.2低質(zhì)量數(shù)據(jù)包示例2.6后驗概率正則化框架全監(jiān)督機器學習在自然語言處理,計算機視覺和計算生物學等諸多領(lǐng)域和任務上取得巨大成功。然而,全監(jiān)督的機器學習往往需要大量與指定任務密切相關(guān)的標注數(shù)據(jù)集,構(gòu)造這些數(shù)據(jù)集的代價非常高,我們使用這些全監(jiān)督方法時成本也很高,比如在對一個小時的音頻數(shù)據(jù)進行標注需要花費400小時,自然語言處理領(lǐng)域中文詞性標注項目PennChineseTreebank在項目開始后兩年才首次公開第一個版本的4000個句子。為了讓模型能夠取得更好的性能,對同一種任務,我們常常也需要針對不同領(lǐng)域構(gòu)造不同的數(shù)據(jù)集。在數(shù)據(jù)匱乏的同時,我們常常又有一些與特定問題相關(guān)的經(jīng)驗知識,這些經(jīng)驗知識可以是人類專家的經(jīng)驗,也可以是人為總結(jié)的一些規(guī)則。然而,現(xiàn)在我們很難把這些經(jīng)驗知識融入到全監(jiān)督的訓練過程中。

后驗概率,正則化


浙江大學碩士學位論文第2章國內(nèi)外研究現(xiàn)狀14同時,后驗正則化也可以和深度學習結(jié)合,使深度神經(jīng)網(wǎng)絡的參數(shù)能夠編碼這些先驗知識,Hu等人提出利用知識蒸餾的方法[59],利用老師-學生的知識蒸餾學習框架,首先將經(jīng)驗知識通過后驗概率正則化框架編碼到老師網(wǎng)絡中,具體可以用圖2.3中的紅色虛線表示,在每一輪迭代過程中,教師網(wǎng)絡由學生網(wǎng)絡通過投影到規(guī)則約束的子空間得到,學生網(wǎng)絡更新自身的參數(shù)并且在模擬教師網(wǎng)絡輸出和預測最終標簽兩個任務上做平衡。圖2.3后驗概率正則化與深度學習的一種結(jié)合[59]2.6.2后驗概率正則化的常用場景后驗概率正則化可以用于自然語言處理領(lǐng)域的各類任務。其中一個例子就是統(tǒng)計詞對齊,這是由Zens等人在統(tǒng)計機器翻譯任務中提出的[42],用于描述源句和翻譯的目標句之間對應關(guān)系的方法。在詞語對齊任務中,我們把目標句={1,…,,…,},源句={1,…,,…,}。一個詞語對齊可以是一個矩陣,矩陣中的元素,表示目標句中的第個詞是由源句中的第個詞翻譯而來。我們在各類詞語對齊模型中可以定義下面兩類先驗知識作為約束,從而提升模型的性能:(1)雙射性:一個詞不能被翻譯為多個單詞。(2)相仿性:一個模型的對齊策略需要和其它的模型的對齊策略大致相近。


本文編號:3351871

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3351871.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2015a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com