天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向少量標注數(shù)據(jù)的中文命名實體識別技術研究

發(fā)布時間:2021-11-25 22:59
  人工智能的第三次浪潮正在改變著人類的生活。作為人工智能的一個分支,自然語言處理技術能夠幫助機器分析理解人類的自然語言,是連接人類語言和機器的橋梁。而命名實體識別作為自然語言處理的基礎技術之一,它的準確與否對后續(xù)任務如信息檢索、推薦系統(tǒng)、情感分析等起著至關重要的作用。其中,中文命名實體識別由于語言的特殊性和復雜性,在命名實體識別研究工作中備受關注。高性能模型需要大量的標注訓練集用于模型訓練泛化,而高質量中文標注數(shù)據(jù)由于其高成本已經(jīng)成為影響人工智能算法性能的最大瓶頸之一。因此面向少量標注數(shù)據(jù)的中文命名實體識別的研究工作具有重要的現(xiàn)實意義和應用價值。本文以少量標注數(shù)據(jù)應用場景下的中文命名實體識別為研究對象,從減少所需標注數(shù)據(jù)量和減少單位樣本標注成本兩方面出發(fā),利用主動學習、遷移學習以及規(guī)則與統(tǒng)計混合的方法,致力于在使模型達到一定精度的條件下減少所需的標注成本。本文研究工作包括:(1)為避免基于不確定性的樣本選擇策略的局限性,制定一種基于不確定性和代表性的主動學習樣本選擇策略并應用于中文命名實體識別任務。在通用和領域語料上充分對比幾種不同樣本選擇策略在提升模型泛化能力方面的作用。(2)提出一種... 

【文章來源】:浙江大學浙江省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:79 頁

【學位級別】:碩士

【部分圖文】:

面向少量標注數(shù)據(jù)的中文命名實體識別技術研究


圖1.1論文組織結構??論文組織結構如圖1.1所示

模型性能,訓練集


2.2主動學習??模型具備高性能的前提是需要大量的標注訓練集用于模型訓練泛化。那么模??型的性能是否和訓練集的大小成正比?相關研究通過實驗發(fā)現(xiàn),如圖2.1所示,??機器學習模型的性能并不是如左圖——隨著訓練數(shù)據(jù)集的擴充呈線性增長。實際??上,隨著訓練集樣本數(shù)目的増加,在開始階段學習模型的性能會得到快速提升。??當訓練集的樣本數(shù)目達到某一臨界值時,學習模型的性能逐漸趨于穩(wěn)定,即使訓??練樣本數(shù)繼續(xù)增加,模型也基本不再發(fā)生變化。因此在一定訓練集樣本數(shù)目的條??件下,更高效地利用訓練集中有價值的樣本,使模型性能得到快速提升,在一定??程度上能夠減少對標注數(shù)據(jù)量的需求,降低標注成本。如圖2.1右圖中虛線所示。??performance?performance??〇〇?〇〇??#?of?training?dataset??圖2.〗模型性能與訓練集規(guī)模的關系??主動學習通過一定的算法查詢最有用的未標記樣本,并交由專家標注,然后??將帶標注樣本加入訓練樣本集迭代訓練提升模型性能。如何在缺乏足夠標注訓練??數(shù)據(jù)的條件下克服標注瓶頸,以低標注成本訓練高性能模型是主動學習研究的熱??點問題。??12?

注意力機制,多頭


的不同表示子空間中獲取信息,通過使用多組的參數(shù)矩陣來分別對2、尺、F進行??線性變換,并將所有自注意力機制的結果進行拼接得到最后自注意力機制的結果,??多頭自注意力機制結構見圖2.2。??MultiHead(Q,K,V)?=?ConcatQieadi,?"”headh)W0??where?headt?=?Attention{QW^,?KW^,?VW^)?公式(2.4)??t??f??Linear??MatMul?|??i?t?i?1?[?Go門cat??[SoftMax?I?1 ̄rr ̄??|?Mask?(opt,)?Scaled?Dot-Product????Attention?0??Scale?士?i?[?il??[ ̄MatMul?|?Linear?U?Linear?J?Linear?p??tt??〇?K?V?::??V?K?Q??圖2.2單頭(左)和多頭(右)注意力機制[38]??而縮放因子是為了避免由于維度過高導致點乘結果過大,從而造成的梯度過??小情況。Transformer模型中縮放因子取自注意力機制的數(shù)學表達式如公式??(2.5)所示:??AttentioniQ

【參考文獻】:
期刊論文
[1]主動學習與自學習的中文命名實體識別[J]. 鐘志農(nóng),劉方馳,吳燁,伍江江.  國防科技大學學報. 2014(04)
[2]中文機構名稱的識別與分析[J]. 張小衡,王玲玲.  中文信息學報. 1997(04)
[3]中文姓名的自動辨識[J]. 孫茂松,黃昌寧,高海燕,方捷.  中文信息學報. 1995(02)



本文編號:3518950

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3518950.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶b0608***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com