基于時序卷積網(wǎng)絡(luò)的中文命名實體識別研究
發(fā)布時間:2021-08-13 08:49
隨著信息時代的來臨,如何從海量的自然語言數(shù)據(jù)中獲取到有用的信息是當今社會一個非常重要的問題。自然語言數(shù)據(jù)不同于其他類型的數(shù)據(jù),它包含著人類語言的特性,需要借助一些專門的技術(shù)來處理。命名實體識別是自然語言處理的一項基本任務(wù),它通過提取句子中含有特殊意義的關(guān)鍵信息來解決信息過載的問題,這些關(guān)鍵信息也稱為命名實體。命名實體識別一直是國內(nèi)外專家學(xué)者的研究熱點之一。中文語言不同于其他語言,對于中文語言的處理需要考慮中文語言的相應(yīng)特性。當前大多數(shù)中文命名實體識別模型按照對語言處理基本單元的選擇大致可以劃分為兩類:基于字符的模型和基于詞的模型;谧址哪P椭苯訉⒅形木渥忧蟹譃橐粋字符序列,然后在這個字符序列上提取命名實體;谠~的模型需要先通過一個分詞模型將中文句子切分為一個詞序列,然后在這個詞序列上提取命名實體。但是,基于字符的模型無法利用詞的豐富的內(nèi)在信息來完成命名實體的提取,基于詞的模型無法消除分詞模型按照不同的分詞標準切分的詞序列中詞的歧義。針對以上兩類模型存在的問題,現(xiàn)有研究通過整合一個預(yù)定義的詞典來自動適配中文句子中的詞,并將適配到的詞信息反饋回命名實體識別模型,通過這種方式可以使命名...
【文章來源】:西南大學(xué)重慶市 211工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
線性鏈條件隨機場模型
第2章相關(guān)理論與技術(shù)11卷積網(wǎng)絡(luò)(FCN)作為主要結(jié)構(gòu),它是一種隱藏層的長度與輸入層、輸出層一樣的網(wǎng)絡(luò)結(jié)構(gòu)。為了實現(xiàn)第二個原則,GTCN使用了因果卷積技術(shù),因果卷積在t時刻的輸出只與在t時刻之前的元素有關(guān)聯(lián),與t時刻之后的元素?zé)o關(guān)聯(lián)。一維全卷積網(wǎng)絡(luò)構(gòu)建的序列模型在需要獲取更大范圍的輸入數(shù)據(jù)的歷史信息時,可以通過以下兩種方式:增加網(wǎng)絡(luò)的層數(shù)和設(shè)置更大的過濾器。這兩種方式計算量過大,結(jié)構(gòu)復(fù)雜,一開始并不能很好的獲取大范圍的數(shù)據(jù)信息。一個簡單的因果卷積只能看到在一個卷積網(wǎng)絡(luò)層上一定范圍內(nèi)的序列數(shù)據(jù),這限制了因果卷積處理序列數(shù)據(jù)的能力。膨脹卷積可以解決這一問題,它跳躍式的收集序列中不同元素的信息。一般而言,對于一個一維輸入序列X,X∈R和一個過濾器f:{0,…,k1}→R,對于序列上的元素s而言,膨脹卷積操作F被描述為公式(2-1)。如公式(2-1)所示,d表示膨脹因子,k表示過濾器的大小,sdi指示從前至后處理輸入序列數(shù)據(jù)的方向,即過去的時間依賴性。當d等于1時,一維膨脹卷積轉(zhuǎn)變?yōu)閭鹘y(tǒng)的卷積操作。使用膨脹卷積可以使網(wǎng)絡(luò)看到更多在序列遠處的信息,擴大了序列信息提取的范圍。F(s)=∑()(2-1)圖2-2GTCN網(wǎng)絡(luò)結(jié)構(gòu)GTDN的網(wǎng)絡(luò)結(jié)構(gòu)如圖2-2所示,輸入一條序列結(jié)構(gòu)的數(shù)據(jù)x,…,x,對這條序列結(jié)構(gòu)數(shù)據(jù)執(zhí)行一維膨脹卷積等相關(guān)操作之后,得到對應(yīng)的輸出y,…,y,中間的隱藏層使用膨脹卷積,d是膨脹卷積因子,d隨著層數(shù)的增加而增加。通用時序卷積網(wǎng)絡(luò)采用從左至右的卷積滑動策略,每次只向右滑動一步,在左邊添加zero-padding塊來保證對齊。
西南大學(xué)碩士學(xué)位論文12圖2-3卷積塊操作GTCN使用殘差連接方法連接神經(jīng)網(wǎng)絡(luò)相鄰的層。GTCN需要處理序列結(jié)構(gòu)的數(shù)據(jù),對序列結(jié)構(gòu)數(shù)據(jù)的每一項數(shù)據(jù)元素在執(zhí)行一維卷積操作之后再執(zhí)行殘差連接操作。一個殘差連接操作由兩部分元素組成:原始輸入x與一系列轉(zhuǎn)換F(x)。殘差連接操作如公式(2-2)所示。o=Activation(x+F(x))(2-2)如公式(2-2)所示,Activation是激活函數(shù),o是殘差操作的結(jié)果。F(x)是一系列轉(zhuǎn)換操作的集合,如圖2-3所示,一個卷積塊操作內(nèi)部所包含的轉(zhuǎn)換依次為膨脹卷積、權(quán)重歸一化、ReLU激活函數(shù)、抑制過擬合(Dropout)操作。在經(jīng)過F(x)操作之后,將初始輸入x與F(x)直接相加則得到一次卷積塊操作的輸出結(jié)果。2.4注意力機制注意力機制借鑒了人類的視覺注意力機制,視覺注意力機制是人類大腦特有的處理視覺信號的機制。人眼在識別成像過程中,首先快速掃描全局環(huán)境,獲得需要重點關(guān)注的目標區(qū)域,即注意力焦點,然后對這一注意力焦點區(qū)域進行更加細致的掃描,以獲取該區(qū)域更多的細節(jié)信息,忽略掉其它無關(guān)信息。這一機制是人類進化出來的一種用于快速篩選出高價值信息的方法,極大的提高了人類處理視覺信息的效率和準確性。注意力機制(Attention)最早出現(xiàn)在對人類視覺的研究工作中。2014年,Volodymy提出了一個加入了注意力機制的RNN模型用于圖像分類,取得了不錯的分類效果[28]。Kelvin提出了一個基于注意力機制的自動識別圖像內(nèi)容的圖像識別模型[29]。在自然語言處理任務(wù)中,機器翻譯任務(wù)是最早引入注意力機制的研究領(lǐng)域。Bahdanau最早提出了一個用于提升神經(jīng)機器翻譯模型性能的注意力模型[30]。
【參考文獻】:
期刊論文
[1]基于CRF和規(guī)則相結(jié)合的地理命名實體識別方法[J]. 何炎祥,羅楚威,胡彬堯. 計算機應(yīng)用與軟件. 2015(01)
本文編號:3340123
【文章來源】:西南大學(xué)重慶市 211工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
線性鏈條件隨機場模型
第2章相關(guān)理論與技術(shù)11卷積網(wǎng)絡(luò)(FCN)作為主要結(jié)構(gòu),它是一種隱藏層的長度與輸入層、輸出層一樣的網(wǎng)絡(luò)結(jié)構(gòu)。為了實現(xiàn)第二個原則,GTCN使用了因果卷積技術(shù),因果卷積在t時刻的輸出只與在t時刻之前的元素有關(guān)聯(lián),與t時刻之后的元素?zé)o關(guān)聯(lián)。一維全卷積網(wǎng)絡(luò)構(gòu)建的序列模型在需要獲取更大范圍的輸入數(shù)據(jù)的歷史信息時,可以通過以下兩種方式:增加網(wǎng)絡(luò)的層數(shù)和設(shè)置更大的過濾器。這兩種方式計算量過大,結(jié)構(gòu)復(fù)雜,一開始并不能很好的獲取大范圍的數(shù)據(jù)信息。一個簡單的因果卷積只能看到在一個卷積網(wǎng)絡(luò)層上一定范圍內(nèi)的序列數(shù)據(jù),這限制了因果卷積處理序列數(shù)據(jù)的能力。膨脹卷積可以解決這一問題,它跳躍式的收集序列中不同元素的信息。一般而言,對于一個一維輸入序列X,X∈R和一個過濾器f:{0,…,k1}→R,對于序列上的元素s而言,膨脹卷積操作F被描述為公式(2-1)。如公式(2-1)所示,d表示膨脹因子,k表示過濾器的大小,sdi指示從前至后處理輸入序列數(shù)據(jù)的方向,即過去的時間依賴性。當d等于1時,一維膨脹卷積轉(zhuǎn)變?yōu)閭鹘y(tǒng)的卷積操作。使用膨脹卷積可以使網(wǎng)絡(luò)看到更多在序列遠處的信息,擴大了序列信息提取的范圍。F(s)=∑()(2-1)圖2-2GTCN網(wǎng)絡(luò)結(jié)構(gòu)GTDN的網(wǎng)絡(luò)結(jié)構(gòu)如圖2-2所示,輸入一條序列結(jié)構(gòu)的數(shù)據(jù)x,…,x,對這條序列結(jié)構(gòu)數(shù)據(jù)執(zhí)行一維膨脹卷積等相關(guān)操作之后,得到對應(yīng)的輸出y,…,y,中間的隱藏層使用膨脹卷積,d是膨脹卷積因子,d隨著層數(shù)的增加而增加。通用時序卷積網(wǎng)絡(luò)采用從左至右的卷積滑動策略,每次只向右滑動一步,在左邊添加zero-padding塊來保證對齊。
西南大學(xué)碩士學(xué)位論文12圖2-3卷積塊操作GTCN使用殘差連接方法連接神經(jīng)網(wǎng)絡(luò)相鄰的層。GTCN需要處理序列結(jié)構(gòu)的數(shù)據(jù),對序列結(jié)構(gòu)數(shù)據(jù)的每一項數(shù)據(jù)元素在執(zhí)行一維卷積操作之后再執(zhí)行殘差連接操作。一個殘差連接操作由兩部分元素組成:原始輸入x與一系列轉(zhuǎn)換F(x)。殘差連接操作如公式(2-2)所示。o=Activation(x+F(x))(2-2)如公式(2-2)所示,Activation是激活函數(shù),o是殘差操作的結(jié)果。F(x)是一系列轉(zhuǎn)換操作的集合,如圖2-3所示,一個卷積塊操作內(nèi)部所包含的轉(zhuǎn)換依次為膨脹卷積、權(quán)重歸一化、ReLU激活函數(shù)、抑制過擬合(Dropout)操作。在經(jīng)過F(x)操作之后,將初始輸入x與F(x)直接相加則得到一次卷積塊操作的輸出結(jié)果。2.4注意力機制注意力機制借鑒了人類的視覺注意力機制,視覺注意力機制是人類大腦特有的處理視覺信號的機制。人眼在識別成像過程中,首先快速掃描全局環(huán)境,獲得需要重點關(guān)注的目標區(qū)域,即注意力焦點,然后對這一注意力焦點區(qū)域進行更加細致的掃描,以獲取該區(qū)域更多的細節(jié)信息,忽略掉其它無關(guān)信息。這一機制是人類進化出來的一種用于快速篩選出高價值信息的方法,極大的提高了人類處理視覺信息的效率和準確性。注意力機制(Attention)最早出現(xiàn)在對人類視覺的研究工作中。2014年,Volodymy提出了一個加入了注意力機制的RNN模型用于圖像分類,取得了不錯的分類效果[28]。Kelvin提出了一個基于注意力機制的自動識別圖像內(nèi)容的圖像識別模型[29]。在自然語言處理任務(wù)中,機器翻譯任務(wù)是最早引入注意力機制的研究領(lǐng)域。Bahdanau最早提出了一個用于提升神經(jīng)機器翻譯模型性能的注意力模型[30]。
【參考文獻】:
期刊論文
[1]基于CRF和規(guī)則相結(jié)合的地理命名實體識別方法[J]. 何炎祥,羅楚威,胡彬堯. 計算機應(yīng)用與軟件. 2015(01)
本文編號:3340123
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3340123.html
最近更新
教材專著