基于詞匯表征學習的詞義演變及其評價研究
發(fā)布時間:2021-08-20 13:21
隨著信息化技術蓬勃發(fā)展,對于傳統紙質文獻的數字化工作也逐漸展開,同時近年來社交網絡和新聞媒體爆炸式增長,帶來的是大量的橫跨長期時間的數據,如何從這些跨時間數據中挖掘有效的信息成為了當前學術界和工業(yè)界的研究工作焦點。近年來深度學習的廣泛應用和快速發(fā)展為挖掘這些跨時間數據提供了可能,特別是深度學習在文本上強大的表示學習能力,幾乎被應用在基于深度學習進行自然語言處理相關的所有工作中。作為自然語言處理相關任務的基石,對于詞語的表示學習(詞匯表征學習)經歷了從最初的簡單的統計、詞袋模型等傳統的基于統計的表示方法到對詞語的共現關系進行學習、對句子中的詞語序列進行學習等基于深度學習模型的方法,已經取得了不俗的成就。但是現有的算法對于跨時間的詞匯表征學習仍然存在一些問題,比如現在的一些研究更多的是將這些模型應用在不同的時間片上,然后通過對齊算法來將多個時間片上的詞匯表征結果進行對齊,對于此類方法的詞匯演變分析效果不僅依賴于詞匯表征學習算法本身,還依賴于對齊算法的效果,而現有的對齊算法比較容易陷入過對齊的狀態(tài)。本文主要研究跨時間的詞匯表征學習算法在對齊上的改進,通過引入基于深度學習的相關算法結合我們提出...
【文章來源】:西南大學重慶市 211工程院校 教育部直屬院校
【文章頁數】:72 頁
【學位級別】:碩士
【部分圖文】:
簡單的情感分類模型
西南大學碩士學位論文6詞語相關的廣泛研究上的意義。我們介紹了我們所提出的Tagged-SGNS模型,它通過合并不同時間段的語料庫片段來擴展SGNS[60]。TSGNS具有類似SGNS的低維嵌入表示的高性能和PPMI等高維方法在不同時間段的向量空間平滑對齊的優(yōu)點。為了驗證TSGNS的有效性,我們在GoogleBooksN-gram語料集(105GB)、MENS數據集[61](3000個具有人類標記的相似度的單詞對)和牛津詞典的數據集(412個具有人類識標記語義隨時間變化的單詞)上進行了實驗。實驗結果表明,TSGNS相對于目前的最新技術具有獨特的優(yōu)勢。圖1.2本文主要研究內容(2)分布假說表明,詞語的語義是是隱含在共現關系中的。目前大部分研究詞語的詞匯表征學習是基于語料庫中句子中固定范圍內的上下文詞共現統計的。并且現有的研究基本上只關注中心詞的上下文詞語隨時間的共現頻率,而忽略了深層上下文關系,即對應上下文的語義也可能會隨著時間的推移而發(fā)生變化,這意味著上下文詞語可能會隨著時間的推移而發(fā)生語義演變。我們提出了基于句子的詞嵌入(SWE),它解決了以下挑戰(zhàn):1.句子通常有不同的長度,支持詞匯表征學習時輸入的詞語序列長度為變長,避免了傳統學習過程中需要指定上下文考慮范圍的情況2.目標詞通常在句子中的不同位置。受到Elmo[62]和CBOW兩種方法的啟發(fā),我們提出來的詞匯表征學習模型是通過訓練一個學習模型來推導的,該模型使用句子中的其他單詞預測目標單詞。此外,我們還討論了SWE是否能夠滿足免對齊的條件,本研究通過在大型語料庫(即Arxiv數據集)上比較不同環(huán)境下的詞匯表征學習效果,驗證了所提出的解決方案的獨特優(yōu)勢。(3)本文使用搜狗搜索引擎抓取的網頁數據集進行分析。在使用三種不同的詞匯表征學習算法對該漢語語料庫進行訓練后,使用不同的
相關研究綜述92.相關研究綜述深度學習技術源于對人工神經網路的研究。它是在多層感知器的基礎上,使用線性或者非線性的前向連接把多層神經網絡層疊在一起,來發(fā)現數據樣本的特征分布。深度學習的概念由Hinton等人提出[3]。之后在2015年,Hinton、Lecun和Bengio三個深度學習領域的元老在[7]上發(fā)表綜述文章,就深度學習的模型和應用領域進行了深入全面的探討,奠定了深度學習在圖像(含視頻)、音頻和自然語言等研究領域的地位。深度學習是一種表征學習方法,可以用來學習數據樣本的特征分布。圖2.1展示了一個多層神經網絡的模型。模型每一層由多個神經元構成,每個神經元表示一個特征值。同一層的所有特征值構成特征向量,用來表示對某個事物的整體特征描述。同層之間神經元沒有聯系,即同層之間的特征值之間趨于正交(特征向量所在希爾伯特空間中每一維和其它維都是正交的)。層與層之間一般采用全連接方式,即下一層中每個神經元都是上一層中所有神經元的權重之和。神經網絡輸出的特征向量可以看作是神經網絡對事物進行表征學習的結果,這種結果是對人為定義特征(輸入)進行多層映射計算,通過神經網絡自動學習到的抽象特征(輸出)。圖2.1多層神經網絡模型對于人為定義的特征(也就是輸入),具有很多種表現形式,對于采用深度學習進行相關表征學習比較成熟的領域-圖像領域而言,通常為以圖像的每一個像素對應的數據作為基本單元,將整個圖片表示為一個像素數據組成的矩陣,作為神經網絡的輸入;而在自然語言處理領域,根據不同的維度,我們可以將文本以字母(筆畫)、單詞等方式來表示,然后輸入到神經網絡中。而對于事物的表征學習,傳統的方法通常通過手動設置抽取規(guī)則,或者計算規(guī)則對根據輸入的數據進行處理,進而形成對應事物的表?
本文編號:3353573
【文章來源】:西南大學重慶市 211工程院校 教育部直屬院校
【文章頁數】:72 頁
【學位級別】:碩士
【部分圖文】:
簡單的情感分類模型
西南大學碩士學位論文6詞語相關的廣泛研究上的意義。我們介紹了我們所提出的Tagged-SGNS模型,它通過合并不同時間段的語料庫片段來擴展SGNS[60]。TSGNS具有類似SGNS的低維嵌入表示的高性能和PPMI等高維方法在不同時間段的向量空間平滑對齊的優(yōu)點。為了驗證TSGNS的有效性,我們在GoogleBooksN-gram語料集(105GB)、MENS數據集[61](3000個具有人類標記的相似度的單詞對)和牛津詞典的數據集(412個具有人類識標記語義隨時間變化的單詞)上進行了實驗。實驗結果表明,TSGNS相對于目前的最新技術具有獨特的優(yōu)勢。圖1.2本文主要研究內容(2)分布假說表明,詞語的語義是是隱含在共現關系中的。目前大部分研究詞語的詞匯表征學習是基于語料庫中句子中固定范圍內的上下文詞共現統計的。并且現有的研究基本上只關注中心詞的上下文詞語隨時間的共現頻率,而忽略了深層上下文關系,即對應上下文的語義也可能會隨著時間的推移而發(fā)生變化,這意味著上下文詞語可能會隨著時間的推移而發(fā)生語義演變。我們提出了基于句子的詞嵌入(SWE),它解決了以下挑戰(zhàn):1.句子通常有不同的長度,支持詞匯表征學習時輸入的詞語序列長度為變長,避免了傳統學習過程中需要指定上下文考慮范圍的情況2.目標詞通常在句子中的不同位置。受到Elmo[62]和CBOW兩種方法的啟發(fā),我們提出來的詞匯表征學習模型是通過訓練一個學習模型來推導的,該模型使用句子中的其他單詞預測目標單詞。此外,我們還討論了SWE是否能夠滿足免對齊的條件,本研究通過在大型語料庫(即Arxiv數據集)上比較不同環(huán)境下的詞匯表征學習效果,驗證了所提出的解決方案的獨特優(yōu)勢。(3)本文使用搜狗搜索引擎抓取的網頁數據集進行分析。在使用三種不同的詞匯表征學習算法對該漢語語料庫進行訓練后,使用不同的
相關研究綜述92.相關研究綜述深度學習技術源于對人工神經網路的研究。它是在多層感知器的基礎上,使用線性或者非線性的前向連接把多層神經網絡層疊在一起,來發(fā)現數據樣本的特征分布。深度學習的概念由Hinton等人提出[3]。之后在2015年,Hinton、Lecun和Bengio三個深度學習領域的元老在[7]上發(fā)表綜述文章,就深度學習的模型和應用領域進行了深入全面的探討,奠定了深度學習在圖像(含視頻)、音頻和自然語言等研究領域的地位。深度學習是一種表征學習方法,可以用來學習數據樣本的特征分布。圖2.1展示了一個多層神經網絡的模型。模型每一層由多個神經元構成,每個神經元表示一個特征值。同一層的所有特征值構成特征向量,用來表示對某個事物的整體特征描述。同層之間神經元沒有聯系,即同層之間的特征值之間趨于正交(特征向量所在希爾伯特空間中每一維和其它維都是正交的)。層與層之間一般采用全連接方式,即下一層中每個神經元都是上一層中所有神經元的權重之和。神經網絡輸出的特征向量可以看作是神經網絡對事物進行表征學習的結果,這種結果是對人為定義特征(輸入)進行多層映射計算,通過神經網絡自動學習到的抽象特征(輸出)。圖2.1多層神經網絡模型對于人為定義的特征(也就是輸入),具有很多種表現形式,對于采用深度學習進行相關表征學習比較成熟的領域-圖像領域而言,通常為以圖像的每一個像素對應的數據作為基本單元,將整個圖片表示為一個像素數據組成的矩陣,作為神經網絡的輸入;而在自然語言處理領域,根據不同的維度,我們可以將文本以字母(筆畫)、單詞等方式來表示,然后輸入到神經網絡中。而對于事物的表征學習,傳統的方法通常通過手動設置抽取規(guī)則,或者計算規(guī)則對根據輸入的數據進行處理,進而形成對應事物的表?
本文編號:3353573
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3353573.html