用于自然語言分布式表達的聯(lián)合學習方法研究
本文選題:自然語言處理 + 神經(jīng)網(wǎng)絡 ; 參考:《中國科學技術大學》2016年博士論文
【摘要】:自然語言分布式表達(Distributed Representations of Natural Language)技術是指利用深度神經(jīng)網(wǎng)絡算法訓練得到自然語言對象(單詞、短語、句子、段落和文檔等)的向量表達的技術,這種向量也被稱為自然語言嵌入向量(Natural Language Embedding Vector)。一般來講,分布式表達向量是從大規(guī)模無監(jiān)督的語料中學習得來的低維、稠密實數(shù)值向量,因為其承載了該自然語言對象的語義信息,所以可以作為自然語言的一種有效的表達,應用于各項自然語言處理的任務中,并取得了非常優(yōu)異的實際表現(xiàn)。在本論文中,與以往完全從原始文本語料學習(Learning From Scratch)得到自然語言分布式表達的方法不同,我們試圖融入更多的信息,達到聯(lián)合訓練自然語言分布式表達向量的目的。這些信息有可能是外源信息(例如字典信息與知識圖譜信息),也有可能是原始語料信息的其他抽象、或者高層次表達(例如單詞的多義性信息與主題信息)。這種聯(lián)合訓練的方法一方面可以利用更多的信息提升原始分布式表達向量的質量,另外一方面可以利用自然語言的分布式表達更好地幫助相應的任務(例如主題建模),從而達到更佳的實際表現(xiàn)。具體來說,1)我們通過單詞多義性信息與單詞分布式表達聯(lián)合訓練的方法來克服傳統(tǒng)單詞分布式表達以單詞作為基本語義嵌入單元的限制,所提出的算法可以精確表達多義單詞的不同語義,取得了良好的實際效果,同時我們在本文中介紹了該算法的大規(guī)模并行實現(xiàn):2)我們通過知識圖譜表示與單詞分布式表達聯(lián)合訓練的方法來克服原始文本驅動的單詞嵌入向量無法表示復雜知識關系的限制;3)基于這兩種聯(lián)合訓練的方式我們提出了一種利用單詞分布式表達來完成自動智商測試的方法,在標準詞匯智商測試任務上取得了比該測試的人類參與者的表現(xiàn)更高的準確率;4)更進一步,我們提出了一種基于遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Network)的句子分布式表達模型和主題模型的聯(lián)合訓練方法,利用該方法訓練得到的主題模型可以建模單詞序列性信息,與忽略該信息的傳統(tǒng)主題模型相比在定量任務和定性任務上都有更好的表現(xiàn)。
[Abstract]:Distributed Representations of Natural language (NLP) is a technique that uses the depth neural network algorithm to train the vector representation of natural language objects (words, phrases, sentences, paragraphs, documents, etc.).This kind of vector is also called Natural Language Embedding vector.In general, distributed representation vectors are low-dimensional, dense real-value vectors that are learned from large-scale unsupervised corpus because they carry the semantic information of the natural language object.Therefore, it can be used as an effective expression of natural language, and it can be applied to various tasks of natural language processing, and it has achieved excellent practical performance.In this thesis, we try to integrate more information into the distributed expression of natural language, and achieve the purpose of training distributed expression vector of natural language.These information may be exogenous information (such as dictionary information and knowledge map information), other abstractions of original corpus information, or high-level expressions (such as polysemous information and subject information of words).On the one hand, this joint training method can use more information to improve the quality of the original distributed expression vector.On the other hand, the distributed representation of natural language can be used to better help the corresponding tasks (such as topic modeling), so as to achieve better practical performance.Specifically, we can overcome the limitation of traditional word distributed expression by using word polysemous information and word distributed expression as the basic semantic embedding unit.The proposed algorithm can accurately express the different semantics of polysemous words, and achieves good practical results.At the same time, we introduce the large-scale parallel implementation of the algorithm: 2) We use the method of knowledge map representation and word distributed expression training to overcome the complexity of original text-driven word embedding vector.Based on these two methods of joint training, we propose a method of using word distributed expression to complete the automatic IQ test.In the standard vocabulary IQ test task, we achieved a higher accuracy rate than the human participants in the test.In this paper, we propose a joint training method of sentence distributed expression model and topic model based on recursive neural network (Recurrent Neural Network), which can be used to model the sequential information of words.Compared with the traditional thematic model which ignores this information, it has better performance in quantitative and qualitative tasks.
【學位授予單位】:中國科學技術大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 譚俊明;;自然語言的理解綜述[J];科技廣場;2008年05期
2 何祖軍;胡靜;;自然語言的規(guī)范與轉化——基于嵌入式系統(tǒng)的描述[J];計算機與現(xiàn)代化;2008年11期
3 劉海濤;關于自然語言計算機處理的幾點思考[J];術語標準化與信息技術;2001年01期
4 劉三滿,劉荷花;論計算機處理自然語言的新趨向[J];科技情報開發(fā)與經(jīng)濟;2002年04期
5 胡廣朋;用于計算機輔助教學的自然語言接口[J];微計算機應用;2003年05期
6 張世紅;胡佳佳;宋繼華;劉會霞;琚文勝;;網(wǎng)絡環(huán)境下的自然語言檢索[J];醫(yī)學情報工作;2005年06期
7 胡廣朋;錢遙立;沈繼峰;;一種應用規(guī)劃識別建立自然語言接口的方法[J];江蘇科技大學學報(自然科學版);2006年03期
8 杜津;楊一平;曾雋芳;;自然語言時間信息的模擬與計算[J];計算機工程與設計;2006年13期
9 張雪英;閭國年;宦建;;面向漢語的自然語言路徑描述方法[J];地球信息科學;2008年06期
10 彭程;;基于本體論的電子商務自然語言研究[J];微計算機信息;2008年18期
相關會議論文 前7條
1 胡健;黃麗華;劉杰;;基于自然語言的智能決策支持系統(tǒng)人機接口[A];管理科學與系統(tǒng)科學進展——全國青年管理科學與系統(tǒng)科學論文集(第4卷)[C];1997年
2 盛新華;柳勁;;自然語言否定的語用功能與交際策略[A];改革開放以來邏輯的歷程——中國邏輯學會成立30周年紀念文集(上卷)[C];2009年
3 李靈輝;林爾正;林玉婷;林丹紅;;基于自然語言檢索的中醫(yī)中風康復古代文獻數(shù)據(jù)庫構建[A];福建省圖書館學會2011年學術年會論文集[C];2011年
4 谷明哲;孟小峰;周勇;;中文自然語言查詢界面NChiql的Java設計實現(xiàn)[A];第十六屆全國數(shù)據(jù)庫學術會議論文集[C];1999年
5 周勇;孟小峰;劉爽;王珊;;數(shù)據(jù)庫自然語言查詢系統(tǒng)NChiql中語義依存樹向SQL的轉換[A];第十六屆全國數(shù)據(jù)庫學術會議論文集[C];1999年
6 萬繼華;;基于哲學本體論的真值演算系統(tǒng)——實現(xiàn)計算機理解自然語言的邏輯方法[A];邏輯學及其應用研究——第四屆全國邏輯系統(tǒng)、智能科學與信息科學學術會議論文集[C];2008年
7 才讓加;吉太加;;藏語語料庫中詞性分類代碼的確定[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
相關博士學位論文 前4條
1 田飛;用于自然語言分布式表達的聯(lián)合學習方法研究[D];中國科學技術大學;2016年
2 李虎;基于本體和規(guī)則的受控自然語言系統(tǒng)模型研究[D];華中科技大學;2010年
3 孟小峰;中文數(shù)據(jù)庫自然語言查詢處理研究[D];中國科學院研究生院(計算技術研究所);1999年
4 朱少楠;面向地理場景的“文—圖—景”轉換方法研究[D];南京師范大學;2013年
相關碩士學位論文 前10條
1 石亞坤;自然語言的人類理解與機器“理解”對比研究[D];陜西師范大學;2011年
2 劉曉;面向高德地圖的自然語言接口語義解析系統(tǒng)設計與實現(xiàn)[D];南京師范大學;2015年
3 孫婷婷;漢語搭配獲取方法研究[D];江蘇科技大學;2015年
4 徐娟;面向地圖搜索領域的自然語言句子g鏌逡饌祭斫夥椒ㄑ芯縖D];復旦大學;2014年
5 蔡靜怡;基于概念圖的關聯(lián)規(guī)則的自然語言表示方法[D];河北師范大學;2015年
6 柳勁;自然語言否定的邏輯思考[D];湘潭大學;2009年
7 裴君波;信息分發(fā)中自然語言訂閱接口的研究[D];北京郵電大學;2015年
8 付勝博;基于自然語言的空間數(shù)據(jù)檢索研究[D];西北工業(yè)大學;2007年
9 武睿峰;自然語言密寫分析及密寫量檢測[D];西北大學;2014年
10 李霞;自然語言篇章中時間信息的研究及在產(chǎn)品設計領域中的應用[D];西安電子科技大學;2013年
,本文編號:1740532
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/1740532.html