基于深度學習的屬性抽取技術研究
本文關鍵詞:基于深度學習的屬性抽取技術研究 出處:《浙江大學》2017年碩士論文 論文類型:學位論文
更多相關文章: 屬性抽取 遠程監(jiān)督 長短期記憶網絡 多實例多標簽 詞向量 特征
【摘要】:如何將大量的非結構化信息轉換為人們易于理解的結構化信息,提取語義信息,已成為近年來研究的熱點。實體的屬性抽取方法,是將非結構化數據轉換為結構化數據的一種重要手段,是自然語言處理任務的一個重要子任務。雖然,已經有不少的方法提出用來完成屬性抽取任務,但是這些方法中仍然存在一些問題需要解決。本文針對這些方法中存在的問題進行深入研究,提出了一種基于長短期記憶網絡的多實例多標簽的算法,主要按照以下順序展開工作:首先展示了屬性抽取較為流行的幾種方法,主要有基于規(guī)則的方法、有監(jiān)督的和無監(jiān)督的機器學習方法。這些方法存在對人工和其他自然語言處理工具依賴性過大,無法應用到目標關系,性能還有待提升等問題。針對上述問題,本文提出的方法使用遠程監(jiān)督的方式生成模型訓練和測試所需要的樣本,減少對人工的依賴。使用多實例多標簽模型解決遠程監(jiān)督生成樣本中的多實例多標簽現象。多實例多標簽模型利用帶有隱變量的圖模型建模一個實體對有多個實例,以及不同實例可能對應不同標簽因而存在多個標簽的問題。同時,使用深度學習的方法自動學習大量樣本數據的內部規(guī)律。利用詞向量作為模型需要的特征,能夠表達詞與詞之間的相似性,減少對其它自然語言處理工具的依賴,防止錯誤的傳播和累加。使用長短期記憶網絡訓練模型,充分利用了句子的時序信息,通過句子前后的上下文關系,學習了句子中存在的語法關系和語義關系。長短期記憶網絡能夠選擇性的丟棄一些無用信息,而保留重要的有用信息,對于學習較長句子中的內在關系非常有效。此外,本文還利用了實體的類型信息,用來區(qū)分不同實體對的不同關系。本文用屬性抽取較為常用的數據集,與目前比較流行的幾個屬性抽取模型進行對比實驗。實驗結果表明,與其它對比模型相比,本文提出的方法在幾個重要評價指標上的表現更優(yōu)。證明它在性能上有一定的提升,驗證了它的有效性。最后,本文將屬性算法應用到了 973跨媒體計算示范應用平臺,構建了一個關于疾病的知識圖譜。通過實踐,驗證了本文方法的實用性。
【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 盧漢;曹存根;王石;;基于元性質的數量型屬性值自動提取系統(tǒng)的實現[J];計算機研究與發(fā)展;2010年10期
2 張愛平;張小紅;;屬性值為語言區(qū)間的多屬性決策方法[J];計算機工程與應用;2011年07期
3 崔勇;高巖;王福利;王子敬;;模糊信息系統(tǒng)屬性值的重要性度量[J];河南理工大學學報(自然科學版);2007年04期
4 李中華,施麗華,李玉茜;屬性的增量賦值[J];計算機工程;1993年01期
5 ;第六章 多屬性索引法[J];計算機工程與應用;1981年Z2期
6 關欣;衣曉;何友;周一宇;;一種區(qū)間屬性值離散化的新方法[J];宇航學報;2009年03期
7 張艷芹;張虹;楊習貝;;區(qū)間屬性值信息系統(tǒng)的不確定性度量[J];計算機應用與軟件;2009年01期
8 程顯毅;施Oz;沈學華;田宇賀;;屬性和屬性值組合的概念模板[J];北京大學學報(自然科學版);2013年01期
9 林宏康;范成賢;史開泉;;倒向P-推理與屬性剩余發(fā)現-應用[J];計算機科學;2011年10期
10 坐看云起;《天使》人物屬性攻略[J];網絡與信息;2002年11期
相關會議論文 前2條
1 王宇;方濱興;吳博;宋林海;郭巖;;結合屬性分布特征的模式匹配算法[A];第五屆全國信息檢索學術會議論文集[C];2009年
2 張亮;胡學鋼;;多層次屬性值下概念格的動態(tài)轉化[A];計算機技術與應用進展——全國第17屆計算機科學與技術應用(CACIS)學術會議論文集(上冊)[C];2006年
相關重要報紙文章 前4條
1 重慶 韓濤;中望CAD中塊屬性的制作[N];電腦報;2004年
2 7Star;教你做RM壓縮程序[N];電腦報;2003年
3 北京郵電大學 張劍;通過DOM操作數據(下)[N];計算機世界;2001年
4 ;查找替換的技巧[N];中國電腦教育報;2001年
相關碩士學位論文 前10條
1 張麗芬;一種基于混合QOS的服務選擇方法[D];華中師范大學;2015年
2 于芳芳;基于屬性的權限訪問控制研究與應用[D];河北工業(yè)大學;2015年
3 高乙童;大數據時效性關鍵技術的研究[D];哈爾濱工業(yè)大學;2016年
4 陳祖軍;基于偽近鄰及區(qū)間距離的不完備數據聚類方法[D];大連理工大學;2016年
5 梁磊;面向屬性網絡圖的表示學習與鏈接預測[D];華東師范大學;2017年
6 蔣煥劍;基于深度學習的屬性抽取技術研究[D];浙江大學;2017年
7 趙爽;基于敏感屬性值語義的個性化匿名方法研究[D];天津財經大學;2015年
8 徐海堂;屬性證書及應用研究[D];中國人民解放軍信息工程大學;2005年
9 童先群;基于屬性值信息熵的KNN算法改進研究[D];漳州師范學院;2010年
10 張秀麗;符號屬性值的相似度學習及屬性重要性研究[D];河北大學;2011年
,本文編號:1331600
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/1331600.html