天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于深度學習和詞典定義的義原預測研究

發(fā)布時間:2020-04-17 07:32
【摘要】:義原是人類語言中不可再分的最小語義單元,在自然語言處理領域的多種任務中起到重要作用。知網(wǎng)HowNet是一個典型的義原知識庫,是由語言學家歷時多年經(jīng)過手工標注構建起來的,已得到廣泛應用。隨著社會發(fā)展,語言中的詞匯和語義不斷發(fā)生變化,靠人工標注更新義原知識庫的的方法費時費力,且存在標注一致性的問題。義原的自動預測成為知識庫建設的一項重要任務,而當前的義原預測技術仍然存在很多問題。影響義原預測效果的因素包括所使用的模型是否合適,是否引入更多的信息或知識,若引入知識則能否充分提取特征,由特征到義原的映射過程是否合理,以及能否解決多義詞和低頻詞等疑難問題,F(xiàn)有研究方法對上述問題沒能很好的解決。針對義原自動預測面臨的挑戰(zhàn),本文提出了兩種基于深度學習技術的利用詞典定義進行義原預測的解決方案。一是利用基于注意力機制的編碼器實現(xiàn)義原預測,二是提出基于局部語義相關性的義原預測方法,實驗證明本文提出的方法在義原預測任務中能夠取得目前最好的效果。同時,本文還通過反向詞典這樣一個義原預測的下游任務來進一步驗證所提出的方法的實用性和有效性。主要工作和貢獻如下:(1)利用基于注意力機制的編碼器實現(xiàn)義原預測,F(xiàn)有的義原預測方法大都未結合豐富的知識信息,或者對知識的利用很不充分。詞典定義是一種標準的語義描述,而現(xiàn)有利用定義進行義原預測的方法存在很多不足,為了解決定義信息挖掘的充分性問題,本文結合注意力機制改進了編碼器,并通過融合多種信息進一步優(yōu)化義原預測模型,有效提升了義原預測效果。(2)基于局部語義相關性的義原預測方法研究。利用編碼器的方法挖掘定義信息,提取的語義特征是一個有限維度的向量,所包含的信息量十分有限。通過研究定義中的詞與目標詞和義原之間的關系,發(fā)現(xiàn)具有局部語義相關的性質(zhì),基于該性質(zhì)提出了一種新的義原預測方法。該方法不但有效提升義原預測效果,對于低頻詞和多義詞等預測難點也能很好的解決。(3)利用義原預測方法實現(xiàn)并改進反向詞典系統(tǒng)。本文提出的兩種義原預測方法可有效應用于反向詞典任務,并通過引入義原等知識進一步改善效果。作為首個漢語界的反向詞典系統(tǒng)也具有一定的社會意義。通過實驗證明了本文提出的方法在義原預測任務中具有明顯的提升效果和良好的魯棒性,并通過反向詞典任務進一步體現(xiàn)了本研究的實用價值,同時也證明了義原知識的重要作用。開展義原自動預測研究在人工智能領域具有廣泛的應用價值和較深遠的現(xiàn)實意義。
【圖文】:

樹形結構,知識庫,學習技術,知網(wǎng)


入越來越多的語言知識和世界知識。因此,深度學習技術的發(fā)知識庫,而知識庫的完善又必將為深度學習技術發(fā)展帶來更深知識庫擴展方法的研究具有重要意義。HowNet 中義原知識的相關研究董強等人在 1988 年開始研究知識庫,到 1999 年生成第一版提供了義原注釋,其中每個詞都被表示為一個層次化的樹狀義知網(wǎng)是一個網(wǎng)狀的知識網(wǎng)絡體系。義原是語言學家定義的人類單元。概念的語義含義可以由有限數(shù)量的義原組成。,知網(wǎng)中的一個詞可能具有多個義項,,分別代表這個詞在現(xiàn)實定義為一系列義原的層次結構。以詞語“蘋果”為例,蘋果主,蘋果水果。這兩個含義分別具有多個義原來表示最基本的語具有 5 個義原,結構如圖 1.1 左側(cè)虛線框內(nèi);“蘋果水果”,只

處理流程圖,詞典,處理流程,上下文


圖 2. 1 詞典定義處理流程詞后的定義數(shù)據(jù),以“詞-定義”對的形式存儲入只能接受數(shù)值,而字符類型的單詞必須表示值表示方法是獨熱(one-hot)編碼,在詞匯表他位置 0。但是隨著詞匯量增大,每個詞的總介紹了典型的表示學習方法,本文采用 Word2v表示,即詞向量,也稱詞嵌入。的是 Word2vec 方法中的 Skip-gram 模型[10]訓練是在大規(guī)模語料庫中遍歷全部的詞匯,利用詞的上下文詞的過程進行訓練。如圖 2.2,當前輸即上下文距離中心詞的最大距離),其上下文。模型訓練時正是利用中心詞與上下文詞之間
【學位授予單位】:戰(zhàn)略支援部隊信息工程大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.1;TP18

【相似文獻】

相關期刊論文 前10條

1 楊爾弘,張國清,張永奎;基于義原同現(xiàn)頻率的漢語詞義排歧方法[J];計算機研究與發(fā)展;2001年07期

2 李國佳;;一種基于義原信息量的詞語相似度計算方法[J];電腦與信息技術;2015年03期

3 星竹;;收手[J];東西南北;2010年08期

4 高璐;趙小兵;;一種實例庫與義原關系相結合的概念消歧算法[J];首都師范大學學報(自然科學版);2016年03期

5 肖志軍;馮廣麗;;基于《知網(wǎng)》義原空間的文本相似度計算[J];科學技術與工程;2013年29期

6 廖劍;冷靜;李艷燕;黃榮懷;;知網(wǎng)的形式概念分析及概念相似度研究[J];計算機應用研究;2007年11期

7 許云,樊孝忠,張鋒;基于知網(wǎng)的語義相關度計算[J];北京理工大學學報;2005年05期

8 劉影;陳立;宋自林;董慶超;陳興華;朱衛(wèi)星;何繼賢;;一種改進的基于本體概念相似度計算方法研究[J];南京郵電大學學報(自然科學版);2011年06期

9 唐共波;于東;荀恩東;;基于知網(wǎng)義原詞向量表示的無監(jiān)督詞義消歧方法[J];中文信息學報;2015年06期

10 黃洪;屠肖龍;;基于角度—相似度轉(zhuǎn)換模型的義原相似度計算[J];浙江工業(yè)大學學報;2017年06期

相關會議論文 前10條

1 蘇偉峰;李紹滋;李堂秋;尤文建;;可分義原向量空間中的跨語種文本過濾模型[A];自然語言理解與機器翻譯——全國第六屆計算語言學聯(lián)合學術會議論文集[C];2001年

2 張仰森;黃改娟;蘇文杰;;基于隱最大熵原理的漢語詞義消歧方法[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

3 楊爾弘;米麗萍;郝秀蘭;;基于《知網(wǎng)》的詞義排岐方法[A];輝煌二十年——中國中文信息學會二十周年學術會議論文集[C];2001年

4 周強;陳祖舜;梅立軍;;情境描述的構建方法研究[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年

5 仇偉;黃高輝;姚天f ;;基于HowNet的漢語情感問句二層分類[A];第六屆全國信息檢索學術會議論文集[C];2010年

6 楊曉峰;李堂秋;洪青陽;;漢英機器翻譯系統(tǒng)中的一種詞義排歧方法[A];自然語言理解與機器翻譯——全國第六屆計算語言學聯(lián)合學術會議論文集[C];2001年

7 趙晨光;蔡東風;;利用語義特征生成搭配[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年

8 鄭旭玲;李堂秋;楊曉峰;陳毅東;;基于語義規(guī)則的漢語短語結構分析排歧初探[A];自然語言理解與機器翻譯——全國第六屆計算語言學聯(lián)合學術會議論文集[C];2001年

9 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計算研究[A];江蘇省系統(tǒng)工程學會第十一屆學術年會論文集[C];2009年

10 孫景廣;蔡東風;呂德新;董燕舉;;基于知網(wǎng)的中文問題自動分類[A];第三屆學生計算語言學研討會論文集[C];2006年

相關重要報紙文章 前5條

1 記者 高智虹 通訊員 董學文 李秀國;全市首家生態(tài)豬場落戶青龍[N];秦皇島日報;2008年

2 本報記者 趙丹丹 實習生 張夢雅 胡晶晶;實施就業(yè)扶持 營造創(chuàng)業(yè)環(huán)境[N];蕪湖日報;2010年

3 記者 張璇;寧夏:拓寬選拔渠道 加大激勵保障[N];中國組織人事報;2014年

4 本報記者 段裕祥 通訊員 舒軍忠 劉學永;回家“就業(yè)”天地寬[N];桂林日報;2009年

5 羅志田;詞義變遷的山寨[N];南方周末;2011年

相關博士學位論文 前2條

1 謝岳山;數(shù)據(jù)挖掘技術在聯(lián)網(wǎng)審計中的應用研究[D];中南大學;2013年

2 謝松縣;社交媒體中觀點信息分析與應用[D];國防科學技術大學;2014年

相關碩士學位論文 前10條

1 張磊;基于深度學習和詞典定義的義原預測研究[D];戰(zhàn)略支援部隊信息工程大學;2019年

2 米昂;結合影響力分析的微博輿情溯源研究[D];北京交通大學;2015年

3 司圣濤;領域知識庫的構建方法及其應用研究[D];昆明理工大學;2009年

4 徐晨霞;基于知網(wǎng)的多關鍵字檢索研究[D];重慶大學;2008年

5 張紅云;基于頁面分析的主題網(wǎng)絡爬蟲的研究[D];武漢理工大學;2010年

6 王義;基于語義場的文本檢索技術的研究與實現(xiàn)[D];安徽工業(yè)大學;2012年

7 徐瑛;一種綜合加權的詞語語義相似度計算研究[D];青島理工大學;2011年

8 王瑩瑩;基于敘詞表的中醫(yī)基礎理論知識庫的構建[D];沈陽航空航天大學;2012年

9 王羊羊;基于HowNet的術語語義知識庫構建技術的研究[D];沈陽航空航天大學;2016年

10 張科;基于《知網(wǎng)》義原空間的文本相似度計算研究與實現(xiàn)[D];重慶大學;2013年



本文編號:2630623

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2630623.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶1b119***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com