天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

中文句間關(guān)系識別及其應(yīng)用研究

發(fā)布時間:2019-02-13 03:03
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,底層信息抽取技術(shù)發(fā)展的日趨成熟,搜索引擎等互聯(lián)網(wǎng)應(yīng)用也對文本分析提出了更高的要求,不僅僅希望理解一個句子,更希望理解篇章,篇章語義分析逐漸引起了大家的重視。句間關(guān)系對篇章語義的分析具有重要的作用,在自然語言處理和信息檢索的各個領(lǐng)域都有著重要的作用。句間關(guān)系中的因果關(guān)系對于問答系統(tǒng)的應(yīng)用顯而易見。所謂句間關(guān)系就是指在一個篇章中兩個文本單元之間具有的語義關(guān)聯(lián)。 本文針對中文句間關(guān)系進行系統(tǒng)性的研究。首先我們構(gòu)建了由1096篇文本構(gòu)成的句間關(guān)系語料,針對語料庫的標注內(nèi)容進行了數(shù)據(jù)分析,用以挖掘中文句間關(guān)系的語言表述特點。分析句間關(guān)系各關(guān)系之間語義歧義性等問題。句間關(guān)系可以分為顯示句間關(guān)系和隱式句間關(guān)系兩大類,,本文分別針對這兩類關(guān)系根據(jù)其語言特點進行了識別研究。 顯示句間關(guān)系是指具有明顯關(guān)聯(lián)詞詞連接的兩個文本單元之間的關(guān)系,通過對語料的分析發(fā)現(xiàn)關(guān)聯(lián)詞對于句間關(guān)系具有很強的代表性,因此利用關(guān)聯(lián)詞規(guī)則的方法對顯式句間關(guān)系識別進行了研究,研究發(fā)現(xiàn)利用關(guān)聯(lián)詞規(guī)則的方法針對顯式關(guān)系的識別取得了較好的效果,更近一步利用機器學習與規(guī)則結(jié)合的方法取得了更為理想的效果,其中條件關(guān)系的F值達到了94.93%。 隱式句間關(guān)系相對于顯式關(guān)系則相對具有更大的難度和挑戰(zhàn)性,因為沒有明顯的關(guān)聯(lián)詞來關(guān)聯(lián)兩個文本單元。所以采用了基于機器學習的方法進行識別研究。分別利用最大熵模型和SVM模型進行建模,針對隱式關(guān)系抽取了相應(yīng)的特征,實驗發(fā)現(xiàn)SVM模型取得了更好的實驗結(jié)果,最高擴展關(guān)系的F值達到了72.36%。同時針對實驗所用特征進行了特征分析,其中關(guān)鍵詞特征的表現(xiàn)最為出色,對各個關(guān)系都起到了很大的表征作用。由于有指導的構(gòu)建訓練語料對語料數(shù)量的限制,本文利用過濾后的顯式關(guān)聯(lián)詞針對因果關(guān)系抽取了大量的關(guān)系實例,去掉關(guān)聯(lián)詞后構(gòu)成了隱式關(guān)系,加入到訓練語料中,實驗結(jié)果表明此種方法使得實驗結(jié)果的F值有了較為明顯的提高。 最后,本文考察了句間關(guān)系在事件關(guān)系識別問題上的應(yīng)用,以事件因果關(guān)系為例,發(fā)現(xiàn)加入句間關(guān)系特征后事件因果關(guān)系的識別效果要比傳統(tǒng)的方法實驗效果有明顯的提升。
[Abstract]:With the rapid development of the Internet and the maturation of the underlying information extraction technology, Internet applications, such as search engines, have put forward higher requirements for text analysis, not only to understand a sentence, but also to understand a text. Text semantic analysis has gradually attracted much attention. Intersentence relations play an important role in the analysis of text semantics and in all fields of natural language processing and information retrieval. The application of causality in intersentence relations is obvious. The relationship between sentences refers to the semantic relation between two text units in a text. This paper makes a systematic study on the relationship between Chinese sentences. First of all, we construct a corpus of 1096 texts to analyze the tagging content of the corpus, so as to explore the linguistic characteristics of the relationship between Chinese sentences. This paper analyzes the semantic ambiguity among the relationships between sentences. The relationship between sentences can be divided into two categories: the explicit relationship and the implicit one. This paper studies the two types of relations according to their linguistic characteristics. Showing the relationship between sentences refers to the relationship between two text units with obvious connection words. Through the analysis of the corpus, it is found that the correlation words have strong representativeness for the relationship between sentences. Therefore, the method of association word rules is used to study the relationship recognition between explicit sentences, and it is found that the method of association word rules has achieved good results in the recognition of explicit relations. A more ideal result is obtained by combining machine learning with rules in a further step, in which the F value of conditional relation reaches 94.93. The relationship between implicit sentences is more difficult and challenging than the explicit relation because there are no obvious relevance words to correlate two text units. Therefore, the recognition method based on machine learning is adopted. The maximum entropy model and the SVM model are used to model the model, and the corresponding characteristics are extracted for the implicit relation. The experimental results show that the SVM model has better experimental results, and the F value of the maximum extended relationship reaches 72.36. At the same time, the features used in the experiment are analyzed, among which the key words are the most excellent, which plays a very important role in each relationship. Because of the restrictions on the quantity of the training corpus, this paper uses the filtered explicit relevance words to extract a large number of relational examples for causality, and forms an implicit relationship after removing the associated words, and adds them to the training corpus. The experimental results show that the F value of the experimental results is obviously improved by this method. Finally, this paper investigates the application of intersentence relationship in event relationship recognition. Taking event causality as an example, it is found that the effect of event causality recognition after adding the feature of inter-sentence relationship is significantly improved than that of the traditional experimental method.
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.1

【相似文獻】

相關(guān)期刊論文 前10條

1 洪留榮;王耀才;;數(shù)學公式中字符和符號間空間關(guān)系的識別[J];計算機工程與應(yīng)用;2006年12期

2 羅志成;馬費成;吳曉東;宋倩倩;;從維基分類系統(tǒng)構(gòu)建中文語義詞典研究[J];信息系統(tǒng)學報;2008年02期

3 肖建于;王潛平;洪留榮;;基于凸殼和模糊識別的數(shù)學公式識別[J];計算機應(yīng)用與軟件;2008年05期

4 張合;王曉東;楊照巖;;本體驅(qū)動的面向主題的網(wǎng)頁關(guān)系識別[J];河南師范大學學報(自然科學版);2009年02期

5 張巍;于洋;游宏梁;;面向詞匯知識庫自動構(gòu)建的概念術(shù)語關(guān)系識別[J];現(xiàn)代圖書情報技術(shù);2009年11期

6 仲兆滿;劉宗田;;利用事件影響關(guān)系識別文本集合中重要事件的方法[J];模式識別與人工智能;2010年03期

7 諸葛理繡;王軍華;周晨;;基于信息系統(tǒng)架構(gòu)的信息資產(chǎn)分類與關(guān)系識別[J];計算機系統(tǒng)應(yīng)用;2009年07期

8 李文翔,晏蒲柳,張濱,夏德麟;基于語料庫的關(guān)聯(lián)詞識別方法[J];計算機工程與應(yīng)用;2004年07期

9 莊成龍;錢龍華;周國棟;;基于樹核函數(shù)的實體語義關(guān)系抽取方法研究[J];中文信息學報;2009年01期

10 張奇;金培權(quán);岳麗華;;基于CRF的網(wǎng)頁動態(tài)關(guān)系抽取研究[J];中國科學技術(shù)大學學報;2010年11期

相關(guān)會議論文 前10條

1 游旭群;楊治良;;視覺空間關(guān)系識別中的認知加工特性研究[A];第九屆全國心理學學術(shù)會議文摘選集[C];2001年

2 劉子軍;馮白翎;鄭遠宏;;幼女被奸后大出血鑒定1例[A];中國法醫(yī)學會全國第十次法醫(yī)臨床學學術(shù)研討會論文集[C];2007年

3 李丹;羅智勇;;基于序列模式挖掘的人物關(guān)系識別[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年

4 姚天f ;;一種用于漢語信息抽取的詞匯本體[A];全國第八屆計算語言學聯(lián)合學術(shù)會議(JSCL-2005)論文集[C];2005年

5 莊成龍;錢龍華;周國棟;;基于樹核函數(shù)的實體關(guān)系抽取方法研究[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年

6 劉德榮;王永成;;基于詞典和語料庫的概念內(nèi)聚度研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年

7 劉海濤;;影響依存句法分析的因素探討[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學學術(shù)會議論文集[C];2007年

8 唐永明;王小捷;文娟;;基于關(guān)聯(lián)詞的復句語言模型[A];第三屆中國智能計算大會論文集[C];2009年

9 劉星華;;如何區(qū)別和確定某些定語從句和說明從句[A];國際交流學院科研論文集(第一期)[C];1994年

10 李向陽;張亞非;;一種基于語義的漢語短語識別方法[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年

相關(guān)重要報紙文章 前10條

1 華靜;七大誘惑誘發(fā)公務(wù)員熱[N];中國改革報;2006年

2 本報記者 秦志勇 通訊員 溫天慶 方海波;和諧—合力 創(chuàng)新—活力 發(fā)展—助力 支持—動力[N];人民政協(xié)報;2006年

3 通訊員 盧丹;讓節(jié)約成為我們的自覺行動[N];中國石油報;2006年

4 本報記者 曹秀娟邋實習生 李濤;熱議省城四個環(huán)保話題[N];山西日報;2008年

5 記者 洪奕宜 通訊員 粵紀宣;反腐促廉政 亮劍為民生[N];南方日報;2008年

6 舒伊;復合肥;2005繼續(xù)輝煌?[N];中華合作時報;2005年

7 郭兆平 楊_g;省城空氣質(zhì)量報告[N];山西日報;2006年

8 曹保順;2004年高考語文虛詞解析[N];中國教育報;2004年

9 本報赴北京報道組 李煊清 華大學學生 郭賈雪 點評:中國新聞出版報副總編輯 張秀平;“鳥巢樂團”指揮人[N];河南日報;2006年

10 賈光;從保健酒業(yè)行業(yè)看名牌效應(yīng)[N];中國工業(yè)報;2007年

相關(guān)博士學位論文 前10條

1 張海軍;基于大規(guī)模語料的中文新詞識別技術(shù)研究[D];中國科學技術(shù)大學;2011年

2 劉健;基于近似文本分析的意見挖掘[D];上海大學;2007年

3 文娟;統(tǒng)計語言模型的研究與應(yīng)用[D];北京郵電大學;2010年

4 穆一夫;基于認知的非結(jié)構(gòu)化信息抽取關(guān)鍵技術(shù)與算法研究[D];中國礦業(yè)大學(北京);2013年

5 張瑞朋;現(xiàn)代漢語書面語中跨標點句句法關(guān)系約束條件的研究[D];北京語言大學;2007年

6 蒲強;基于獨立分量分析的語義聚類技術(shù)在信息檢索中的應(yīng)用研究[D];電子科技大學;2010年

7 計峰;自然語言處理中序列標注模型的研究[D];復旦大學;2012年

8 杜偉夫;文本傾向性分析中的情感詞典構(gòu)建技術(shù)研究[D];哈爾濱工業(yè)大學;2010年

9 宋剛;普通話兒童早期動詞習得:范疇、論元結(jié)構(gòu)與句法線索[D];北京語言大學;2009年

10 周亦鵬;基于軟件人的情境主題分析及應(yīng)用研究[D];北京科技大學;2012年

相關(guān)碩士學位論文 前10條

1 宋原;中文句間關(guān)系識別及其應(yīng)用研究[D];哈爾濱工業(yè)大學;2013年

2 王風娥;漢語文本中的時間關(guān)系識別技術(shù)研究[D];山西大學;2012年

3 劉莉;中文時間事件關(guān)系識別的方法研究[D];重慶大學;2012年

4 孫輝;事件時序關(guān)系識別的研究與實現(xiàn)[D];哈爾濱工業(yè)大學;2010年

5 焦福增;基于特征的產(chǎn)品評論挖掘關(guān)鍵問題研究[D];山東大學;2013年

6 顧雪峰;基于動態(tài)粒度思想的實體關(guān)系識別方法研究[D];山西大學;2006年

7 林永志;基于語義關(guān)系識別的二次檢索[D];上海交通大學;2009年

8 程佳;熱點新聞間關(guān)系的研究[D];上海交通大學;2011年

9 劉颯;專業(yè)領(lǐng)域可比語料的構(gòu)建與評價研究[D];南京理工大學;2012年

10 丁溪源;基于大規(guī)模語料的中文新詞抽取算法的設(shè)計與實現(xiàn)[D];南京理工大學;2011年



本文編號:2421103

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2421103.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶37b70***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com