天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

多動詞漢語概念復合塊的分析與標注研究

發(fā)布時間:2017-10-22 08:26

  本文關鍵詞:多動詞漢語概念復合塊的分析與標注研究


  更多相關文章: 句法分析樹庫 標注庫規(guī)范化 動詞層次分類 “移進-歸約”分析 標簽預測


【摘要】:隨著時代的發(fā)展,科學技術的日益進步,數(shù)據(jù)在人們?nèi)粘I钪邪缪葜絹碓街匾慕巧?作為自然語言處理重點研究內(nèi)容的句法分析研究也越來越被學者們所重視。句法分析是自然語言處理領域的重點研究內(nèi)容,同時又是難點。對漢語句子的完全句法分析具有較大的難度,現(xiàn)階段的分析方法仍處于初級階段,很難在實際中應用。為了降低完全句法分析操作的難度,同時為現(xiàn)階段的研究提供數(shù)據(jù)支持,組塊分析技術受到了研究者的青睞。組塊分析是采用“分而治之”的思想,將復雜問題模塊化,其關注的主要問題有:塊分割粒度大小的確定、塊內(nèi)和塊外的結構表示等。因此,概念復合塊描述體系被提出,可以描述句子的基本結構,以及各個塊內(nèi)部結構。目前的句法分析器都是通用型的,在普通句和一般的簡單句上的分析結果比較理想,而如果句式復雜,比如包含多個動詞的情況時,分析器的結果不理想。原因是分析器對動詞所處位置分析不準確,造成成分劃分錯誤,且國內(nèi)很少有研究者針對包含多個動詞的句子設計專門的句法分析器。本文針對以上存在的問題展開了如下幾個方面的研究工作:首先,本文在概念層次上對概念復合塊體系進行了描述,然后根據(jù)漢語句子的分析需要,對目前的概念復合塊定義中包含多個動詞的內(nèi)容進行了描述。本文利用概念復合塊體系的標準進行分析研究,提出了對句法標注樹庫的規(guī)范化研究的方法。句法標注樹庫的準確度對后續(xù)訓練模型、規(guī)則與數(shù)據(jù)抽取過程息息相關。因而本文首先對人工標注的句法樹庫進行觀察與統(tǒng)計分析,設計了規(guī)范化處理方法。利用該方法,本文將句法樹庫中可能包含的一些錯誤進行修正和剔除,提高樹庫標注的可靠度,為構建訓練數(shù)據(jù)做好準備工作。其次,本文根據(jù)概念復合塊自動分析過程中對包含多動詞句子分析錯誤的類型進行分析,提出了一種針對概念復合塊的動詞層次分類的方法。對已規(guī)范化處理的句法樹庫,通過分析觀察包含多個動詞的句子的特點,以及標注錯誤類型,得知在包含多個動詞的句子中,通常由于對動詞的分析錯誤而導致整句的分析不準確。本文利用統(tǒng)計方法,首先將包含多個動詞的句子進行抽取,分析動詞構成規(guī)律,設計了一套規(guī)則分析的方法:將句子中的動詞所屬的層次進行分類,也即確定動詞所屬位置,將動詞劃分結果作為下一步分析的輸入。實驗表明,本實驗中利用規(guī)則方法對動詞進行分類,可以對后續(xù)分析器起到較好的作用。最后,本文提出了多動詞的自動分析方法。通過對包含多個動詞句子中的動詞所屬成分進行分析,對符合規(guī)則的動詞內(nèi)容進行分類處理,得出動詞層次關系后,利用“移進-歸約”的組塊分析方法對句子進行整體分析,并在原始的“移進-歸約”結束條件中加入對動詞是否歸約結束的判斷:若原屬于同一組塊的動詞沒有歸約到同一組塊,則繼續(xù)歸約到同一組塊;對不屬于同一組塊而分析器卻要歸約到同一組塊的情況不采取規(guī)約操作。在對加入規(guī)約條件后的組塊中,包含一些無法確定關系標記的部分,采用標簽預測的方法進行處理,最終得到一個完整的分析句子。實驗表明,本方法在對包含多個動詞的分析處理中,分析結果較通用分析器好,對句子中的動詞成分處理更加準確,從而提升了分析器對復雜句處理的整體效果。
【關鍵詞】:句法分析樹庫 標注庫規(guī)范化 動詞層次分類 “移進-歸約”分析 標簽預測
【學位授予單位】:北京信息科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 緒論10-14
  • 1.1 研究背景10
  • 1.2 國內(nèi)外研究現(xiàn)狀10-11
  • 1.3 研究的意義與應用前景11-12
  • 1.4 本文研究思路和主要工作12
  • 1.5 論文組織結構12-14
  • 第2章 概念復合塊簡介14-19
  • 2.1 概念復合塊目標14
  • 2.2 概念復合塊描述體系14-16
  • 2.3 多動詞概念復合塊16-19
  • 第3章 概念復合塊標注庫規(guī)范化研究19-30
  • 3.1 引言19
  • 3.2 概念復合塊標注庫規(guī)范化處理目標19-20
  • 3.3 概念復合塊標注庫規(guī)范化處理方法20-27
  • 3.3.1 錯誤詞類標記自動調整20-23
  • 3.3.2 事件句式內(nèi)部特征標記自動補充23-25
  • 3.3.3 空間塊和時間塊標記一致化處理25-27
  • 3.4 規(guī)范化結果評價27-29
  • 3.5 小結29-30
  • 第4章 概念復合塊動詞層次分類研究30-43
  • 4.1 引言30
  • 4.2 概念復合塊動詞分布特征分析30-34
  • 4.3 規(guī)則庫自動提取34-37
  • 4.4 概念復合塊動詞層次分類方法37-39
  • 4.5 實驗結果與分析39-42
  • 4.5.1 實驗設置39-41
  • 4.5.2 結果及分析41-42
  • 4.6 本章小結42-43
  • 第5章 多動詞漢語概念復合塊自動分析研究43-57
  • 5.1 引言43
  • 5.2 多動詞概念復合塊分析難點43-48
  • 5.3 概念復合塊分析方法48-54
  • 5.3.1 移進--歸約塊分析方法(SR)48-49
  • 5.3.2 改進的移進—歸約分析方法(ISR)49-51
  • 5.3.3 特征選擇51-53
  • 5.3.4 標簽預測53-54
  • 5.4 實驗結果與分析54-56
  • 5.4.1 實驗設置54
  • 5.4.2 ISR CCC Parser與SR CCC Parser性能分析比較54-56
  • 5.5 本章小結56-57
  • 第6章 工作總結與展望57-59
  • 6.1 本文工作總結57
  • 6.2 下一步工作57-59
  • 參考文獻59-62
  • 附錄A 表目錄62-63
  • 附錄B 圖目錄63-64
  • 個人簡歷 在校期間發(fā)表論文與研究成果64-65
  • 致謝65

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 姜維;龐秀麗;;面向數(shù)據(jù)稀疏問題的個性化組合推薦研究[J];計算機工程與應用;2012年21期

2 馬驥;朱慕華;肖桐;朱靖波;;面向移進—歸約句法分析器的單模型系統(tǒng)整合算法[J];中文信息學報;2012年03期

3 孫廣路;郎非;薛一波;;基于條件隨機域和語義類的中文組塊分析方法[J];哈爾濱工業(yè)大學學報;2011年07期

4 韋向峰;張全;;漢語塊擴句的自動分析[J];計算機科學;2010年04期

5 周強;李玉梅;;漢語塊分析評測任務設計[J];中文信息學報;2010年01期

6 宇航;周強;;漢語基本塊標注系統(tǒng)的內(nèi)部關系分析[J];清華大學學報(自然科學版);2009年10期

7 周俊生;戴新宇;陳家駿;曲維光;;基于大間隔方法的漢語組塊分析[J];軟件學報;2009年04期

8 劉挺;馬金山;;漢語自動句法分析的理論與方法[J];當代語言學;2009年02期

9 黃德根;于靜;;分布式策略與CRFs相結合識別漢語組塊[J];中文信息學報;2009年01期

10 孫昂;江銘虎;賀一帆;陳林;袁保宗;;基于句法分析和答案分類的中文問答系統(tǒng)[J];電子學報;2008年05期

,

本文編號:1077563

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/1077563.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶64f35***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com