英語學術論文摘要語步結構自動識別模型的構建
發(fā)布時間:2017-06-10 02:10
本文關鍵詞:英語學術論文摘要語步結構自動識別模型的構建,由筆耕文化傳播整理發(fā)布。
【摘要】:大數據時代,如何科學、全面的反映一個學科的知識結構和發(fā)展狀況至關重要,摘要是學科知識挖掘的一個便捷且重要的數據來源,但現有的知識挖掘很難定位摘要中的關鍵信息語步,更無法實現語步內部的知識挖掘,這就需要構建摘要語步的自動識別模型;谖谋咀詣臃诸惖难芯砍晒,自然語言處理領域出現了三類摘要語步自動識別模型,但這三類模型各有利弊。純粹以統(tǒng)計詞頻構建的詞袋模型,雖然能夠窮盡詞項特征,但對特征不做篩選和歸類,導致特征稀疏。基于規(guī)則提取語言學特征構建的模型,雖然避免了特征稀疏的問題,但未能全面系統(tǒng)地提取所有特征。第三類結合詞袋和語境特征構建的模型,雖然識別效果很好,但只能針對結構化摘要,對大量非結構化摘要的識別效果仍然差強人意。針對這種情況,本研究旨在以現有的摘要語步結構自動識別模型為出發(fā)點,針對現有模型語言特征提取不足的問題,結合語言學理論和方法,提取新的特征,同時借助語料庫語言學、自然語言處理、信息檢索技術以及統(tǒng)計學等學科中的研究方法,試圖構建運行效果更好的能夠自動識別常見類型英文摘要語步結構的模型。本研究模型的構建大體分四個階段:(1)語料的準備和預處理階段。我們下載了Web of Science數據庫收錄的《應用語言學》期刊自1993年到2014年出版的所有論文摘要,剔除書評、會議論文、編者語,共計440篇。然后對文本進行清理,以及進行自動詞性賦碼和句法分析。(2)人工標注階段。由三位相關專業(yè)研究人員對語料進行人工標注,標注過程前后持續(xù)一年,經歷了基于已有研究提出的標注方案自上而下地標注,以及不帶有任何已有的方案自下而上地標注,最后采用了兩種方法相結合的方式,并確定了以完整的語句為標注單位的六語步標注方案。經檢驗,兩位標注人員獨立標注的一致性較好(Kappa =.785),然后對獨立標注中二者不一致的地方進行多次討論、修改,達成完全一致。(3)提取特征構建模型階段。人工標注完語步結構之后,利用一系列研究工具和方法,提取有效的語步預測特征,再利用這些特征和數據訓練學習分類器(條件隨機場),獲得模型。(4)模型的驗證階段。利用構建的模型預測驗證集的語步類別,將模型預測的驗證集的語步類別與人工標注類別對比,得到模型的識別效果,再與現有的同類模型作對比,探索本模型的優(yōu)勢與不足。本研究的主要發(fā)現可以概括為摘要的語步分析、語步結構的有效預測特征和模型的識別效果三方面。第一,本研究突破了傳統(tǒng)語步分析的方法,基于對大量數據的實際分析印證并完善了已有的語類研究理論。第二二,本研究驗證了已有模型提取的4個特征的有效性,證實了新加入的3個特征的有效預測力,通過對比發(fā)現以語料庫的方法提取的新特征比傳統(tǒng)方法提取的特征效果更好。從特征的三個維度來看,意義特征對語步的識別度最高(F=0.609),其次是語境特征(F=0.428),識別度最低的是形式特征(F=0.317)。第三,本研究構建了摘要語步結構的自動識別模型,模型的識別效果(F=0.7819)是現有自動識別模型中效果最好的,對信息型摘要的識別效果比現有識別效果最好的模型提高了4.5%。為了保證可比性,我們利用同一批語料訓練詞袋模型AntMover,結果本研究的模型比AntMover的識別效果提高了約23%。摘要語步結構自動識別模型的構建,為下一步學科知識挖掘中定位摘要的語步以及語步內部的關鍵知識奠定了基礎。另一方面,語步的自動識別突破了ESP領域長久以來的人工識別法,為語步分析理論和實證研究走向更多的學科和研究領域,發(fā)展成為一個更全面、多視角、多維度的語步分析領域提供了可能。
【關鍵詞】:語類分析 語步結構 自動識別 英文摘要
【學位授予單位】:北京外國語大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:H315
【目錄】:
- 致謝4-6
- 摘要6-8
- Abstract8-18
- 縮略語表18-19
- 第一章 緒論19-24
- 1.1 研究背景19-20
- 1.2 本選題的意義20-22
- 1.2.1 理論意義20
- 1.2.2 方法意義20-21
- 1.2.3 實踐意義21-22
- 1.3 研究概述22
- 1.4 論文結構22-23
- 1.5 小結23-24
- 第二章 已有的摘要語步結構自動識別模型綜述24-44
- 2.1 關鍵概念24-26
- 2.1.1 摘要24-25
- 2.1.2 語類25-26
- 2.1.3 語步26
- 2.2 文本分類26-33
- 2.2.1 定義及其發(fā)展26-27
- 2.2.2 文本分類的一般步驟27-28
- 2.2.3 文本分類器28-33
- 2.3 現有的摘要語步自動識別模型33-42
- 2.3.1 詞袋模型33-34
- 2.3.2 基于語境特征構建的模型34-36
- 2.3.3 基于語言學特征構建的模型36-40
- 2.3.4 現有模型的比較40-42
- 2.4 現有模型對本研究的啟示42-43
- 2.5 小結43-44
- 第三章 摘要的語類研究綜述44-67
- 3.1 語類研究綜述44-51
- 3.1.1 理論探索44-48
- 3.1.2 實證研究48-50
- 3.1.3 已有語類研究的不足50-51
- 3.2 摘要研究綜述51-64
- 3.2.1 摘要的語類研究51-53
- 3.2.2 摘要的語言特征研究53-64
- 3.3 本研究的概念模型64-66
- 3.4 小結66-67
- 第四章 研究方法67-103
- 4.1 研究問題67
- 4.2 研究設計和研究流程67-69
- 4.3 研究工具69-76
- 4.3.1 語料處理工具69-71
- 4.3.2 特征提取工具71-72
- 4.3.3 模型構建與驗證工具72-76
- 4.4 語料76-77
- 4.5 語料的人工標注77-87
- 4.5.1 先導研究79-80
- 4.5.2 第一次完整標注80-83
- 4.5.3 標注員培訓83-84
- 4.5.4 第二次完整標注84-86
- 4.5.5 人工標注的信度報告86-87
- 4.6 建模前的語料準備87-89
- 4.7 特征提取89-100
- 4.7.1 形式特征提取89-97
- 4.7.2 意義特征提取97-99
- 4.7.3 語境特征提取99-100
- 4.8 模型的構建與驗證100-102
- 4.9 小結102-103
- 第五章 建模前的語步結構和語言特征描寫103-149
- 5.1 摘要的語步分析103-114
- 5.1.1 語步類別的總體分布103-104
- 5.1.2 實際結構104-106
- 5.1.3 原型結構106-107
- 5.1.4 衍生原則107-111
- 5.1.5 類型與語類的關系111-114
- 5.2 摘要的語步預測特征114-148
- 5.2.1 形式特征114-119
- 5.2.2 意義特征119-144
- 5.2.3 語境特征144-148
- 5.3 小結148-149
- 第六章 摘要語步自動識別模型的構建與優(yōu)化149-164
- 6.1 基于概率的初步模型149-155
- 6.1.1 模型識別度的判斷指標149-150
- 6.1.2 初步模型的識別度150-152
- 6.1.3 構建初步模型的特征152-155
- 6.2 基于統(tǒng)計和規(guī)則的優(yōu)化模型155-157
- 6.3 優(yōu)化模型的識別效果157-160
- 6.4 管道模型160-162
- 6.5 模型的應用162-163
- 6.6 小結163-164
- 第七章 結論164-168
- 7.1 研究發(fā)現164-167
- 7.1.1 基于大量數據分析印證和完善了已有的語類理論164-165
- 7.1.2 摘要語步的有效預測特征165-166
- 7.1.3 摘要的語步結構自動識別模型166-167
- 7.2 本研究的局限與未來研究方向167-168
- 參考文獻168-180
- 附錄180-203
本文關鍵詞:英語學術論文摘要語步結構自動識別模型的構建,由筆耕文化傳播整理發(fā)布。
,本文編號:437195
本文鏈接:http://www.sikaile.net/wenshubaike/lwzy/437195.html