基于結構化數(shù)據(jù)的雙語自動問答系統(tǒng)研究與實現(xiàn)
本文關鍵詞:基于結構化數(shù)據(jù)的雙語自動問答系統(tǒng)研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著信息時代的到來和web2.0技術的快速發(fā)展,結構化數(shù)據(jù)得到極大豐富。由于傳統(tǒng)搜索引擎的固有缺陷,自動問答受到越來越多研究者的關注。同時,結構化知識的擁有易用性高、可信度高等特點。因此,研究更加高效、實用的基于結構化數(shù)據(jù)的自動問答系統(tǒng),具有非常重要的研究意義和實用價值。本文旨在研究基于結構化數(shù)據(jù)的問答系統(tǒng)中涉及的關鍵技術,并在研究的基礎上實現(xiàn)基于DBpedia和百度百科三元組結構化數(shù)據(jù)的雙語自動問答系統(tǒng)。論文主要工作和創(chuàng)新點包括:1)分析了問答系統(tǒng)的主要類型和研究現(xiàn)狀,闡述了本文的研究背景和研究意義,并詳細探討了問答系統(tǒng)中涉及的關鍵技術;2)提出并實現(xiàn)了基于依存樹的中英文問句分析算法,有效地抽取問句中的關系短語和表述,并提出啟發(fā)式規(guī)則用以改善抽取效果。針對問句的特點,使用有監(jiān)督機器學習方法,改進了共指消解算法。提出了基于后綴樹的候選節(jié)點召回和查詢擴展的方法,并基于規(guī)則對候選節(jié)點進行過濾,實現(xiàn)了基于排序學習的實體鏈接算法;3)提出并實現(xiàn)了融合子圖匹配和SPARQL語句的答案抽取算法,提出了基于語義屬性的匹配規(guī)則,改進了子圖匹配算法。對于簡單類型問句,系統(tǒng)將問句轉化為查詢圖,進而通過子圖匹配的方式在知識庫中查找答案,保證系統(tǒng)效率;對于包含最高級、統(tǒng)計等形式的復雜問句,通過轉換成SPARQL語句的方式查找答案,增強了問答系統(tǒng)可用性;4)針對中文結構化數(shù)據(jù)量較小且不完善的問題,通過翻譯模塊,引入英文知識庫幫助回答中文問題。設計并實現(xiàn)了基于結構化數(shù)據(jù)的雙語自動問答系統(tǒng),最后通過實驗驗證了系統(tǒng)性能。
【關鍵詞】:結構化數(shù)據(jù) 問句分析 實體鏈接 答案抽取 中英翻譯
【學位授予單位】:北京理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-10
- 第1章 緒論10-16
- 1.1 研究背景與意義10-12
- 1.1.1 研究背景10
- 1.1.2 研究意義10-12
- 1.2 研究現(xiàn)狀和發(fā)展趨勢12-14
- 1.3 本文的主要工作和結構安排14-15
- 1.3.1 本文的主要工作14
- 1.3.2 本文的結構安排14-15
- 1.4 本章小結15-16
- 第2章 相關技術16-26
- 2.1 基于結構化數(shù)據(jù)的問答系統(tǒng)16-19
- 2.1.1 基于關系數(shù)據(jù)庫的問答系統(tǒng)17-18
- 2.1.2 基于本體的問答系統(tǒng)18-19
- 2.1.3 基于XML數(shù)據(jù)庫的自動問答系統(tǒng)19
- 2.2 共指消解相關技術19-23
- 2.2.1 基于規(guī)則的共指消解19-20
- 2.2.2 基于學習的共指消解20-23
- 2.3 實體鏈接相關技術23-24
- 2.3.1 檢索模型23-24
- 2.3.2 分類模型24
- 2.4 答案抽取相關技術24-25
- 2.4.1 基于SPARQL語句的答案抽取24-25
- 2.4.2 基于子圖匹配的答案抽取25
- 2.5 本章小結25-26
- 第3章 基于依存樹的問句分析與理解26-36
- 3.1 問題描述26-27
- 3.2 基于依存樹的英文問句分析27-30
- 3.2.1 英文問句中的關系抽取27-30
- 3.2.2 英文問句表述抽取30
- 3.3 中文問句分析30-32
- 3.3.1 基于依存分析的中文問句分析30-31
- 3.3.2 基于字典樹的中文問句分析31-32
- 3.4 基于表述對模型的共指消解32-35
- 3.4.1 表述檢測32
- 3.4.2 表述對構建32-34
- 3.4.3 實驗結果及分析34-35
- 3.5 本章小結35-36
- 第4章 基于排序學習的實體鏈接36-44
- 4.1 問題描述36
- 4.2 候選知識庫節(jié)點召回36-37
- 4.3 知識庫節(jié)點排序37-43
- 4.3.1 排序特征的選擇37-42
- 4.3.2 基于排序學習的知識庫節(jié)點排序42-43
- 4.4 實驗結果及分析43
- 4.5 本章小結43-44
- 第5章 基于結構化數(shù)據(jù)的答案抽取44-49
- 5.1 問題描述44
- 5.2 基于子圖匹配的答案抽取44-47
- 5.2.1 查詢子圖的構建和排序45
- 5.2.2 改進的子圖匹配算法45-47
- 5.3 基于SPARQL語句的答案抽取47-48
- 5.3.1 SPARQL語句的生成47-48
- 5.3.2 SPARQL語句的執(zhí)行48
- 5.4 本章小結48-49
- 第6章 BSDQA系統(tǒng)的設計與實現(xiàn)49-60
- 6.1 引言49
- 6.2 BSDQA總體設計49-53
- 6.2.1 實驗環(huán)境49
- 6.2.2 系統(tǒng)框架49-51
- 6.2.3 處理流程51-52
- 6.2.4 系統(tǒng)演示52
- 6.2.5 系統(tǒng)邏輯結構52-53
- 6.3 系統(tǒng)所用知識庫和工具包53-55
- 6.3.1 雙語知識庫53-55
- 6.3.2 外部工具包55
- 6.4 BSDQA系統(tǒng)各模塊的實現(xiàn)55-59
- 6.4.1 問句分析模塊55-57
- 6.4.2 實體鏈接模塊57
- 6.4.3 問句翻譯模塊57-58
- 6.4.4 答案抽取模塊58-59
- 6.5 實驗結果及分析59
- 6.6 本章小結59-60
- 第7章 總結與展望60-61
- 參考文獻61-65
- 攻讀學位期間發(fā)表論文與研究成果清單65-66
- 致謝66
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李自平,徐蓉芬,陳芝萍;結構化數(shù)據(jù)獲取與處理系統(tǒng)[J];核電子學與探測技術;1988年01期
2 蘇祖輝;;一種結構化數(shù)據(jù)交換格式及方法[J];中小企業(yè)管理與科技(上旬刊);2012年07期
3 劉大滏;趙盛;;非結構化數(shù)據(jù)的ETL設計方法探討[J];科技創(chuàng)新與應用;2014年14期
4 文必龍;王瑞;姚建蓬;黃俊蓮;;一種Excel數(shù)據(jù)到結構化數(shù)據(jù)的轉換方法[J];佳木斯大學學報(自然科學版);2006年03期
5 金更達;潘燕軍;;結構化數(shù)據(jù)長期保存問題探析[J];檔案學通訊;2006年05期
6 周進剛;邢鐵軍;紀勇;趙大哲;;一種結構化數(shù)據(jù)緩存方法[J];計算機工程;2010年20期
7 戴弘寧,文貴華,丁月華,范崇貴;非結構化數(shù)據(jù)的可視化編輯系統(tǒng)[J];計算機應用研究;2003年06期
8 李愛民;譚獻海;;基于XML技術的非結構化數(shù)據(jù)到結構化數(shù)據(jù)轉換的研究[J];鐵路計算機應用;2012年10期
9 曹金山;張澤濱;;非結構化數(shù)據(jù)的ETL設計[J];現(xiàn)代電子技術;2011年10期
10 潘順,金遠平,歐陽曄;結構化數(shù)據(jù)到XML數(shù)據(jù)的語義映射[J];東南大學學報(自然科學版);2002年03期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 陶曉鵬;胡運發(fā);周水庚;王寧;;面向功能集成的結構化數(shù)據(jù)采掘語言[A];第十五屆全國數(shù)據(jù)庫學術會議論文集[C];1998年
2 金更達;潘燕軍;;結構化數(shù)據(jù)長期保存問題探析[A];2007年浙江省高等學校檔案優(yōu)秀論文集[C];2007年
3 黃正行;呂旭東;段會龍;李昊e,
本文編號:284904
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/284904.html