基于信息抽取問(wèn)答系統(tǒng)的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于信息抽取問(wèn)答系統(tǒng)的研究與實(shí)現(xiàn)
更多相關(guān)文章: 問(wèn)答系統(tǒng) 信息抽取 實(shí)體關(guān)系 命名實(shí)體 層次法
【摘要】:目前世界正處在一個(gè)信息爆炸時(shí)代,網(wǎng)絡(luò)資源以幾何形式迅速增長(zhǎng)。人們可以通過(guò)搜索引擎很容易從互聯(lián)網(wǎng)上獲取信息,但是由于傳統(tǒng)的搜索引擎僅以關(guān)鍵詞組合進(jìn)行檢索和其返回的結(jié)果是一堆網(wǎng)頁(yè)等缺點(diǎn),導(dǎo)致傳統(tǒng)搜索引擎已經(jīng)不能夠滿足人們的信息檢索需求。問(wèn)答系統(tǒng)融合信息檢索和自然語(yǔ)言處理等技術(shù)的優(yōu)點(diǎn),通過(guò)以自然語(yǔ)言形式的問(wèn)句作為輸入,采用自然語(yǔ)言處理技術(shù)深層次分析用戶(hù)的檢索意圖,然后根據(jù)意圖從知識(shí)庫(kù)中定位答案,最后直接將答案抽取出來(lái),而不是一堆相關(guān)的網(wǎng)頁(yè)。所以問(wèn)答系統(tǒng)是一種能更好地滿足人們信息檢索需求的方式。本文對(duì)問(wèn)答系統(tǒng)的關(guān)鍵技術(shù)進(jìn)行了研究,并且實(shí)現(xiàn)了一個(gè)基于信息抽取技術(shù)的問(wèn)答系統(tǒng),主要工作如下:第一、信息抽取引擎研究。本文系統(tǒng)抽取引擎分為自然語(yǔ)言處理和信息抽取兩部分,自然語(yǔ)言處理實(shí)現(xiàn)分詞、詞性標(biāo)注、語(yǔ)義分析等,信息抽取實(shí)現(xiàn)命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取。命名實(shí)體和實(shí)體關(guān)系對(duì)本系統(tǒng)的問(wèn)題分析和答案提取有重要影響,并且信息抽取引擎伴隨著問(wèn)答系統(tǒng)的整個(gè)過(guò)程。第二、問(wèn)題分析。本文提出利用關(guān)鍵詞抽取、命名實(shí)體識(shí)別及命名實(shí)體間關(guān)系識(shí)別等信息抽取技術(shù)分析問(wèn)題,將問(wèn)題劃分為三類(lèi):實(shí)體關(guān)系型、實(shí)體型和關(guān)鍵詞型。對(duì)于實(shí)體關(guān)系型和實(shí)體型問(wèn)句,還可以根據(jù)具體的實(shí)體關(guān)系或?qū)嶓w,將問(wèn)句進(jìn)行更加細(xì)致的分類(lèi)。第三、答案抽取。本文提出了基于層次法的答案提取算法,按照實(shí)體關(guān)系型→實(shí)體型→關(guān)鍵詞型層順序獲得短語(yǔ)級(jí)和句子級(jí)答案集,利用基礎(chǔ)特征(相同關(guān)鍵詞頻度,關(guān)鍵詞間距,最長(zhǎng)字符串匹配)、命名實(shí)體匹配和實(shí)體關(guān)系匹配特征進(jìn)行重排序,獲得最佳答案。并且對(duì)于實(shí)體關(guān)系型問(wèn)題,通過(guò)匹配問(wèn)題和候選答案的實(shí)體關(guān)系三元組,直接獲得答案。第四、系統(tǒng)實(shí)現(xiàn)。設(shè)計(jì)并實(shí)現(xiàn)了基于信息抽取問(wèn)答系統(tǒng)。利用Lucene實(shí)現(xiàn)建立索引和查找,并且部署在Hadoop平臺(tái)上,提高了建立索引和查找的速率。
【關(guān)鍵詞】:問(wèn)答系統(tǒng) 信息抽取 實(shí)體關(guān)系 命名實(shí)體 層次法
【學(xué)位授予單位】:西安郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 摘要3-4
- ABSTRACT4-8
- 第1章 緒論8-12
- 1.1 背景8
- 1.2 研究現(xiàn)狀8-10
- 1.2.1 國(guó)外研究現(xiàn)狀9-10
- 1.2.2 國(guó)內(nèi)研究現(xiàn)狀10
- 1.3 本文主要研究?jī)?nèi)容10
- 1.4 本文結(jié)構(gòu)10-12
- 第2章 相關(guān)概念和關(guān)鍵技術(shù)12-22
- 2.1 信息抽取技術(shù)12-14
- 2.1.1 信息抽取技術(shù)概述12-14
- 2.1.2 命名實(shí)體識(shí)別14
- 2.2 經(jīng)典的信息檢索模型14-16
- 2.2.1 布爾邏輯模型14-15
- 2.2.2 模糊邏輯模型15
- 2.2.3 向量空間模型15-16
- 2.2.4 概率檢索模型16
- 2.3 問(wèn)題分類(lèi)技術(shù)研究16-19
- 2.3.1 問(wèn)句分類(lèi)體系16-17
- 2.3.2 問(wèn)句分類(lèi)模型17-19
- 2.4 句子相似度研究19-21
- 2.4.1 基于語(yǔ)義的句子相似度算法20
- 2.4.2 基于句法分析的句子相似度算法20-21
- 2.4.3 基于編輯距離的句子相似度算法21
- 2.5 本章小結(jié)21-22
- 第3章 基于信息抽取問(wèn)答系統(tǒng)中關(guān)鍵技術(shù)研究22-36
- 3.1 信息抽取引擎22-27
- 3.1.1 詞性標(biāo)注和分詞22-23
- 3.1.2 命名實(shí)體識(shí)別23-25
- 3.1.3 實(shí)體關(guān)系信息抽取25-26
- 3.1.4 實(shí)體信息抽取系統(tǒng)性能測(cè)試26-27
- 3.2 基于問(wèn)點(diǎn)的問(wèn)題分類(lèi)方法27-29
- 3.2.1 去除停用詞27
- 3.2.2 關(guān)鍵詞提取27-28
- 3.2.3 關(guān)鍵詞擴(kuò)展28
- 3.2.4 基于問(wèn)點(diǎn)的問(wèn)題分類(lèi)方法28-29
- 3.3 基于層次的答案提取算法29-33
- 3.3.1 基礎(chǔ)特征30-31
- 3.3.2 NE過(guò)濾特征31-32
- 3.3.3 CE提取特征32
- 3.3.4 重排序設(shè)計(jì)32-33
- 3.4 基于層次答案提取算法實(shí)驗(yàn)分析33-34
- 3.4.1 實(shí)驗(yàn)方案33
- 3.4.2 實(shí)驗(yàn)結(jié)果分析33-34
- 3.5 本章小結(jié)34-36
- 第4章 基于信息抽取問(wèn)答系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)36-50
- 4.1 基于信息抽取問(wèn)答系統(tǒng)框圖36-37
- 4.2 基于信息抽取問(wèn)答系統(tǒng)主要模塊設(shè)計(jì)37-42
- 4.3 基于信息抽取問(wèn)答系統(tǒng)實(shí)現(xiàn)42-47
- 4.3.1 開(kāi)發(fā)環(huán)境與工具的簡(jiǎn)介42-44
- 4.3.2 各模塊實(shí)現(xiàn)44-47
- 4.4 系統(tǒng)測(cè)試47-48
- 4.4.1 測(cè)試方案47
- 4.4.2 系統(tǒng)測(cè)試及分析47-48
- 4.5 本章小結(jié)48-50
- 第5章 總結(jié)與展望50-52
- 5.1 總結(jié)50
- 5.2 展望50-52
- 參考文獻(xiàn)52-56
- 攻讀碩士學(xué)位期間取得的研究成果56-58
- 致謝58-59
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 毛先領(lǐng);李曉明;;問(wèn)答系統(tǒng)研究綜述[J];計(jì)算機(jī)科學(xué)與探索;2012年03期
2 莫麗萍,王樹(shù)西,姜吉發(fā),雷雨霞;問(wèn)答系統(tǒng)和淺層結(jié)構(gòu)模式推理[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年01期
3 盧志堅(jiān),張冬茉;中文問(wèn)答系統(tǒng)中的問(wèn)句理解[J];計(jì)算機(jī)工程;2004年18期
4 王樹(shù)西;問(wèn)答系統(tǒng):核心技術(shù)、發(fā)展趨勢(shì)[J];計(jì)算機(jī)工程與應(yīng)用;2005年18期
5 林曉慶;;問(wèn)答系統(tǒng)中基于列表類(lèi)問(wèn)題的研究[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年07期
6 張積賓;徐志明;王恒;潘啟樹(shù);;面向大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的社會(huì)化問(wèn)答系統(tǒng)[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2008年12期
7 賈君枝;毛海飛;;漢語(yǔ)框架網(wǎng)絡(luò)問(wèn)答系統(tǒng)問(wèn)句處理研究[J];圖書(shū)情報(bào)工作;2008年10期
8 胡小華;劉軒;劉丹;陸偉;;基于冗余的仿真問(wèn)答系統(tǒng)的輕量級(jí)局部文本分析[J];圖書(shū)情報(bào)知識(shí);2009年01期
9 張中峰;李秋丹;;社區(qū)問(wèn)答系統(tǒng)研究綜述[J];計(jì)算機(jī)科學(xué);2010年11期
10 陳玉;;基于“為什么”問(wèn)句的中文問(wèn)答系統(tǒng)研究[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2010年11期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 何靖;陳,
本文編號(hào):934623
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/934623.html