【摘要】:隨著Internet的不斷發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的重要來(lái)源。如何快速方便的從網(wǎng)絡(luò)中獲取信息,,已經(jīng)成為人們努力研究的焦點(diǎn)。雖然搜索引擎和自動(dòng)問(wèn)答系統(tǒng)的出現(xiàn)很好的解決了這一問(wèn)題,但是它們各自仍然存在著一些不足。搜索引擎以關(guān)鍵詞的方式檢索信息,很難清晰表達(dá)用戶的意圖,而且返回的結(jié)果是相關(guān)網(wǎng)頁(yè)的集合,仍然需要用戶自己手動(dòng)查找答案。傳統(tǒng)的自動(dòng)問(wèn)答系統(tǒng)雖然能夠彌補(bǔ)搜索引擎的這些不足,接受用戶輸入問(wèn)題,并返回準(zhǔn)確答案,但是它需要獨(dú)立維護(hù)一個(gè)非常龐大的知識(shí)庫(kù),因而信息覆蓋范圍小和更新速度慢成為了自動(dòng)問(wèn)答系統(tǒng)最主要的缺點(diǎn)。為了彌補(bǔ)這個(gè)不足,本文提出了一種基于網(wǎng)絡(luò)搜索的問(wèn)答系統(tǒng),將互聯(lián)網(wǎng)作為系統(tǒng)的知識(shí)庫(kù),利用搜索引擎檢索網(wǎng)絡(luò)中的信息,最后根據(jù)用戶輸入的問(wèn)題,從中提取出正確答案,并返回給用戶。 本文根據(jù)傳統(tǒng)問(wèn)答系統(tǒng)的三個(gè)模塊結(jié)構(gòu),詳細(xì)設(shè)計(jì)了系統(tǒng)的整體框架,并針對(duì)各個(gè)模塊進(jìn)行任務(wù)劃分。在問(wèn)題分析模塊主要進(jìn)行了問(wèn)題分類和關(guān)鍵詞提取的工作。信息檢索模塊主要利用搜索引擎檢索網(wǎng)絡(luò)中的相關(guān)文檔,并將其爬取下來(lái)。答案提取模塊根據(jù)問(wèn)題類型和信息來(lái)源分別制定了不同的答案提取和評(píng)分策略。本文利用命名實(shí)體識(shí)別技術(shù)對(duì)事實(shí)類問(wèn)題進(jìn)行答案抽取,利用答案相似度計(jì)算方法對(duì)非事實(shí)類問(wèn)題進(jìn)行答案抽取,并以概率計(jì)算的方式為每一個(gè)候選答案評(píng)分。即分別計(jì)算網(wǎng)頁(yè)的先驗(yàn)概率和答案在網(wǎng)頁(yè)中的條件概率,最終將評(píng)分最高的候選答案返回給用戶。 本文對(duì)問(wèn)題分析和答案提取模塊進(jìn)行了一些改進(jìn)。首先針對(duì)幾種特殊類型的問(wèn)題對(duì)原有的問(wèn)題分類模型進(jìn)行了改進(jìn)。然后利用句法依存關(guān)系從問(wèn)題中提取限定詞,為每個(gè)關(guān)鍵詞設(shè)定不同的權(quán)重。最后利用關(guān)鍵詞的權(quán)重分別對(duì)答案評(píng)分方法和答案相似度計(jì)算方法進(jìn)行了改進(jìn)。 本文在構(gòu)建和實(shí)現(xiàn)基于搜索引擎的問(wèn)答系統(tǒng)基礎(chǔ)上,利用人工構(gòu)建的問(wèn)題測(cè)試集對(duì)系統(tǒng)的性能進(jìn)行了測(cè)試,還對(duì)問(wèn)題分類和答案提取的改進(jìn)方案進(jìn)行了評(píng)價(jià)分析。最后的實(shí)驗(yàn)數(shù)據(jù)表明了本文提出的改進(jìn)方案的有效性。而系統(tǒng)的實(shí)際運(yùn)行效果也證明了該系統(tǒng)在實(shí)際應(yīng)用中的可行性。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 戰(zhàn)學(xué)剛;伏圣國(guó);遲呈英;;改進(jìn)的基于模式匹配的答案抽取方法[J];情報(bào)理論與實(shí)踐;2009年09期
2 鄭實(shí)福,劉挺,秦兵,李生;自動(dòng)問(wèn)答綜述[J];中文信息學(xué)報(bào);2002年06期
3 王慧慧;;中文自動(dòng)問(wèn)答系統(tǒng)研究[J];科技信息(學(xué)術(shù)研究);2007年29期
4 劉寧鋒;史曉東;;中文問(wèn)答系統(tǒng)中答案抽取的研究[J];電腦知識(shí)與技術(shù);2011年12期
5 杜瑋;邸書靈;孫樹靜;;基于互聯(lián)網(wǎng)技術(shù)的問(wèn)答系統(tǒng)研究[J];微計(jì)算機(jī)信息;2007年36期
6 唐娟;杜亞軍;王可亮;;一種基于形式概念分析的問(wèn)答系統(tǒng)答案抽取的研究[J];計(jì)算機(jī)應(yīng)用;2007年03期
7 李東園;白宇;蔡?hào)|風(fēng);;面向中文問(wèn)答的信息檢索系統(tǒng)及評(píng)測(cè)[J];沈陽(yáng)航空工業(yè)學(xué)院學(xué)報(bào);2009年03期
8 陳玉;;基于“為什么”問(wèn)句的中文問(wèn)答系統(tǒng)研究[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2010年11期
9 黃莉;;淺析漢語(yǔ)問(wèn)答系統(tǒng)中的句子檢索方法[J];價(jià)值工程;2010年14期
10 王國(guó)金,康耀紅;基于布爾檢索策略的問(wèn)答系統(tǒng)性能研究[J];科技廣場(chǎng);2005年10期
相關(guān)會(huì)議論文 前10條
1 何靖;陳
本文編號(hào):2579554
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2579554.html