天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于蘊含的文本搜索的研究與實現(xiàn)

發(fā)布時間:2017-10-08 19:10

  本文關(guān)鍵詞:基于蘊含的文本搜索的研究與實現(xiàn)


  更多相關(guān)文章: 文本蘊含 搜索引擎 詞向量 蘊含關(guān)系


【摘要】:隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)中的數(shù)據(jù)變得越來越多。在海量的數(shù)據(jù)中查找信息變得越來越困難。標(biāo)準(zhǔn)的搜索引擎能夠根據(jù)輸入的查詢詞輸出一系列的結(jié)果文檔,但是不能根據(jù)語義對這些結(jié)果進行二次檢索。因此,對檢索結(jié)果進行有效篩選越來越重要。 文本蘊含是語義范疇的一種指向關(guān)系,具體是指文本T和假設(shè)H在語義上具有如下關(guān)系:若H的含義能夠從文本T中推理出來,則稱T蘊含H,否則T不蘊含H。在問答系統(tǒng)、信息檢索、信息抽取以及多文檔摘要等需要進行語義推理的自然語言處理領(lǐng)域應(yīng)用中,文本蘊含已經(jīng)發(fā)展成為一項通用的任務(wù)。因此研究基于蘊含的文本搜索具有重要意義和實用價值。 本文對文本蘊含識別進行深入研究,挖掘出文本中的蘊含關(guān)系。在此基礎(chǔ)上實現(xiàn)了基于蘊含的文本搜索,用戶可以根據(jù)蘊含關(guān)系對搜索結(jié)果進行篩選,從而實現(xiàn)查詢詞的遷移和主題的跳轉(zhuǎn)。 本文的主要貢獻具體描述如下: 1.提出了基于詞向量的蘊含關(guān)系學(xué)習(xí)方法。使用詞向量表示謂語,通過計算詞向量之間的語義相似度,學(xué)習(xí)蘊含關(guān)系。實驗結(jié)果表明該方法能有效地學(xué)習(xí)蘊含關(guān)系,學(xué)習(xí)的平均準(zhǔn)確率均值(MAP)達到60.74%,比之前的BInc方法提升了近5個百分點。 2.提出了基于詞、詞向量的蘊含關(guān)系學(xué)習(xí)。將基于詞向量的蘊含關(guān)系學(xué)習(xí)與之前的基于詞的蘊含關(guān)系方法相結(jié)合,混合多種特征對蘊含關(guān)系進行學(xué)習(xí)。實驗結(jié)果表明該方法與之前的BInc方法相比,F值從30.67%提升到34.49%。 3.通過對新聞文本語料進行處理,將文本蘊含與文本搜索相融合,實現(xiàn)了基于蘊含的文本搜索系統(tǒng),是對傳統(tǒng)分面搜索功能上的一種擴充,方便用戶根據(jù)蘊含關(guān)系對搜索結(jié)果進一步檢索,體現(xiàn)了文本蘊含研究的實用性,同時提高了搜索系統(tǒng)的易用性。
【關(guān)鍵詞】:文本蘊含 搜索引擎 詞向量 蘊含關(guān)系
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目錄7-9
  • 第一章 緒論9-15
  • 1.1 背景和意義9-10
  • 1.2 研究現(xiàn)狀10-12
  • 1.3 本文工作12-14
  • 1.4 論文結(jié)構(gòu)14-15
  • 第二章 相關(guān)工作15-33
  • 2.1 搜索引擎15-21
  • 2.1.1 系統(tǒng)架構(gòu)15-17
  • 2.1.2 檢索模型17-19
  • 2.1.3 發(fā)展趨勢19-20
  • 2.1.4 搜索引擎Solr20-21
  • 2.2 文本蘊含21-29
  • 2.2.1 概念21-23
  • 2.2.2 命題模板23
  • 2.2.3 蘊含關(guān)系學(xué)習(xí)23-28
  • 2.2.4 蘊含圖28-29
  • 2.3 詞向量模型29-32
  • 2.3.1 詞向量概念29
  • 2.3.2 詞向量構(gòu)建方法29-31
  • 2.3.3 word2vec31-32
  • 2.4 本章小結(jié)32-33
  • 第三章 蘊含關(guān)系學(xué)習(xí)33-42
  • 3.1 基于詞向量的蘊含關(guān)系學(xué)習(xí)33-38
  • 3.1.1 預(yù)處理34-38
  • 3.1.2 詞向量構(gòu)建38
  • 3.1.3 蘊含關(guān)系學(xué)習(xí)38
  • 3.2 基于詞、詞向量的蘊含關(guān)系學(xué)習(xí)38-40
  • 3.3 蘊含圖的構(gòu)建40-41
  • 3.4 本章小結(jié)41-42
  • 第四章 實驗42-55
  • 4.1 實驗數(shù)據(jù)42
  • 4.2 評價指標(biāo)42-44
  • 4.3 實驗結(jié)果與分析44-54
  • 4.3.1 基于詞向量蘊含關(guān)系學(xué)習(xí)44-47
  • 4.3.2 基于詞、詞向量的蘊含關(guān)系學(xué)習(xí)47-50
  • 4.3.3 實驗結(jié)果錯誤分析50-51
  • 4.3.4 蘊含圖生成結(jié)果51-54
  • 4.4 本章小結(jié)54-55
  • 第五章 基于蘊含的文本搜索系統(tǒng)55-65
  • 5.1 系統(tǒng)架構(gòu)56-57
  • 5.2 開發(fā)環(huán)境57-58
  • 5.3 數(shù)據(jù)源58-59
  • 5.4 索引建立59
  • 5.5 檢索排序59-60
  • 5.6 搜索展現(xiàn)60-64
  • 5.7 抗壓性評估64
  • 5.8 本章小結(jié)64-65
  • 第六章 總結(jié)與展望65-67
  • 6.1 工作總結(jié)65
  • 6.2 工作展望65-67
  • 參考文獻67-71
  • 致謝71

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前5條

1 郭力潔;李新葉;宋金澮;;分面搜索研究綜述[J];電子科技;2012年09期

2 王瓊;搜索引擎的四大發(fā)展趨勢[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2005年03期

3 司胲銳;;石安石論語義蘊含[J];科技信息(學(xué)術(shù)研究);2008年26期

4 張鵬;李國臣;李茹;劉海靜;石向榮;Collin Baker;;基于FrameNet框架關(guān)系的文本蘊含識別[J];中文信息學(xué)報;2012年02期

5 吳思竹;錢慶;胡鐵軍;李丹亞;李軍蓮;洪娜;;詞形還原方法及實現(xiàn)工具比較分析[J];現(xiàn)代圖書情報技術(shù);2012年03期

,

本文編號:995738

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/995738.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶be7c4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com