天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

信息檢索中虛擬域重排技術(shù)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-05-14 08:01

  本文關(guān)鍵詞:信息檢索中虛擬域重排技術(shù)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著Web技術(shù)的發(fā)展,人們對于信息的需求也與日俱增。用戶希望獲得信息的渠道和方式更加便捷和高效,尤其是在搜索信息時(shí),期望所需求的信息盡量排在前邊,這便是SEO (Search Engine Optimization,搜索引擎優(yōu)化)問題。 檢索結(jié)果重排序技術(shù)的研究是SEO課題一個(gè)重要的分支,且該技術(shù)的研究也趨于多樣化。近幾年在查詢擴(kuò)展中提出了虛擬域概念,取得了很好的效果,構(gòu)成虛擬域的方法有許多種,但由于計(jì)算虛擬域的工作量巨大,一般只能使用一種方法進(jìn)行查詢擴(kuò)展,不能同時(shí)綜合使用幾種方法,有一定的局限性。本文提出一種新的重排序模型,將虛擬域概念應(yīng)用于重排方法,重排只針對初次檢索結(jié)果若干文檔進(jìn)行,綜合運(yùn)用多種虛擬域提高了重排性能。 基于虛擬域的重排模型,是用多種查詢詞運(yùn)算構(gòu)成多個(gè)虛擬域,通過線性插入法綜合多個(gè)虛擬域計(jì)算待排序文檔(初次檢索結(jié)果前k個(gè)文檔)與查詢的新的相關(guān)度,依據(jù)相關(guān)度給出新的排序。根據(jù)查詢詞運(yùn)算符or、and、gram和phrasal設(shè)計(jì)和實(shí)現(xiàn)了查詢詞映射和構(gòu)建虛擬域的算法。相關(guān)度的計(jì)算是基于傳統(tǒng)的BM25,在其基礎(chǔ)上實(shí)現(xiàn)了虛擬域重排模型。研究分析了or、or-and、or-gram、 or-and-gram、or-and-gram-phrasal等5種組合的虛擬域計(jì)算方法對重排序的影響,結(jié)合已有的經(jīng)驗(yàn),通過大量的實(shí)驗(yàn)優(yōu)化了模型中各個(gè)參數(shù)。本文創(chuàng)新之處在于結(jié)合多種運(yùn)算來計(jì)算虛擬域,突破了原來單一運(yùn)算符的局限,這種方法得到的文檔與查詢的相關(guān)度更為準(zhǔn)確。在多個(gè)TREC集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文所提出的模型能夠有效地提高重排性能。
【關(guān)鍵詞】:信息檢索 語言模型 虛擬域 BM25 重排序
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要4-6
  • ABSTRACT6-11
  • 第一章 緒論11-15
  • 1.1 研究背景11-12
  • 1.2 國內(nèi)外對虛擬域和重排序技術(shù)的發(fā)展及研究現(xiàn)狀12-13
  • 1.3 主要研究內(nèi)容13-14
  • 1.4 論文組織結(jié)構(gòu)14-15
  • 第二章 相關(guān)理論與技術(shù)介紹15-23
  • 2.1 信息檢索框架的Source-Channel Framework表示15
  • 2.2 信息檢索模型介紹15-19
  • 2.2.1 布爾模型16
  • 2.2.2 向量空間模型16-17
  • 2.2.3 概率模型17-18
  • 2.2.4 語言模型18-19
  • 2.3 語言模型的平滑技術(shù)19-21
  • 2.4 信息檢索的評價(jià)指標(biāo)21-22
  • 2.4.1 查準(zhǔn)率與查全率21
  • 2.4.2 平均查準(zhǔn)率21-22
  • 2.4.3 P@N22
  • 2.5 本章小結(jié)22-23
  • 第三章 檢索結(jié)果的虛擬域重排序技術(shù)研究23-35
  • 3.1 重排序相關(guān)理論和技術(shù)23-25
  • 3.1.1 檢索結(jié)果重排問題23-24
  • 3.1.2 檢索結(jié)果重排方法和融合技術(shù)24-25
  • 3.2 BM25排序模型25-27
  • 3.3 虛擬域27-32
  • 3.3.1 引導(dǎo)例子27-29
  • 3.3.2 域和虛擬域的概念29-31
  • 3.3.3 相關(guān)性得分的計(jì)算31-32
  • 3.4 基于虛擬域重排序的模型32-34
  • 3.5 本章小結(jié)34-35
  • 第四章 系統(tǒng)實(shí)現(xiàn)與功能模塊設(shè)計(jì)35-42
  • 4.1 基于虛擬域重排技術(shù)的系統(tǒng)實(shí)現(xiàn)35-37
  • 4.2 相關(guān)算法設(shè)計(jì)37
  • 4.3 功能模塊設(shè)計(jì)37-41
  • 4.3.1 查詢、文檔分析及索引建立模塊38-40
  • 4.3.2 文檔檢索模塊40
  • 4.3.3 檢索結(jié)果的重排序模塊40-41
  • 4.4 本章小結(jié)41-42
  • 第五章 實(shí)驗(yàn)與結(jié)果分析42-56
  • 5.1 實(shí)驗(yàn)設(shè)置42-45
  • 5.1.1 實(shí)驗(yàn)環(huán)境42
  • 5.1.2 實(shí)驗(yàn)工具42
  • 5.1.3 實(shí)驗(yàn)語料庫及其預(yù)處理42-45
  • 5.2 實(shí)驗(yàn)的流程描述45-46
  • 5.3 實(shí)驗(yàn)結(jié)果46-54
  • 5.3.1 實(shí)驗(yàn)參數(shù)估計(jì)46-48
  • 5.3.2 實(shí)驗(yàn)結(jié)果48-54
  • 5.4 實(shí)驗(yàn)結(jié)果的性能分析54-55
  • 5.5 本章小結(jié)55-56
  • 第六章 總結(jié)展望56-58
  • 6.1 總結(jié)工作56
  • 6.2 展望未來56-58
  • 參考文獻(xiàn)58-61
  • 致謝61

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前2條

1 樓爐群;牛軍鈺;;信息檢索中語言模型的研究[J];計(jì)算機(jī)工程;2007年04期

2 周博;岑榮偉;劉奕群;張敏;金奕江;馬少平;;一種基于文檔相似度的檢索結(jié)果重排序方法[J];中文信息學(xué)報(bào);2010年03期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 王俊義;正負(fù)相關(guān)反饋與查詢擴(kuò)展技術(shù)的研究[D];內(nèi)蒙古大學(xué);2012年


  本文關(guān)鍵詞:信息檢索中虛擬域重排技術(shù)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。

,

本文編號(hào):364580

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/364580.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶54d87***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com