基于用戶特征分析的查詢擴(kuò)展技術(shù)研究與應(yīng)用
本文關(guān)鍵詞:基于用戶特征分析的查詢擴(kuò)展技術(shù)研究與應(yīng)用
更多相關(guān)文章: 檢索擴(kuò)展 特征模型 Lucene 本體 語(yǔ)義關(guān)聯(lián)度計(jì)算
【摘要】:從20世紀(jì)末到現(xiàn)在,搜索引擎在為人們查找信息給予了很大的方便,但是它無(wú)法提供完全令用戶滿意的結(jié)果。在現(xiàn)今的搜索引擎的使用過(guò)程中,由于用戶查詢語(yǔ)句過(guò)短而導(dǎo)致的詞不匹配、信息迷向和信息超載等問(wèn)題,成為制約檢索質(zhì)量的主要因素之一。另外,大部分搜索引擎沒(méi)有考慮到各個(gè)用戶的差異性特征,導(dǎo)致檢索結(jié)果含有較多無(wú)用的信息,準(zhǔn)確率較低。因此,信息檢索系統(tǒng)應(yīng)該能夠區(qū)別對(duì)待不同用戶的查詢請(qǐng)求,按照一定的策略為原查詢?cè)~附加更多的關(guān)鍵詞,來(lái)解決用戶查詢信息不完整的問(wèn)題。本文闡明了在相關(guān)領(lǐng)域內(nèi)的科研意義和技術(shù)背景,介紹了國(guó)際國(guó)內(nèi)相關(guān)方面的研究成果,簡(jiǎn)單敘述了和本文相關(guān)的重要技術(shù)以及理論,將查詢擴(kuò)展技術(shù)應(yīng)用到了基于Lucene的檢索系統(tǒng)中,通過(guò)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行的分析證明了該技術(shù)的有效性。主要做的工作如下所示:介紹了以用戶特征模型為基礎(chǔ)的查詢擴(kuò)展方法,論文以本體技術(shù)構(gòu)造了用戶特征模型,并且根據(jù)用戶模型來(lái)擴(kuò)展用戶輸入的檢索詞,借此使用戶的搜索過(guò)程更加便利。另外,根據(jù)查詢者的日志文件,考慮到不同人的差異性特征,區(qū)別各用戶的的檢索意圖,以防止發(fā)生檢索結(jié)果大大偏離用戶原本意愿的情況。在研究和參考Lucene結(jié)構(gòu)的基礎(chǔ)上,提出了一種以Lucene為基礎(chǔ)的數(shù)據(jù)庫(kù)查詢系統(tǒng)(database retrieval system based-Lucene),通過(guò)實(shí)驗(yàn)證明,該系統(tǒng)顯著提高了數(shù)據(jù)庫(kù)檢索的效率和召回率,能夠較好地滿足查詢者的檢索需求。本文將基于用戶特征模型的擴(kuò)展技術(shù)應(yīng)用到了基于Lucene索引的全文查詢系統(tǒng)中,能夠根據(jù)查詢者的差異性特征來(lái)對(duì)其檢索條件擴(kuò)展,查詢結(jié)果可以較好地滿足搜索者的查詢意圖。
【關(guān)鍵詞】:檢索擴(kuò)展 特征模型 Lucene 本體 語(yǔ)義關(guān)聯(lián)度計(jì)算
【學(xué)位授予單位】:長(zhǎng)春工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:
- 摘要2-3
- Abstract3-6
- 第一章 緒論6-10
- 1.1 論文選題來(lái)源及研究意義6
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀6-8
- 1.3 論文的結(jié)構(gòu)安排8-10
- 第二章 相關(guān)基礎(chǔ)知識(shí)及關(guān)鍵方法10-17
- 2.1 信息檢索10-11
- 2.2 搜索引擎11-13
- 2.3 本體概述13-14
- 2.4 Lucene概述14-17
- 第三章 依托于用戶模型的檢索擴(kuò)展技術(shù)研究17-27
- 3.1 基于用戶模型的查詢擴(kuò)展原理17-21
- 3.1.1 用戶模型的簡(jiǎn)介17
- 3.1.2 用戶特征模型的構(gòu)建17-20
- 3.1.3 查詢擴(kuò)展的流程20-21
- 3.2 查詢擴(kuò)展算法21-24
- 3.2.1 語(yǔ)義關(guān)聯(lián)度21
- 3.2.2 詞項(xiàng)相似度21-23
- 3.2.3 以關(guān)聯(lián)度和相似度為基礎(chǔ)的檢索擴(kuò)展方法23-24
- 3.3 控制“查詢漂移”現(xiàn)象24-25
- 3.4 實(shí)驗(yàn)驗(yàn)證25-27
- 3.4.1 實(shí)驗(yàn)環(huán)境25
- 3.4.2 實(shí)驗(yàn)過(guò)程25-27
- 第四章 以Lucene為基礎(chǔ)的數(shù)據(jù)庫(kù)查詢研究27-37
- 4.1 序言27
- 4.2 Lucene的索引27-28
- 4.2.1 Lucene概述27-28
- 4.2.2 索引的層次28
- 4.3 以Lucene為基礎(chǔ)的數(shù)據(jù)庫(kù)查詢28-34
- 4.3.1 DRSB的層次28-29
- 4.3.2 數(shù)據(jù)庫(kù)的索引層次29-30
- 4.3.3 數(shù)據(jù)庫(kù)的倒排索引結(jié)構(gòu)30-32
- 4.3.4 詞頻位置加權(quán)排序法32-33
- 4.3.5 以索引為基礎(chǔ)的查詢33-34
- 4.3.6 DRSB查詢與數(shù)據(jù)庫(kù)查詢對(duì)比34
- 4.4 實(shí)驗(yàn)結(jié)果及實(shí)驗(yàn)分析34-37
- 4.4.1 實(shí)驗(yàn)的環(huán)境34-35
- 4.4.2 實(shí)驗(yàn)的結(jié)果35-36
- 4.4.3 實(shí)驗(yàn)分析36-37
- 第五章 查詢擴(kuò)展技術(shù)在全文檢索系統(tǒng)中的應(yīng)用37-41
- 5.1 系統(tǒng)概述37
- 5.2 系統(tǒng)的主要模塊37-38
- 5.3 Lucene索引庫(kù)的構(gòu)建38
- 5.4 實(shí)驗(yàn)結(jié)果及分析38-41
- 5.4.1 實(shí)驗(yàn)結(jié)果38-40
- 5.4.2 實(shí)驗(yàn)分析40-41
- 第六章 結(jié)論41-42
- 致謝42-43
- 參考文獻(xiàn)43-46
- 作者簡(jiǎn)介46
- 攻讀碩士學(xué)位期間研究成果46-47
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 田久樂(lè);趙蔚;;基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2010年06期
2 祝偉華;張正龍;劉斌斌;;基于全文檢索工具包Lucene的排序技術(shù)[J];重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年12期
3 張雪源;賀前華;李艷雄;葉婉玲;;一種基于倒排索引的音頻檢索方法[J];電子與信息學(xué)報(bào);2012年11期
4 范晨熙;黃理燦;李雪利;;基于Lucene的BM25模型的評(píng)分機(jī)制的研究[J];工業(yè)控制計(jì)算機(jī);2013年03期
5 薛涵;秦兵;劉挺;;基于Folksonomy的本體構(gòu)建綜述[J];電子學(xué)報(bào);2014年04期
6 金貴陽(yáng);呂福在;項(xiàng)占琴;;基于知識(shí)圖譜和語(yǔ)義網(wǎng)技術(shù)的企業(yè)信息集成方法[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年02期
7 紀(jì)海;曹三省;;基于互聯(lián)網(wǎng)融合媒體的大數(shù)據(jù)應(yīng)用技術(shù)分析[J];電視技術(shù);2014年21期
8 孟祥娜;秦玉平;;一種基于分類和語(yǔ)義查詢擴(kuò)展的信息檢索方法[J];信息技術(shù);2010年09期
9 楊勁松;凌培亮;;搜索引擎PageRank算法的改進(jìn)[J];計(jì)算機(jī)工程;2009年22期
10 王歡;孫瑞志;;基于領(lǐng)域本體和Lucene的語(yǔ)義檢索系統(tǒng)研究[J];計(jì)算機(jī)應(yīng)用;2010年06期
,本文編號(hào):908638
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/908638.html