搜索引擎中查詢(xún)擴(kuò)展模塊的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:搜索引擎中查詢(xún)擴(kuò)展模塊的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 社區(qū)通 搜索引擎 查詢(xún)擴(kuò)展 知網(wǎng) 個(gè)性化
【摘要】:隨著網(wǎng)絡(luò)數(shù)據(jù)的迅猛增長(zhǎng),用戶(hù)對(duì)搜索引擎的檢索質(zhì)量和個(gè)性化服務(wù)的要求不斷提高。本文基于社區(qū)通信息化平臺(tái)信息檢索服務(wù)設(shè)計(jì)實(shí)現(xiàn)了查詢(xún)擴(kuò)展模塊的實(shí)現(xiàn)方案,幫助社區(qū)通用戶(hù)準(zhǔn)確的在海量數(shù)據(jù)信息中找到滿(mǎn)足自己需求的信息。在搜索引擎進(jìn)行檢索前,通過(guò)查詢(xún)擴(kuò)展模塊對(duì)用戶(hù)的查詢(xún)條件進(jìn)行擴(kuò)展,可以有效的提高檢索結(jié)果的全面性和準(zhǔn)確率。另外,為了提供個(gè)性化服務(wù),本文還利用用戶(hù)的興趣特征對(duì)檢索結(jié)果進(jìn)行優(yōu)化,以滿(mǎn)足用戶(hù)的個(gè)性化需求。完成的主要工作概括如下: (1)采用查詢(xún)擴(kuò)展的方法對(duì)用戶(hù)提供的查詢(xún)關(guān)鍵詞進(jìn)行同義詞擴(kuò)展。利用《知網(wǎng)》知識(shí)描述語(yǔ)言對(duì)詞語(yǔ)的描述實(shí)現(xiàn)詞語(yǔ)相似度的計(jì)算,選取與初始查詢(xún)?cè)~具有最大相似度的同義詞作為候選擴(kuò)展詞。對(duì)于候選擴(kuò)展詞,本文采用查詢(xún)其百度指數(shù)對(duì)其進(jìn)行進(jìn)一步的篩選,可以有效的避免將不相關(guān)的詞語(yǔ)加入到擴(kuò)展詞集中。 (2)挖掘用戶(hù)個(gè)性化興趣特征優(yōu)化信息檢索查詢(xún)結(jié)果。提取用戶(hù)的歷史瀏覽記錄以及收藏夾中的信息,進(jìn)行內(nèi)容提取、數(shù)據(jù)清理等處理,得到包含用戶(hù)興趣的文本信息。基于文檔向量之間的相似度,對(duì)文檔集進(jìn)行文本聚類(lèi),將文檔集的聚類(lèi)結(jié)果作為用戶(hù)興趣的分類(lèi)結(jié)果,并在聚類(lèi)的結(jié)果中提取出關(guān)鍵詞來(lái)表示用戶(hù)興趣特征。 本文所研究的查詢(xún)擴(kuò)展模塊和個(gè)性化模塊已經(jīng)融合到社區(qū)信息化平臺(tái)的信息檢索服務(wù)中,有效地提高了信息檢索服務(wù)的質(zhì)量,增強(qiáng)了社區(qū)通的用戶(hù)體驗(yàn),提升了用戶(hù)黏度。
【關(guān)鍵詞】:社區(qū)通 搜索引擎 查詢(xún)擴(kuò)展 知網(wǎng) 個(gè)性化
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.3
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-14
- 1.1 項(xiàng)目背景9-10
- 1.2 研究意義10
- 1.3 國(guó)內(nèi)外研究狀況10-12
- 1.3.1 搜索引擎研究狀況10-11
- 1.3.2 查詢(xún)擴(kuò)展研究狀況11-12
- 1.4 論文研究?jī)?nèi)容12-13
- 1.5 論文結(jié)構(gòu)13-14
- 第二章 相關(guān)技術(shù)14-24
- 2.1 搜索引擎概述14
- 2.2 搜索引擎工作原理14-17
- 2.3 查詢(xún)擴(kuò)展技術(shù)17-21
- 2.3.1 基于全局分析的查詢(xún)擴(kuò)展技術(shù)18-19
- 2.3.2 基于局部分析的查詢(xún)擴(kuò)展技術(shù)19
- 2.3.3 基于相關(guān)反饋的查詢(xún)擴(kuò)展技術(shù)19-20
- 2.3.4 基于語(yǔ)義詞典的查詢(xún)擴(kuò)展技術(shù)20
- 2.3.5 個(gè)性化的查詢(xún)擴(kuò)展技術(shù)20-21
- 2.4 語(yǔ)義詞典《知網(wǎng)》21-24
- 2.4.1 概念及義原21-22
- 2.4.2 《知網(wǎng)》中的知識(shí)描述語(yǔ)言22-24
- 第三章 需求分析與系統(tǒng)設(shè)計(jì)24-31
- 3.1 系統(tǒng)需求分析24
- 3.2 系統(tǒng)總體設(shè)計(jì)24-29
- 3.2.1 查詢(xún)擴(kuò)展模塊設(shè)計(jì)26-28
- 3.2.2 個(gè)性化模塊設(shè)計(jì)28-29
- 3.3 系統(tǒng)功能目標(biāo)29-31
- 3.3.1 查詢(xún)關(guān)鍵詞擴(kuò)展29
- 3.3.2 查詢(xún)百度指數(shù)29-30
- 3.3.3 用戶(hù)興趣特征提取30
- 3.3.4 搜索結(jié)果的篩選30-31
- 第四章 系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)31-54
- 4.1 查詢(xún)擴(kuò)展模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)31-44
- 4.1.1 查詢(xún)擴(kuò)展模塊詳細(xì)設(shè)計(jì)31-34
- 4.1.2 基于《知網(wǎng)》的詞語(yǔ)相似度的計(jì)算34
- 4.1.3 義原相似度的計(jì)算34-39
- 4.1.4 概念相似度的計(jì)算39-44
- 4.1.5 詞語(yǔ)相似度的計(jì)算44
- 4.2 個(gè)性化模塊的設(shè)計(jì)與實(shí)現(xiàn)44-54
- 4.2.1 個(gè)性化模塊的詳細(xì)設(shè)計(jì)44-45
- 4.2.2 收集用戶(hù)信息45-46
- 4.2.3 基于向量空間模型的文本聚類(lèi)46-51
- 4.2.4 提取用戶(hù)興趣特征關(guān)鍵詞51-54
- 第五章 測(cè)試結(jié)果與系統(tǒng)展示54-67
- 5.1 測(cè)試環(huán)境54
- 5.2 查詢(xún)擴(kuò)展模塊測(cè)試結(jié)果54-58
- 5.2.1 義原相似度測(cè)試結(jié)果54-56
- 5.2.2 詞語(yǔ)相似度測(cè)試結(jié)果56-57
- 5.2.3 查詢(xún)擴(kuò)展測(cè)試結(jié)果57-58
- 5.3 個(gè)性化模塊測(cè)試結(jié)果58-60
- 5.4 系統(tǒng)搜索結(jié)果展示60-64
- 5.5 性能測(cè)試64-67
- 第六章 總結(jié)與展望67-69
- 6.1 總結(jié)67
- 6.2 展望67-69
- 參考文獻(xiàn)69-71
- 致謝71
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條
1 姚清耘;劉功申;李翔;;基于向量空間模型的文本聚類(lèi)算法[J];計(jì)算機(jī)工程;2008年18期
2 黃名選;嚴(yán)小衛(wèi);張師超;;查詢(xún)擴(kuò)展技術(shù)進(jìn)展與展望[J];計(jì)算機(jī)應(yīng)用與軟件;2007年11期
3 張立娜;楊之音;楊波;;第三代搜索引擎發(fā)展現(xiàn)狀研究[J];科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì);2011年34期
4 袁曉峰;;《知網(wǎng)》義原相似度計(jì)算的研究[J];遼寧大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
5 呂碧波;趙軍;;基于相關(guān)文檔池建模的查詢(xún)擴(kuò)展[J];中文信息學(xué)報(bào);2006年03期
6 李峰;李芳;;中文詞語(yǔ)語(yǔ)義相似度計(jì)算——基于《知網(wǎng)》2000[J];中文信息學(xué)報(bào);2007年03期
7 胡吉明;;個(gè)性化搜索引擎中的用戶(hù)興趣提取技術(shù)[J];圖書(shū)館學(xué)刊;2006年04期
8 高琰,谷士文,譚立球,費(fèi)耀平;基于Lucene的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J];微機(jī)發(fā)展;2004年10期
9 丁明;祝博;李龍森;;網(wǎng)絡(luò)信息檢索發(fā)展趨勢(shì)展望[J];科技資訊;2006年04期
,本文編號(hào):777798
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/777798.html