分布式搜索引擎核心技術(shù)的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:分布式搜索引擎核心技術(shù)的研究與實(shí)現(xiàn)
更多相關(guān)文章: 分布式索引 分布式搜索 查詢意圖
【摘要】:伴隨著大數(shù)據(jù)時(shí)代的降臨,人們?cè)谌粘5纳a(chǎn)、生活和工作等多個(gè)方面都積累了海量的數(shù)據(jù),并且每天還在以不可逆的方式在迅猛增長,由此帶來了嚴(yán)重的信息過載問題。傳統(tǒng)的集中式搜索引擎受存儲(chǔ)條件和計(jì)算速度的制約,已經(jīng)無法適應(yīng)海量數(shù)據(jù)的快速查詢,而分布式搜索引擎以大量普通的PC機(jī)為依托,采用分而治之的思想,不但可以為大數(shù)據(jù)的存儲(chǔ)提供解決方案,并且能夠?yàn)槿藗兲峁┛焖贉?zhǔn)確的查詢結(jié)果。分布式搜索引擎涉及了許多復(fù)雜的問題和難點(diǎn),為了深入研究和掌握其背后所隱藏的奧秘,本文構(gòu)建了一套面向地圖查詢的分布式搜索引擎,以此來展開對(duì)分布式搜索引擎核心技術(shù)的研究。首先,以地圖數(shù)據(jù)為基礎(chǔ)設(shè)計(jì)合理的分布式索引結(jié)構(gòu),實(shí)現(xiàn)索引的動(dòng)態(tài)更新,并輔以巧妙的索引壓縮機(jī)制;其次,基于地理位置為地圖數(shù)據(jù)的存儲(chǔ)提供合理的解決方案,同時(shí)分布式搜索引擎各獨(dú)立搜索單元采用有效的檢索模型來保證各自的準(zhǔn)確性,在此基礎(chǔ)上配合主控服務(wù)器的查詢分發(fā)策略和數(shù)據(jù)融合策略為人們提供理想的查詢結(jié)果;最后,根據(jù)人們提交的查詢分析其潛在的查詢意圖,對(duì)查詢意圖進(jìn)行正確分類,從而將人們真正需要的信息放在最前面,以此來改善分布式搜索引擎的排名。從實(shí)驗(yàn)的結(jié)果來看,合理的分布式索引是搜索引擎快速查詢的基礎(chǔ),而大量機(jī)器協(xié)同工作的分布式搜索可以有效地縮短查詢的時(shí)間,并且優(yōu)秀的檢索模型能夠按照相關(guān)性的大小返回有序的查詢結(jié)果,查詢意圖分析則可以提供最佳的用戶體驗(yàn)。
【關(guān)鍵詞】:分布式索引 分布式搜索 查詢意圖
【學(xué)位授予單位】:遼寧科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:
- 中文摘要5-6
- ABSTRACT6-10
- 1.緒論10-13
- 1.1 課題研究背景10-11
- 1.2 分布式搜索引擎發(fā)展?fàn)顩r11-12
- 1.3 論文研究?jī)?nèi)容12
- 1.4 論文結(jié)構(gòu)安排12-13
- 2.分布式搜索引擎基本原理13-19
- 2.1 中文分詞技術(shù)13-15
- 2.2 倒排索引技術(shù)15-17
- 2.3 經(jīng)典檢索模型17-18
- 2.4 查詢意圖分析18-19
- 3.分布式搜索引擎核心技術(shù)的研究19-28
- 3.1 分布式搜索引擎總體設(shè)計(jì)19-20
- 3.2 分布式索引研究20-22
- 3.2.1 倒排索引20-21
- 3.2.2 動(dòng)態(tài)索引21-22
- 3.2.3 索引更新策略22
- 3.3 分布式搜索技術(shù)研究22-25
- 3.3.1 基于位置的三層分布式檢索模型22-23
- 3.3.2 查詢分發(fā)策略23-24
- 3.3.3 獨(dú)立搜索單元24
- 3.3.4 數(shù)據(jù)融合策略24-25
- 3.4 查詢意圖分析的研究25-28
- 3.4.1 查詢意圖的層次分類模型25
- 3.4.2 查詢意圖分類器25-27
- 3.4.3 查詢意圖類別判定27-28
- 4.分布式搜索引擎核心技術(shù)的實(shí)現(xiàn)28-41
- 4.1iSearch分布式搜索平臺(tái)開發(fā)環(huán)境28
- 4.2 分布式索引技術(shù)實(shí)現(xiàn)28-32
- 4.2.1 索引詞典28-29
- 4.2.2 倒排文件29-30
- 4.2.3 倒排索引內(nèi)存結(jié)構(gòu)30
- 4.2.4 動(dòng)態(tài)索引內(nèi)存結(jié)構(gòu)30-31
- 4.2.5 索引的建立與更新31-32
- 4.3 分布式搜索技術(shù)實(shí)現(xiàn)32-36
- 4.3.1 查詢?nèi)蝿?wù)分發(fā)32-33
- 4.3.2 利用概率模型計(jì)算相似度33-34
- 4.3.3 獨(dú)立搜索單元的查詢34-35
- 4.3.4 融合分布式搜索結(jié)果35-36
- 4.4 查詢意圖分析的實(shí)現(xiàn)36-41
- 4.4.1 分類語料預(yù)處理36-38
- 4.4.2 特征向量表示38-39
- 4.4.3 特征選擇39-40
- 4.4.4 余弦相似度計(jì)算40
- 4.4.5 層次分類模型40-41
- 5.分布式搜索引擎核心技術(shù)評(píng)測(cè)41-48
- 5.1 查詢意圖分析評(píng)測(cè)41-45
- 5.1.1 評(píng)測(cè)指標(biāo)41-42
- 5.1.2 評(píng)測(cè)結(jié)果及分析42-45
- 5.2 分布式索引評(píng)測(cè)45-46
- 5.3 分布式搜索評(píng)測(cè)46-48
- 6.總結(jié)與展望48-49
- 參考文獻(xiàn)49-52
- 致謝52-53
- 作者簡(jiǎn)介53-54
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 陸偉;周紅霞;張曉娟;;查詢意圖研究綜述[J];中國圖書館學(xué)報(bào);2013年01期
2 白露;郭嘉豐;曹雷;程學(xué)旗;;基于查詢意圖的長尾查詢推薦[J];計(jì)算機(jī)學(xué)報(bào);2013年03期
3 江雪;孫樂;;用戶查詢意圖切分的研究[J];計(jì)算機(jī)學(xué)報(bào);2013年03期
4 張曉娟;陸偉;;利用查詢重構(gòu)識(shí)別查詢意圖[J];現(xiàn)代圖書情報(bào)技術(shù);2013年01期
5 周之誠;;基于查詢意圖聚類的實(shí)時(shí)搜索建議[J];現(xiàn)代圖書情報(bào)技術(shù);2011年02期
6 唐靜笑;呂學(xué)強(qiáng);柳成洋;李涵;;用戶查詢意圖的層次化識(shí)別方法[J];現(xiàn)代圖書情報(bào)技術(shù);2014年01期
7 文軍,文貴華,丁月華;面向查詢意圖的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2002年10期
8 吳曉暉;宋萍萍;張榮欣;;有無查詢意圖的分類與實(shí)現(xiàn)架構(gòu)模型研究[J];情報(bào)科學(xué);2009年12期
9 楊藝;周元;;基于用戶查詢意圖識(shí)別的Web搜索優(yōu)化模型[J];計(jì)算機(jī)科學(xué);2012年01期
10 張美珍;王治瑩;;基于用戶查詢意圖的搜索排序算法[J];天津理工大學(xué)學(xué)報(bào);2012年03期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前3條
1 王俞霖;孫樂;黃云平;李文波;;基于規(guī)則和類型還原的用戶查詢意圖識(shí)別[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
2 高鶯;沈潔;陳滄;劉春陽;葉君峰;;一種基于排序?qū)W習(xí)的查詢意圖預(yù)測(cè)算法[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
3 華松;洪宇;張劍峰;姚建民;朱巧明;;基于相關(guān)子主題消解的悖向重排序方法研究[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 宋巍;基于主題的查詢意圖識(shí)別研究[D];哈爾濱工業(yè)大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前9條
1 張恒慶;網(wǎng)絡(luò)用戶查詢意圖分析[D];北京工業(yè)大學(xué);2014年
2 王井豐;基于百度百科的查詢意圖分類[D];吉林大學(xué);2013年
3 胡剛;百科知識(shí)與統(tǒng)計(jì)方法結(jié)合的查詢意圖分類[D];哈爾濱工業(yè)大學(xué);2011年
4 張苗;基于用戶查詢意圖的信息檢索技術(shù)研究與實(shí)現(xiàn)方法[D];湖南大學(xué);2013年
5 陳杰;基于Web檢索的查詢意圖分類研究[D];華南理工大學(xué);2011年
6 蔡桂秀;基于Markov網(wǎng)絡(luò)團(tuán)的查詢意圖識(shí)別[D];江西師范大學(xué);2012年
7 張培英;基于用戶行為的用戶查詢意圖分析方法及研究[D];西華大學(xué);2011年
8 華松;檢索重排序和文獻(xiàn)權(quán)威度判定方法研究[D];蘇州大學(xué);2012年
9 白鵬超;分布式搜索引擎核心技術(shù)的研究與實(shí)現(xiàn)[D];遼寧科技大學(xué);2015年
,本文編號(hào):567390
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/567390.html