基于樹(shù)木搜索引擎的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于樹(shù)木搜索引擎的研究與實(shí)現(xiàn)
更多相關(guān)文章: 樹(shù)木 搜索引擎 Lucene 網(wǎng)絡(luò)爬蟲(chóng)
【摘要】:在互聯(lián)網(wǎng)+和+互聯(lián)網(wǎng)的時(shí)期,互聯(lián)網(wǎng)不僅給人們帶來(lái)了好處,也促進(jìn)了科技的進(jìn)步;植物領(lǐng)域的研究是發(fā)展綠色大國(guó)的基石之一。因此,樹(shù)木搜索引擎和對(duì)樹(shù)木搜索的研究有助于我們快速、精確的查找樹(shù)木相關(guān)信息,設(shè)計(jì)出搜索引擎系統(tǒng)更為我們查找信息和添加信息帶來(lái)了巨大的方便之處。本文以全文搜索引擎為背景,以它的結(jié)構(gòu)為依據(jù)。首先闡述了通用搜索引擎的特點(diǎn)、結(jié)構(gòu)以及優(yōu)缺點(diǎn),在這基礎(chǔ)上提出了主題搜索引擎;然后介紹了關(guān)于爬蟲(chóng)、主題相關(guān)性以及主題相關(guān)性算法之間的關(guān)系;再次論述了常見(jiàn)的分詞方法以及本文所采用的分詞方法;最后重點(diǎn)介紹了關(guān)于Lucene的系統(tǒng)結(jié)構(gòu)和常用的查詢(xún)模型,就其索引和查詢(xún)進(jìn)行詳述。在這些理論的基礎(chǔ)上,本文的最后實(shí)現(xiàn)了一個(gè)基于樹(shù)木搜索引擎的系統(tǒng),系統(tǒng)按照從抓取、預(yù)處理、分詞和建立索引等過(guò)程來(lái)研建。在系統(tǒng)運(yùn)行時(shí),提交查詢(xún)關(guān)鍵字之后能夠順利的搜索出相關(guān)結(jié)果。該系統(tǒng)最后的結(jié)果顯示,比我們熟知的通用搜索引擎在準(zhǔn)確性方面有較大的提升,并且在樹(shù)木領(lǐng)域?qū)ξ覀冇幸欢ǖ囊嫣帯?br/> 【關(guān)鍵詞】:樹(shù)木 搜索引擎 Lucene 網(wǎng)絡(luò)爬蟲(chóng)
【學(xué)位授予單位】:北京林業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.3
【目錄】:
- 摘要3-4
- ABSTRACT4-7
- 1 緒論7-14
- 1.1 選題背景7-12
- 1.1.1 搜索引擎的發(fā)展7-9
- 1.1.2 搜索引擎的特點(diǎn)9-10
- 1.1.3 搜索引擎的現(xiàn)狀及面臨的問(wèn)題10-12
- 1.2 研究的目的和意義12-13
- 1.3 論文的內(nèi)容和結(jié)構(gòu)13-14
- 2 搜索引擎原理14-25
- 2.1 搜索引擎的基本結(jié)構(gòu)14-19
- 2.1.1 搜索引擎結(jié)構(gòu)14-17
- 2.1.2 搜索引擎的關(guān)鍵技術(shù)17-19
- 2.2 網(wǎng)絡(luò)爬蟲(chóng)介紹19-25
- 2.2.1 開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)20-21
- 2.2.2 主題網(wǎng)絡(luò)爬蟲(chóng)21-23
- 2.2.3 主題相關(guān)性算法23-25
- 3 分詞模塊的設(shè)計(jì)25-29
- 3.1 分詞技術(shù)概述25
- 3.2 中文常用分詞技術(shù)25-27
- 3.2.1 基于詞典的分詞方法25-26
- 3.2.2 基于統(tǒng)計(jì)的分詞方法26-27
- 3.2.3 基于理解的分詞方法27
- 3.3 本文所用分詞技術(shù)27-29
- 4 檢索和查詢(xún)模塊的設(shè)計(jì)29-36
- 4.1 常見(jiàn)索引介紹29-30
- 4.2 Lucene系統(tǒng)結(jié)構(gòu)30-34
- 4.3 查詢(xún)模型34-36
- 5 樹(shù)木檢索系統(tǒng)的實(shí)現(xiàn)36-45
- 5.1 樹(shù)木索引的建立36-39
- 5.2 查詢(xún)的實(shí)現(xiàn)39-40
- 5.3 搜索結(jié)果截圖40-42
- 5.4 系統(tǒng)評(píng)價(jià)42-45
- 6 總結(jié)與展望45-47
- 6.1 總結(jié)45
- 6.2 展望45-47
- 參考文獻(xiàn)47-49
- 個(gè)人簡(jiǎn)介49-50
- 導(dǎo)師簡(jiǎn)介50-51
- 獲得成果目錄51-52
- 致謝52
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 朱松巖;;網(wǎng)頁(yè)設(shè)計(jì)之特性分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報(bào);2009年03期
2 安琳;;國(guó)外網(wǎng)頁(yè)信息存檔項(xiàng)目及相關(guān)問(wèn)題研究[J];圖書(shū)館建設(shè);2009年12期
3 蔣桂梅;;網(wǎng)頁(yè)設(shè)計(jì)的藝術(shù)性[J];電腦知識(shí)與技術(shù);2010年05期
4 龍正義;;網(wǎng)頁(yè)長(zhǎng)期保存的策略與方法研究[J];檔案管理;2010年03期
5 李志義;梁士金;;國(guó)內(nèi)網(wǎng)頁(yè)去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書(shū)情報(bào)工作;2011年07期
6 王爍;;美國(guó)網(wǎng)頁(yè)歸檔項(xiàng)目——Internet Archive發(fā)展研究[J];蘭臺(tái)世界;2012年17期
7 栗勇兵;韓平;董啟雄;;網(wǎng)頁(yè)信息自動(dòng)提取的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2012年18期
8 何立波;周世波;;網(wǎng)頁(yè)設(shè)計(jì)中的藝術(shù)研究[J];考試周刊;2011年25期
9 秦永平;網(wǎng)頁(yè)信息共享技術(shù)[J];計(jì)算機(jī)應(yīng)用;2000年02期
10 項(xiàng)鎮(zhèn);網(wǎng)頁(yè)設(shè)計(jì)新概念[J];江西教育學(xué)院學(xué)報(bào)(自然科學(xué));2001年06期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 吳建軍;;談網(wǎng)頁(yè)設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國(guó)測(cè)繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會(huì)優(yōu)秀論文選編[C];2005年
2 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁(yè)篩選系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁(yè)相關(guān)度研究[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁(yè)信息的一種網(wǎng)頁(yè)結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁(yè)信息傳達(dá)中的應(yīng)用研究[A];2006年中國(guó)機(jī)械工程學(xué)會(huì)年會(huì)暨中國(guó)工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會(huì)論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類(lèi)網(wǎng)頁(yè)文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁(yè)信息結(jié)構(gòu)的網(wǎng)頁(yè)體裁聚類(lèi)分析[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
8 羅陽(yáng);季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
9 于滿(mǎn)泉;譚松波;許洪波;;網(wǎng)頁(yè)內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢(xún)[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 本報(bào)記者 曾居仁 通訊員 郝金榮;貴州“萬(wàn)村千鄉(xiāng)”網(wǎng)頁(yè)工程開(kāi)辟為農(nóng)服務(wù)新渠道[N];中國(guó)氣象報(bào);2012年
2 壯壯;批量保存網(wǎng)頁(yè)信息[N];電腦報(bào);2004年
3 羅震宇 嚴(yán)小斌;一種新型WEB開(kāi)發(fā)技術(shù)的探討[N];中國(guó)冶金報(bào);2011年
4 錢(qián)鵬;網(wǎng)盡Web頁(yè)中的好東東[N];電腦報(bào);2004年
5 星之海洋;邁出網(wǎng)頁(yè)制作的第一步[N];電腦報(bào);2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報(bào);2001年
7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國(guó)證券報(bào);2004年
8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國(guó)電腦教育報(bào);2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報(bào);2013年
10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請(qǐng)上網(wǎng)賬號(hào)[N];電腦報(bào);2002年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陳潔;基于概念融合的網(wǎng)頁(yè)篩選技術(shù)研究[D];北京郵電大學(xué);2013年
2 龔昌盛;基于語(yǔ)義標(biāo)注的網(wǎng)頁(yè)廣告加載模型研究[D];武漢大學(xué);2010年
3 孫建濤;Web挖掘中的降維和分類(lèi)方法研究[D];清華大學(xué);2005年
4 黃華軍;網(wǎng)頁(yè)信息隱藏與隱秘信息檢測(cè)研究[D];湖南大學(xué);2007年
5 徐晴陽(yáng);基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年
6 曹魯慧;Web個(gè)人信息集成問(wèn)題研究[D];山東大學(xué);2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測(cè)研究[D];大連理工大學(xué);2012年
8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年
9 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
10 宗校軍;中文網(wǎng)頁(yè)定題采集及分類(lèi)研究[D];華中科技大學(xué);2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 敖志敏;基于網(wǎng)頁(yè)相似度的搜索算法改進(jìn)的研究[D];上海師范大學(xué);2015年
2 楊尋;地域文化的視覺(jué)元素在旅游網(wǎng)頁(yè)設(shè)計(jì)中的應(yīng)用研究[D];西南交通大學(xué);2015年
3 張W,
本文編號(hào):1098618
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1098618.html