天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

Hadoop平臺下主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-10-17 16:20
   隨著互聯(lián)網(wǎng)用戶量的激增,使得網(wǎng)絡(luò)中數(shù)據(jù)量飛速累積且數(shù)據(jù)格式也隨之增多,搜索引擎成為了處于大數(shù)據(jù)背景下的網(wǎng)絡(luò)用戶獲取所需信息的主要手段之一。但對于擁有不同專業(yè)背景的用戶,網(wǎng)絡(luò)信息的多元化使得通用搜索引擎并不能滿足他們的信息需求,這就使得當(dāng)前搜索引擎的發(fā)展需要以用戶為中心,而這一信息需求背景下就出現(xiàn)了主題搜索引擎。數(shù)據(jù)量的增加同時(shí)使得搜索引擎需要處理的數(shù)據(jù)流同步增加,分布式計(jì)算技術(shù)能夠更好的應(yīng)對海量數(shù)據(jù)的存儲和高并發(fā)計(jì)算。在本文中筆者對Hadoop平臺下主題搜索引擎相關(guān)技術(shù)進(jìn)行了研究。查準(zhǔn)率是評價(jià)一個(gè)搜索引擎性能的主要指標(biāo),如何提升查準(zhǔn)率是本文研究的重點(diǎn);系統(tǒng)檢索響應(yīng)時(shí)間與人機(jī)交互性是搜索引擎影響用戶體驗(yàn)的兩個(gè)指標(biāo);爬蟲爬取速度是搜索引擎后臺性能的直接反映。為了改進(jìn)以上指標(biāo),本文的主要研究工作如下:一、對分布式計(jì)算和主題搜索引擎相關(guān)技術(shù)與理論進(jìn)行分析,其中包括了分布式編程思想、網(wǎng)絡(luò)爬蟲的主題過濾、各個(gè)中文分詞算法的分析、經(jīng)典排序算法和常用的聚類算法。二、對經(jīng)典PageRank算法所存在的問題,從主題鏈接、內(nèi)外站鏈接數(shù)等方面對其進(jìn)行優(yōu)化,使其更具主題性,能夠更好的表示某個(gè)網(wǎng)頁的主題相關(guān)性。對改進(jìn)后的PageRank算法進(jìn)行MapReduce改造,使其符合分布式計(jì)算的要求。在原有檢索結(jié)果排序算法的基礎(chǔ)上,綜合TF-IDF算法、OPIC算法和優(yōu)化處理后的PageRank算法對排序結(jié)果進(jìn)行整體優(yōu)化。三、利用后綴樹聚類算法對用戶的檢索結(jié)果進(jìn)行實(shí)時(shí)聚類,筆者將實(shí)時(shí)聚類與主題搜索引擎首次結(jié)合到一起,改進(jìn)了人機(jī)交互的接口,通過可視化的類簇,使得用戶能夠更為直觀的對檢索結(jié)果有總體的認(rèn)識,同時(shí)也方便了用戶對指定信息的瀏覽,提升用戶體驗(yàn)。四、構(gòu)建了一個(gè)完整的主題搜索引擎,其中包括主題爬蟲、中文分詞模塊、索引模塊和檢索模塊,在此基礎(chǔ)上驗(yàn)證了分布式系統(tǒng)性能的靈活拓展性,提升了主題爬蟲爬取速度和降低系統(tǒng)檢索響應(yīng)時(shí)間,同時(shí)通過優(yōu)化后的排序算法提升了該系統(tǒng)的查準(zhǔn)率,最后通過后綴樹算法實(shí)現(xiàn)了實(shí)時(shí)聚類和聚類可視化。文章的最后,對此次研究做了總結(jié),分析了當(dāng)前研究成果和不足,并對下一步研究方向給出了研究思路。
【學(xué)位單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP391.3;G254.334
【部分圖文】:

中文分詞,添加效果,模塊


中文分詞模塊同樣是基于 Nutch 的插件機(jī)制,利用 IKAnalyzer 中文詞器,utch-1.7 的中文分詞功能,其具體實(shí)現(xiàn)如下步驟:ξ1ο 在二次開發(fā)完成后的 Nutch 文件夾下,找到其與 solr 連接的默認(rèn)配schema-solr4.xml”,將該文件復(fù)制到 Solr 的安裝目錄下,最后將其重schema.xml” ξ2ο 在 schema.xml 文件的<types></types>區(qū)域中添加相應(yīng)字段來nalyzer 分詞器,然后根據(jù)用戶的主題來編輯該系統(tǒng)中 IKAnalyzer 的用戶個(gè)中英文停用詞典 其中需要添加的類是”org.wltea.analyzer.lucene.IKAnalyzer的模塊是”index”和”query”模塊,對索引模塊將不會限制最長分詞詞項(xiàng),對則會限制最長詞項(xiàng),并為該分詞器的配置信息命名為”ik_analyer”,方便后續(xù)ξ3ο 將 schema.xml 中<fields></fields>區(qū)域中的 content title text anchld>字段作出相應(yīng)的修改,因?yàn)樾枰趧?chuàng)建索引和檢索過程中對 content title hor 字段進(jìn)行分詞,其具體操作為將它們的分詞器類型都設(shè)置為上文ik_analyer”,同時(shí)對這四個(gè)字段的內(nèi)容開啟索引和存儲控制

運(yùn)行環(huán)境,版本


西安電子科技大學(xué)碩士學(xué)位論文表 4.2 軟件環(huán)境系統(tǒng) Cent版本 jdk-1t 版本 apache-top 版本 Hadoo 版本 apache- 版本 apache-s2 版本 carrot2-e 版本 VMware 9.擬機(jī)環(huán)境下運(yùn)行的,共搭建三臺虛擬均為 1GB 運(yùn)行內(nèi)存和 20GB 硬盤 具體adoop 的主節(jié)點(diǎn)ξMasterο同時(shí)兼做(Slav

線程,速率,檢索結(jié)果,網(wǎng)頁


西安電子科技大學(xué)碩士學(xué)位論文用戶提供一個(gè)檢索結(jié)果的實(shí)時(shí)聚類圖,更為方便用戶對檢索結(jié)果進(jìn)行篩選 6 結(jié)果與分析在進(jìn)行正式實(shí)驗(yàn)之前,需要找到系統(tǒng)的最優(yōu)線程數(shù),對分布式主題爬蟲設(shè)置程數(shù),將每一層爬取的前 N 個(gè)網(wǎng)頁數(shù)ξtopNο設(shè)置為 1000 圖 4.7 展示了速率ξ爬取網(wǎng)頁數(shù)/爬取時(shí)間ο與線程數(shù)量之間的關(guān)系
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 呂峰;李麗嬌;高云英;馬開陽;;基于Hadoop在中醫(yī)藥數(shù)據(jù)挖掘中的應(yīng)用[J];電子設(shè)計(jì)工程;2016年22期

2 胡銳;胡伏原;陳麗春;;基于Hadoop的分布式視頻轉(zhuǎn)碼系統(tǒng)的研究與設(shè)計(jì)[J];蘇州科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2016年04期

3 李中顯;蔡宗慧;;基于Hadoop云平臺的聯(lián)合收割機(jī)遠(yuǎn)程監(jiān)控系統(tǒng)研究[J];農(nóng)機(jī)化研究;2017年12期

4 卞濤;羅澤;馬永征;;基于Hadoop的分布式視頻處理[J];科研信息化技術(shù)與應(yīng)用;2016年04期

5 劉洋;李筱楠;劉會杰;;基于Hadoop的煤炭企業(yè)數(shù)據(jù)共享系統(tǒng)設(shè)計(jì)[J];煤炭技術(shù);2017年06期

6 葉春蕾;;基于Hadoop的高校圖書館大數(shù)據(jù)關(guān)鍵技術(shù)研究[J];數(shù)字圖書館論壇;2017年05期

7 王倩;譚永杰;秦杰;柴爭義;葉海琴;;基于Hadoop分布式平臺的海量圖像檢索[J];南京理工大學(xué)學(xué)報(bào);2017年04期

8 黃鑫;景亮;;基于Hadoop的推薦算法實(shí)現(xiàn)[J];自動化技術(shù)與應(yīng)用;2017年10期

9 趙廣智;;Hadoop與關(guān)系型數(shù)據(jù)庫在電信行業(yè)中的應(yīng)用研究[J];廣東通信技術(shù);2017年09期

10 裴新超;尹四清;;基于Hadoop平臺的圖像檢索研究[J];山西電子技術(shù);2016年01期


相關(guān)博士學(xué)位論文 前10條

1 李曄鋒;基于Hadoop的行列混合存儲模型研究[D];東華大學(xué);2015年

2 林文輝;基于Hadoop的海量網(wǎng)絡(luò)數(shù)據(jù)處理平臺的關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2014年

3 李韌;基于Hadoop的大規(guī)模語義Web本體數(shù)據(jù)查詢與推理關(guān)鍵技術(shù)研究[D];重慶大學(xué);2013年

4 李學(xué)博;基于Hadoop的中醫(yī)藥Web信息資源評價(jià)體系研究[D];山東中醫(yī)藥大學(xué);2016年

5 范建永;基于Hadoop的云GIS若干關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2013年

6 喬媛媛;基于Hadoop的網(wǎng)絡(luò)流量分析系統(tǒng)的研究與應(yīng)用[D];北京郵電大學(xué);2014年

7 宋亞奇;云平臺下電力設(shè)備監(jiān)測大數(shù)據(jù)存儲優(yōu)化與并行處理技術(shù)研究[D];華北電力大學(xué)(北京);2016年

8 史恒亮;云計(jì)算任務(wù)調(diào)度研究[D];南京理工大學(xué);2012年

9 吳曉璇;基于分形維數(shù)的選擇性聚類融合算法研究[D];合肥工業(yè)大學(xué);2015年

10 陳洋;面向植物電生理多源數(shù)據(jù)的在線分析方法研究[D];中國農(nóng)業(yè)大學(xué);2016年


相關(guān)碩士學(xué)位論文 前10條

1 余華詠;基于Hadoop的酒店推薦系統(tǒng)[D];南昌大學(xué);2019年

2 孔海飛;基于Hadoop平臺的多維度學(xué)生學(xué)業(yè)預(yù)警系統(tǒng)的研究[D];安徽工業(yè)大學(xué);2019年

3 薛好運(yùn);基于Hadoop和深度學(xué)習(xí)的遠(yuǎn)程心肌缺血診斷系統(tǒng)的設(shè)計(jì)及實(shí)現(xiàn)[D];華南理工大學(xué);2019年

4 韋美峰;Hadoop平臺下主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2018年

5 徐燁;基于hadoop的電梯大數(shù)據(jù)安全性挖掘平臺的研究[D];上海應(yīng)用技術(shù)大學(xué);2019年

6 馬明浩;大數(shù)據(jù)時(shí)代用戶游戲內(nèi)付費(fèi)預(yù)測研究[D];東華大學(xué);2019年

7 張永普;基于改進(jìn)Hadoop的大規(guī)模圖處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];遼寧大學(xué);2019年

8 張舜;基于Hadoop的高校數(shù)字資源分布式處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];廣西大學(xué);2019年

9 陳旭;基于Hadoop的電影推薦系統(tǒng)的研究與實(shí)現(xiàn)[D];遼寧大學(xué);2019年

10 馬振;Hadoop集群中小文件的存取優(yōu)化研究[D];新疆大學(xué);2019年



本文編號:2845031

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/tushudanganlunwen/2845031.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶34788***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com