天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Map/Reduce框架實(shí)現(xiàn)的倒排索引文本檢索

發(fā)布時(shí)間:2021-03-07 06:24
  倒排索引在搜索引擎檢索系統(tǒng)中有很廣泛的應(yīng)用前景。而隨著互聯(lián)網(wǎng)各種數(shù)據(jù)的不斷聚集,單處理器早已無法滿足對(duì)數(shù)據(jù)的處理。文章介紹了基于Map/Reduce框架下通過多節(jié)點(diǎn)實(shí)現(xiàn)多個(gè)文本的倒排索引技術(shù),詳細(xì)闡述了在多處理器下倒排索引實(shí)現(xiàn)的原理。并根據(jù)目前倒排索引在各大搜索引擎的應(yīng)用狀況,結(jié)合在試驗(yàn)中獲得的相關(guān)數(shù)據(jù),進(jìn)一步探索了在Map/Reduce框架下倒排索引文本的有效性和效率。 

【文章來源】:智能城市. 2019,5(11)

【文章頁數(shù)】:3 頁

【部分圖文】:

基于Map/Reduce框架實(shí)現(xiàn)的倒排索引文本檢索


map過程輸入/輸出通過map函數(shù)處理后的輸出的數(shù)據(jù)中,鍵值<單詞+

過程輸入,處理階段,詞頻,單詞


刀?偏移量,內(nèi)容>作為map的輸入。map函數(shù)的關(guān)鍵是對(duì)key和value的進(jìn)行設(shè)置以適應(yīng)Map/Reduce框架,從而得到正確的結(jié)果。對(duì)于文件inverted1.txt與inverted2.txt,搜索關(guān)鍵詞的詳細(xì)設(shè)計(jì)過程如圖3所示。設(shè)計(jì)過程中首先需要對(duì)整個(gè)文檔進(jìn)行切分,得到單詞、所屬的文檔URL及詞頻,文中設(shè)計(jì)key=單詞+URL,value=詞頻。即map的輸出為<單詞+URL,詞頻>。圖3map過程輸入/輸出通過map函數(shù)處理后的輸出的數(shù)據(jù)中,鍵值<單詞+URL,詞頻>做為combine過程的輸入,該過程需要將同一文檔中Key值相同的value值進(jìn)行累加,如圖4所示。圖4Combine過程輸入/輸出在最后reduce處理階段,是對(duì)最終結(jié)果進(jìn)行合并的階段,需要對(duì)不同文檔中相同的key值進(jìn)行處理,該過程根據(jù)倒排索引需要的格式進(jìn)行輸出,輸出結(jié)果為<單詞,URL+詞頻>,如圖5所示。<d1;wd1,t,loc1,loc2…locd1,ft><d2;wd2…>…<dnt…>

過程輸入,文本檢索,倒排索引,集中式


SA.IEEE.2010.[2]劉鵬,于全,楊震于.云計(jì)算大數(shù)據(jù)處理[J].北京:人民郵電出版社,2015:35-41.[3]劉立卿.搜索引擎:信息檢索實(shí)踐[J].計(jì)算機(jī)教育,2010,118(10):65.[4]嚴(yán)浪.倒排文件技術(shù)設(shè)計(jì)[J].計(jì)算機(jī)與數(shù)字工程,2011,39(3):168-170.[5]吳文娟,車明.搜索引擎倒排索引技術(shù)的改進(jìn)[J].微處理機(jī),2006,27(6):83-85.[6]謝桂蘭,羅省賢.基于HadoopMap/Reduce模型的應(yīng)用研究[J].微型機(jī)與應(yīng)用,2010(8):4-7.作者簡(jiǎn)介:馬飛,碩士,研究方向?yàn)椴⑿蟹植继幚砼c大數(shù)據(jù)云計(jì)算技術(shù)、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺。圖5Reduce過程輸入/輸出3試驗(yàn)結(jié)果與分析試驗(yàn)中,對(duì)比了利用Hadoop集群與集中式搜索兩種方式實(shí)現(xiàn)倒排索引文本檢索的耗時(shí),同時(shí)也比較了利用不同數(shù)目主機(jī)搭建的Hadoop集群實(shí)現(xiàn)的倒排索引文本檢索速度,試驗(yàn)中,設(shè)定主題為“找工作”,分別爬取15、50、100、300、500個(gè)網(wǎng)頁,以“工程師”為關(guān)鍵字檢索與該職位相關(guān)的招聘信息,數(shù)據(jù)采集如表1所示。表1不同方式實(shí)現(xiàn)的倒排索引文本檢索速度表圖6對(duì)比了利用Hadoop集群實(shí)現(xiàn)的Map/Reduce倒排索引文本平均檢索速度與集中式文本檢索速度,試驗(yàn)結(jié)果表明,當(dāng)抓取網(wǎng)頁數(shù)量達(dá)到70個(gè)時(shí),通過Hadoop集群與集中式實(shí)現(xiàn)的倒排索引耗時(shí)均接近75000ms。當(dāng)爬取的網(wǎng)頁數(shù)量為15個(gè)時(shí),利用集中式實(shí)現(xiàn)的倒排文本索引檢索耗時(shí)低于Hadoop集群的耗時(shí),而平均檢索速度則優(yōu)于分布式集群。而隨著抓取網(wǎng)頁的數(shù)量增長(zhǎng)到500個(gè)時(shí),利用集中式實(shí)現(xiàn)的文本檢索耗時(shí)呈比例增長(zhǎng),而通過Hadoop集群進(jìn)行檢索速度明顯優(yōu)于集中式實(shí)現(xiàn)的文本檢索,造成該現(xiàn)象的主要原因在于集群?jiǎn)?dòng)時(shí)需要一定的時(shí)間,在對(duì)網(wǎng)頁數(shù)據(jù)進(jìn)行分片、復(fù)制及不同主機(jī)間通信時(shí)會(huì)消耗大量時(shí)間。隨著集群所需要的準(zhǔn)備工作完畢,利用集群實(shí)現(xiàn)?

【參考文獻(xiàn)】:
期刊論文
[1]倒排文件技術(shù)設(shè)計(jì)[J]. 嚴(yán)浪.  計(jì)算機(jī)與數(shù)字工程. 2011(03)
[2]搜索引擎:信息檢索實(shí)踐[J]. 劉立卿.  計(jì)算機(jī)教育. 2010(10)
[3]基于Hadoop MapReduce模型的應(yīng)用研究[J]. 謝桂蘭,羅省賢.  微型機(jī)與應(yīng)用. 2010(08)
[4]搜索引擎倒排索引技術(shù)的改進(jìn)[J]. 吳文娟,車明.  微處理機(jī). 2006(06)



本文編號(hào):3068558

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3068558.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶704dd***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com