天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于關(guān)鍵詞的搜索引擎網(wǎng)頁去重算法研究

發(fā)布時間:2020-12-27 21:40
  互聯(lián)網(wǎng)的飛速發(fā)展使得互聯(lián)網(wǎng)的數(shù)據(jù)得到了指數(shù)級增長。與報紙、電視和廣播這些傳統(tǒng)的傳輸媒體相比,互聯(lián)網(wǎng)更加高效實時、經(jīng)濟直觀,并極具開放性,是新一代的大眾傳媒;ヂ(lián)網(wǎng)上的信息紛繁復(fù)雜,并存在大量的相似重復(fù)網(wǎng)頁信息。這些相似重復(fù)網(wǎng)頁信息不但給網(wǎng)絡(luò)用戶帶來了相當大的困擾,增加了搜索目標信息的難度;也降低了競爭情報系統(tǒng)和搜索引擎的網(wǎng)頁信息采集分析工作的效率。因此,關(guān)于相似重復(fù)網(wǎng)頁去重技術(shù)的研究是一個極具實際意義的研究課題。本文在分析了當前相似網(wǎng)頁去重技術(shù)的基礎(chǔ)上,詳細闡述了網(wǎng)頁去重技術(shù)的整體流程,包括網(wǎng)頁預(yù)處理、網(wǎng)頁特征提取和相似性判斷等,網(wǎng)頁預(yù)處理包括網(wǎng)頁格式正規(guī)化處理和網(wǎng)頁主題內(nèi)容提取。提取網(wǎng)頁主題內(nèi)容需先構(gòu)建DOM文檔結(jié)構(gòu)樹,然后去除圖片、表單和網(wǎng)頁腳本等噪聲節(jié)點,最后定位候選子樹節(jié)點和進行噪聲指數(shù)計算。在相似網(wǎng)頁去重算法上,以SimHash算法為基礎(chǔ)進行適當?shù)母倪M,為更準確地表征網(wǎng)頁主題內(nèi)容,在進行網(wǎng)頁分詞和去除停用詞與無意義詞后,采用單步前進制的單詞序列作為網(wǎng)頁特征項,融入了單詞與單詞的相互位置關(guān)系。為降低算法的時間空間復(fù)雜度,在進行網(wǎng)頁特征項的權(quán)重計算的同時,提取出適當數(shù)量的網(wǎng)頁關(guān)鍵... 

【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校

【文章頁數(shù)】:63 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于關(guān)鍵詞的搜索引擎網(wǎng)頁去重算法研究


3訓(xùn)練得到詞典

模塊組成,搜索引擎


MASTTR'S?THESIS??本文的網(wǎng)頁去重算法實現(xiàn)方案是建立在在圖5.2的架構(gòu)設(shè)想基礎(chǔ)上的,即采取??個開源的搜索引擎,并對此捜索引擎中的網(wǎng)頁數(shù)據(jù)去重模塊應(yīng)用上章內(nèi)容描述的??似網(wǎng)頁去重算法加W改進。Nutch是一個Java實現(xiàn)的開源的捜索引擎,提供了網(wǎng)??爬蟲、全文檢索和分布式存儲等諸多工具,在本文中我們將基于N山址對網(wǎng)頁去??算法進行驗證。??5.1實驗環(huán)境??Nut沈是Apache基金會下的一個基于Java實現(xiàn)的開源的搜索引擎,是一個髙??可擴展的開源網(wǎng)絡(luò)爬蟲軟件項目。它致力于減少軟件開發(fā)者的王作量,使其能在??短的時間內(nèi)完成Web搜索引擎的開發(fā)王作。Nutch下有一系列的工具和模塊,提??了一系列比較完整的捜索引擎實現(xiàn)。開發(fā)人員只需在己有的工具和模塊基礎(chǔ)上進??適當?shù)男薷,就能快速地開發(fā)出高效穩(wěn)定的搜索引擎系統(tǒng)。N山ch各個模塊之間的??系如圖5.3所示。??

插件系統(tǒng),插件


_==_====??Nutch對插件機制的支持非常友好I其大部分的擴展功能都是通過插件機制實??現(xiàn)的,包括網(wǎng)頁分詞、網(wǎng)頁頁面分析、頁面評分和url地址過濾等搜索引擎的核屯、??功能。一個完整的插件包含代碼文件和配置文件兩個部分。代碼文件負責(zé)插件邏輯??業(yè)務(wù)功能的具體實現(xiàn);配置文件用于處理插件本身屬性和各插件及系統(tǒng)之間的交互??關(guān)系。插件機制有如下優(yōu)點??1、可擴展能力(Extensibility)??2、靈活性(Fex批lity)??3、可維護性(Maintainability)??Nutch的插件體系結(jié)構(gòu)從上到下共包括H個層次:上層是微內(nèi)核、擴展點與擴展,??微內(nèi)核負責(zé)統(tǒng)一調(diào)度,擴展點則對相應(yīng)的功能進行聲明,功能的具體實現(xiàn)由擴展完??成;中間層次包括H個部分,分別是插件、插件描述清單W及插件清單描述器,主要??完成對擴展W及其所需資源的統(tǒng)一管理;底層由插件工廠和插件清單解析器構(gòu)成,??主要功能是負責(zé)插件的注冊過程及取得擴展點的功能。Nutch插件系統(tǒng)結(jié)構(gòu)如圖??5.4所示。??

【參考文獻】:
期刊論文
[1]Asp.net中偽靜態(tài)的應(yīng)用與實現(xiàn)[J]. 侯鵬.  電腦知識與技術(shù). 2013(34)
[2]網(wǎng)頁凈化及去重研究綜述[J]. 羅元.  現(xiàn)代計算機. 2013(15)
[3]一種結(jié)合正向最大匹配法和互信息的中文分詞算法[J]. 桑書娟,王慶喜.  計算機光盤軟件與應(yīng)用. 2012(07)
[4]基于多SimHash指紋的近似文本檢測[J]. 董博,鄭慶華,宋凱磊,田鋒,馬瑞.  小型微型計算機系統(tǒng). 2011(11)
[5]用于網(wǎng)頁相關(guān)性判斷的聚焦查詢文摘算法研究[J]. 蔣效宇.  計算機工程與應(yīng)用. 2011(33)
[6]國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J]. 李志義,梁士金.  圖書情報工作. 2011(07)
[7]基于Bloom Filter的網(wǎng)頁去重算法[J]. 徐娜,劉四維,汪翔,倪衛(wèi)明.  微型電腦應(yīng)用. 2011(03)
[8]基于SLCS的元搜索去重技術(shù)研究[J]. 秦杰,謝蕙,王春云.  圖書情報工作. 2010(15)
[9]Nutch的插件機制分析[J]. 夏天.  廣西師范大學(xué)學(xué)報(自然科學(xué)版). 2010(01)
[10]基于詞匯鏈的中文新聞網(wǎng)頁關(guān)鍵詞抽取方法[J]. 胡學(xué)鋼,李星華,謝飛,吳信東.  模式識別與人工智能. 2010(01)

碩士論文
[1]科技情報采集系統(tǒng)的設(shè)計及其快速文本聚類方法研究[D]. 宋辰.北京工業(yè)大學(xué) 2014
[2]網(wǎng)絡(luò)輿情信息的話題發(fā)現(xiàn)和追蹤技術(shù)的研究與應(yīng)用[D]. 衣波.廣東工業(yè)大學(xué) 2013
[3]移動終端通訊錄數(shù)據(jù)去重合并關(guān)鍵技術(shù)研究[D]. 吳朋朋.北京郵電大學(xué) 2014
[4]主題搜索引擎的研究與應(yīng)用[D]. 黃波.成都理工大學(xué) 2007
[5]基于本體的面向股票領(lǐng)域搜索引擎的實現(xiàn)技術(shù)研究[D]. 黃堃.天津大學(xué) 2007



本文編號:2942532

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2942532.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6079f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com