主題爬蟲關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:主題爬蟲關(guān)鍵技術(shù)研究
更多相關(guān)文章: 主題爬蟲 主題描述 相關(guān)度計算 主題預(yù)測
【摘要】:互聯(lián)網(wǎng)是一個含有海量信息資源的共享平臺,用戶從該平臺上查找信息需要借助搜索引擎,但是隨著用戶專業(yè)性、個性化需求的提高,只能提供粗略、普遍查詢結(jié)果的通用搜索引擎已經(jīng)不能滿足用戶的搜索需求,因此出現(xiàn)了另一種搜索引擎——垂直搜索引擎。主題爬蟲作為垂直搜索引擎的重要組成部分,為垂直搜索引擎提供專業(yè)的網(wǎng)頁資源,主題爬蟲的性能直接影響了垂直搜索引擎的優(yōu)劣。論文主要圍繞主題爬蟲的關(guān)鍵技術(shù)進行研究,主要內(nèi)容包括:(1)傳統(tǒng)的基于關(guān)鍵詞的主題描述方法關(guān)鍵詞數(shù)量多、缺乏關(guān)聯(lián)性,降低了主題描述的準確性,針對傳統(tǒng)方法的這一不足,通過訓練主題文檔獲得主題關(guān)鍵詞集合,然后通過上下位詞、同義詞的替換整合,在降低向量維度的同時,提高主題描述的準確性。(2)分析了傳統(tǒng)的TF-IDF權(quán)重計算方法,針對該方法“一視同仁”與類間高頻詞項提取不佳的不足,將位置函數(shù)和調(diào)節(jié)因子引入權(quán)重計算方法,提出了一種改進的權(quán)重計算方法M-TFIDF,提高了權(quán)重計算的精度。通過構(gòu)建主題向量與網(wǎng)頁向量,根據(jù)兩個向量的夾角判斷網(wǎng)頁的主題相關(guān)性。(3)重點研究了基于文本內(nèi)容的網(wǎng)頁搜索策略Shark-Search與基于鏈接的網(wǎng)頁搜索策略HITS,針對前者缺乏全局性與后者容易發(fā)生主題漂移現(xiàn)象的不足,提出了一種兩者結(jié)合的網(wǎng)頁搜索策略(M-SH)。同時該策略改善了Shark-Search與HITS的局限性,增加了URL地址并改進了錨文本等主題相關(guān)度預(yù)測,并將主題相關(guān)網(wǎng)頁的URL加入擴展集合。改進的網(wǎng)頁搜索策略M-SH提高了預(yù)測URL主題相關(guān)度的準確性。(4)從線下與線上兩方面進行了對比實驗,一方面進行主題相關(guān)性判斷實驗,另一方面對開源網(wǎng)絡(luò)爬蟲NWeb Crawler進行了二次開發(fā),進行綜合爬取實驗。通過將詞項整合、M-TFIDF、M-SH分別與原有方法進行對比實驗,從收獲率、召回率、F值三個方面驗證了改進方法具有良好的性能。
【關(guān)鍵詞】:主題爬蟲 主題描述 相關(guān)度計算 主題預(yù)測
【學位授予單位】:石家莊鐵道大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-9
- 第一章 緒論9-16
- 1.1 研究背景與意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-14
- 1.2.1 搜索引擎國內(nèi)外研究現(xiàn)狀10-12
- 1.2.2 主題爬蟲國內(nèi)外研究現(xiàn)狀12-14
- 1.3 主要研究內(nèi)容14-15
- 1.4 論文組織結(jié)構(gòu)15-16
- 第二章 主題爬蟲概述16-29
- 2.1 通用爬蟲16-18
- 2.1.1 通用爬蟲的基本原理16-17
- 2.1.2 通用爬蟲的結(jié)構(gòu)17-18
- 2.2 主題爬蟲18-22
- 2.2.1 主題爬蟲的概念與原理18-20
- 2.2.2 主題爬蟲的系統(tǒng)結(jié)構(gòu)20-22
- 2.3 主題爬蟲相關(guān)技術(shù)22-28
- 2.3.1 網(wǎng)頁的獲取22-24
- 2.3.2 網(wǎng)頁解析24-26
- 2.3.3 網(wǎng)頁搜索策略26-28
- 2.4 本章小結(jié)28-29
- 第三章 主題描述及網(wǎng)頁主題相關(guān)度計算29-45
- 3.1 主題描述及主題表示模型29-32
- 3.1.1 主題描述29-30
- 3.1.2 主題表示模型30-32
- 3.2 網(wǎng)頁主題相關(guān)度計算32-44
- 3.2.1 相關(guān)度計算流程32-33
- 3.2.2 構(gòu)建主題詞項33-37
- 3.2.3 主題詞項賦權(quán)37-43
- 3.2.4 構(gòu)建網(wǎng)頁向量43
- 3.2.5 相關(guān)度計算43-44
- 3.3 本章小結(jié)44-45
- 第四章 網(wǎng)頁搜索策略45-62
- 4.1 基于文本內(nèi)容的搜索策略45-49
- 4.1.1 Fish-Search45-47
- 4.1.2 Shark-Search47-49
- 4.2 基于鏈接關(guān)系的搜索策略49-54
- 4.2.1 PageRank49-50
- 4.2.2 HITS50-52
- 4.2.3 HillTop52-54
- 4.3 搜索策略的比較54-55
- 4.4 網(wǎng)頁搜索策略M-SH55-61
- 4.4.1 改進Shark-Search55-57
- 4.4.2 改進HITS57-58
- 4.4.3 M-SH58-61
- 4.5 本章小結(jié)61-62
- 第五章 實驗分析62-77
- 5.1 實驗環(huán)境62
- 5.2 實驗評價指標62-64
- 5.3 主題相關(guān)性判斷實驗64-69
- 5.3.1 詞項的獲取64-65
- 5.3.2 主題相關(guān)度計算65-68
- 5.3.3 閾值的確定68-69
- 5.4 綜合爬取實驗69-76
- 5.4.1 NWeb Crawler與主題爬蟲69-73
- 5.4.2 初始種子與參數(shù)的確定73
- 5.4.3 實驗與分析73-76
- 5.5 本章小結(jié)76-77
- 第六章 總結(jié)77-78
- 參考文獻78-81
- 致謝81-82
- 個人簡歷、在學期間的研究成果及發(fā)表的學術(shù)論文82
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 朱松巖;;網(wǎng)頁設(shè)計之特性分析[J];山東省農(nóng)業(yè)管理干部學院學報;2009年03期
2 安琳;;國外網(wǎng)頁信息存檔項目及相關(guān)問題研究[J];圖書館建設(shè);2009年12期
3 蔣桂梅;;網(wǎng)頁設(shè)計的藝術(shù)性[J];電腦知識與技術(shù);2010年05期
4 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期
5 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報工作;2011年07期
6 王爍;;美國網(wǎng)頁歸檔項目——Internet Archive發(fā)展研究[J];蘭臺世界;2012年17期
7 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動提取的設(shè)計與實現(xiàn)[J];計算機光盤軟件與應(yīng)用;2012年18期
8 何立波;周世波;;網(wǎng)頁設(shè)計中的藝術(shù)研究[J];考試周刊;2011年25期
9 秦永平;網(wǎng)頁信息共享技術(shù)[J];計算機應(yīng)用;2000年02期
10 項鎮(zhèn);網(wǎng)頁設(shè)計新概念[J];江西教育學院學報(自然科學);2001年06期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 吳建軍;;談網(wǎng)頁設(shè)計的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學術(shù)交流會優(yōu)秀論文選編[C];2005年
2 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術(shù)會議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達中的應(yīng)用研究[A];2006年中國機械工程學會年會暨中國工程院機械與運載工程學部首屆年會論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術(shù)會議論文集[C];2010年
9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2000年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務(wù)新渠道[N];中國氣象報;2012年
2 壯壯;批量保存網(wǎng)頁信息[N];電腦報;2004年
3 羅震宇 嚴小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國冶金報;2011年
4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報;2004年
5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報;2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報;2001年
7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報;2004年
8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國電腦教育報;2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報;2013年
10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請上網(wǎng)賬號[N];電腦報;2002年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學;2013年
2 龔昌盛;基于語義標注的網(wǎng)頁廣告加載模型研究[D];武漢大學;2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學;2005年
4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學;2007年
5 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學;2008年
6 曹魯慧;Web個人信息集成問題研究[D];山東大學;2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學;2012年
8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學;2009年
9 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學;2012年
10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學;2006年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 敖志敏;基于網(wǎng)頁相似度的搜索算法改進的研究[D];上海師范大學;2015年
2 楊尋;地域文化的視覺元素在旅游網(wǎng)頁設(shè)計中的應(yīng)用研究[D];西南交通大學;2015年
3 張W,
本文編號:905703
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/905703.html