安卓技術信息的主題爬蟲技術研究與實現(xiàn)
本文關鍵詞:安卓技術信息的主題爬蟲技術研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:為提高企業(yè)內(nèi)安卓研發(fā)人員的工作效率,企業(yè)開發(fā)了安卓技術信息的垂直搜索引擎。在垂直搜索引擎中,最為基礎和底層的數(shù)據(jù)是由主題爬蟲提供的。因此主題爬蟲的能力決定了整個垂直搜索引擎在該領域上的專業(yè)程度。而主題爬蟲能夠找準方向進行爬行就能高效合理地到達垂直資源所在的位置,也就能高效率地獲得符合主題的資源。為此,本文將對主題爬蟲的核心部分——主題爬行策略展開論述,并針對策略中的兩個子功能網(wǎng)頁主題相關度判斷和隧道穿越進行研究與實現(xiàn)。因此論文比較了現(xiàn)有的基于網(wǎng)頁內(nèi)容和網(wǎng)頁鏈接結構多種算法的優(yōu)劣,并對安卓技術信息的資源進行分析制定專有的網(wǎng)頁主題相關度判斷方案,并實現(xiàn)穿越隧道的能力。其中主要貢獻如下:(1)實現(xiàn)了參考谷歌的網(wǎng)頁排名算法并改進了鯊魚搜索對主題背景不適用的部分,最后結合一個參考網(wǎng)頁兄弟節(jié)點的綜合方案進行爬行;(2)為了提高獲取主題資源的準確率,課題制定了基于向量空間模型對分類后的網(wǎng)頁內(nèi)容進行主題相關度計算的方法;(3)為擴大爬行結果在網(wǎng)站中主題資源的覆蓋程度,使用繼承相關性和遞減搜集隧道種子的特性來實現(xiàn)隧道穿越功能;對主題爬蟲的關鍵模塊實現(xiàn)后進行測試驗證,結果表明,實現(xiàn)的主題爬蟲能較有效率的爬行和準確的抓取到主題相關的網(wǎng)頁,并能通過隧道穿越解決主題孤島現(xiàn)象。但仍存在部分主題相關的網(wǎng)頁被誤判無法拾回的現(xiàn)象,在執(zhí)行隧道穿越中依舊遍歷了大量的網(wǎng)頁數(shù),占用網(wǎng)絡帶寬和計算資源,這是下一步要改進的工作。
【關鍵詞】:主題爬蟲 安卓技術 隧道穿越 主題詞庫 爬行策略
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-9
- 中英文對照表9-10
- 第一章 緒論10-14
- 1.1 研究背景及意義10
- 1.2 網(wǎng)絡爬蟲研究現(xiàn)狀綜述10-12
- 1.2.1 常見爬蟲研究方向10-11
- 1.2.2 國內(nèi)外著名的主題爬蟲11-12
- 1.3 研究內(nèi)容12-13
- 1.4 論文組織結構13-14
- 第二章 相關技術14-27
- 2.1 主題爬行策略技術14-18
- 2.1.1 超文本歸納主題搜索14-15
- 2.1.2 網(wǎng)頁排名與山頂算法15-16
- 2.1.3 最佳優(yōu)先搜索16
- 2.1.4 魚群搜索與鯊魚搜索16-18
- 2.2 主題相關度判別技術18-23
- 2.2.1 主題相關度計算方法19-21
- 2.2.2 正文提取方法21-22
- 2.2.3 權重賦值方法22-23
- 2.3 隧道穿越技術23-24
- 2.4 主題爬蟲系統(tǒng)工作流程24-25
- 2.5 網(wǎng)絡中垂直領域信息資源現(xiàn)狀25-27
- 第三章 主題爬行策略27-39
- 3.1 功能分析27-28
- 3.1.1 主題爬行策略概述27
- 3.1.2 設計與實現(xiàn)要求27-28
- 3.2 設計方案28
- 3.3 功能設計28-33
- 3.3.1 選取爬行策略類型28-29
- 3.3.2 優(yōu)化鯊魚搜索29-31
- 3.3.3 網(wǎng)頁排序算法融入策略31-32
- 3.3.4 使用兄弟節(jié)點作參考32-33
- 3.4 方案實現(xiàn)33-39
- 第四章 網(wǎng)頁主題相關度判斷39-48
- 4.1 功能分析39-40
- 4.1.1 網(wǎng)頁主題相關度判斷概述39
- 4.1.2 設計與實現(xiàn)要求39-40
- 4.2 設計方案40
- 4.3 功能設計40-46
- 4.3.1 建立主題詞庫40-42
- 4.3.2 對正文提取及代碼段去噪42-43
- 4.3.3 安卓技術信息資源分類處理43-45
- 4.3.4 對單塊文本主題相似度計算45-46
- 4.4 方案實現(xiàn)46-48
- 第五章 隧道穿越48-56
- 5.1 功能分析48-49
- 5.1.1 隧道穿越概述48
- 5.1.2 設計與實現(xiàn)要求48-49
- 5.2 設計方案49
- 5.3 功能設計49-51
- 5.3.1 關聯(lián)特性和深度限制49
- 5.3.2 判斷主題孤島現(xiàn)象發(fā)生49-50
- 5.3.3 遞減收集方法50-51
- 5.4 方案實現(xiàn)51-56
- 第六章 總結與展望56-58
- 6.1 總結56
- 6.2 下一步工作及展望56-58
- 致謝58-59
- 參考文獻59-61
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 吳玲達,謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動收集與處理系統(tǒng)的研制[J];計算機應用研究;2005年05期
2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設計與實現(xiàn)[J];計算機工程與應用;2005年31期
3 周亦鵬;杜軍平;;基于時空情境模型的主題跟蹤[J];華南理工大學學報(自然科學版);2012年08期
4 陳雄;都云程;李渝勤;施水才;;基于頁面結構分析的論壇主題信息定位方法研究[J];微計算機信息;2010年27期
5 何利益;陸國鋒;羅鵬;;動態(tài)新聞主題信息推薦系統(tǒng)設計[J];指揮信息系統(tǒng)與技術;2013年04期
6 關慧芬;師軍;;基于本體的主題爬蟲技術研究[J];計算機仿真;2009年10期
7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計算機研究與發(fā)展;2012年06期
8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學學報(自然科學版);2005年S1期
9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報技術;2008年12期
10 朱夢麟;李光耀;周毅敏;;基于樹比較的Web頁面主題信息抽取[J];微型機與應用;2011年19期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識別及表示[A];第五屆全國信息檢索學術會議論文集[C];2009年
2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2002年
3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學術會議論文集(上)[C];2008年
4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年
5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動提取[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年
6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復評論發(fā)現(xiàn)[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
中國博士學位論文全文數(shù)據(jù)庫 前4條
1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學;2014年
2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學;2013年
3 吳永輝;面向?qū)I(yè)領域的網(wǎng)絡信息采集及主題檢測技術研究與應用[D];哈爾濱工業(yè)大學;2010年
4 薛利;面向證券應用的WEB主題觀點挖掘若干關鍵問題研究[D];復旦大學;2013年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 解琰;主題優(yōu)化過濾方法研究與應用[D];大連海事大學;2015年
2 楊春艷;基于語義和引用加權的文獻主題提取研究[D];浙江大學;2015年
3 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學;2014年
4 黃志;基于維基歧義頁的搜索結果聚類方法研究[D];北京理工大學;2015年
5 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學;2015年
6 任昱鳳;基于Hadoop的分布式主題爬蟲及其實現(xiàn)[D];陜西師范大學;2015年
7 韓琳;基于貝葉斯主題爬蟲的研究與實現(xiàn)[D];北京工業(yè)大學;2015年
8 黎楠;面向?qū)@闹黝}挖掘技術研究及應用[D];北京工業(yè)大學;2015年
9 劉學江;超大規(guī)模社交網(wǎng)絡中基于結構與主題的社團挖掘[D];電子科技大學;2015年
10 黃文強;安卓技術信息的主題爬蟲技術研究與實現(xiàn)[D];東南大學;2015年
本文關鍵詞:安卓技術信息的主題爬蟲技術研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:374736
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/374736.html