面向主題的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2023-10-22 12:38
隨著互聯(lián)網(wǎng)的普及和網(wǎng)絡(luò)規(guī)模的擴(kuò)大,網(wǎng)頁(yè)數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過(guò)了通用搜索引擎的覆蓋范圍。為提高抓取資源的質(zhì)量,產(chǎn)生了主題網(wǎng)絡(luò)爬蟲(chóng)。在爬取過(guò)程中,主題網(wǎng)絡(luò)爬蟲(chóng)傾向于訪問(wèn)主題相似度高的頁(yè)面。傳統(tǒng)的主題爬蟲(chóng)策略通常基于網(wǎng)頁(yè)文本內(nèi)容或網(wǎng)頁(yè)鏈接結(jié)構(gòu)對(duì)網(wǎng)頁(yè)主題進(jìn)行分析;诰W(wǎng)頁(yè)文本內(nèi)容的主題判定策略只關(guān)注了網(wǎng)頁(yè)正文文本信息,由于沒(méi)有關(guān)注鏈接結(jié)構(gòu)容易陷入局部最優(yōu)解;基于網(wǎng)頁(yè)鏈接結(jié)構(gòu)的主題判定策略能夠通過(guò)多個(gè)網(wǎng)頁(yè)鏈接預(yù)測(cè)網(wǎng)頁(yè)主題,但是由于缺少文本輔助判定主題相關(guān)性,經(jīng)常會(huì)導(dǎo)致爬蟲(chóng)出現(xiàn)“主題偏移”。盡管現(xiàn)在有混合主題爬行策略的相關(guān)研究,改進(jìn)了主題判定和爬取算法,但在查全率、查準(zhǔn)率以及爬取速度方面仍然存在可提升的空間。為了提升主題爬蟲(chóng)的主題判定性能,本文提出了基于HowNet的文本主題相似度判定算法。首先提出了基于“知網(wǎng)”(HowNet)的主題相似度評(píng)價(jià)方法,針對(duì)傳統(tǒng)信息量(IC)評(píng)價(jià)方法計(jì)算不夠準(zhǔn)確的缺點(diǎn),本文對(duì)傳統(tǒng)IC計(jì)算模型進(jìn)行了改進(jìn)。在IC計(jì)算過(guò)程中增加上位詞、同義詞、近義詞和多義詞的處理。針對(duì)向量空間模型(VSM)向量維度過(guò)高的問(wèn)題,提出了一種基于HowNet的文本特征降維方法。在利用詞頻-逆文檔頻率算法...
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究的背景和意義
1.2 論文內(nèi)容和創(chuàng)新點(diǎn)
1.3 研究生期間主要工作
1.4 論文結(jié)構(gòu)
第二章 相關(guān)國(guó)內(nèi)外技術(shù)研究
2.1 主題爬蟲(chóng)技術(shù)研究現(xiàn)狀
2.1.1 基于文本內(nèi)容的主題判定策略
2.1.2 基于網(wǎng)頁(yè)鏈接結(jié)構(gòu)的主題判定策略
2.1.3 基于文本內(nèi)容和網(wǎng)頁(yè)鏈接結(jié)構(gòu)的混合主題判定策略
2.2 HowNet研究現(xiàn)狀
2.3 基于HowNet的文本主題相似度評(píng)價(jià)研究現(xiàn)狀
2.4 知識(shí)圖譜研究現(xiàn)狀
2.5 本章小結(jié)
第三章 混合主題相似度判定算法
3.1 引言
3.2 基于HowNet的文本主題相似度評(píng)價(jià)方法
3.2.1 基于HowNet的IC計(jì)算模型的改進(jìn)
3.2.2 基于HowNet的文本特征降維方法
3.2.3 基于知識(shí)圖譜的主題對(duì)比文本
3.3 改進(jìn)的混合主題相似度判定方法
3.4 仿真實(shí)驗(yàn)及結(jié)論
3.4.1 實(shí)驗(yàn)開(kāi)發(fā)環(huán)境
3.4.2 數(shù)據(jù)準(zhǔn)備
3.4.3 性能指標(biāo)
3.4.4 實(shí)驗(yàn)方案和結(jié)果分析
3.5 本章小結(jié)
第四章 混合主題爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)
4.1 引言
4.2 混合主題爬蟲(chóng)需求分析與概要設(shè)計(jì)
4.2.1 系統(tǒng)功能需求分析
4.2.2 系統(tǒng)基本結(jié)構(gòu)
4.2.3 系統(tǒng)處理流程
4.2.4 數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)
4.3 混合主題爬蟲(chóng)系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.3.1 網(wǎng)頁(yè)解析模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.3.2 文本處理模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.3.3 主題策略模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.3.4 主題對(duì)比文本模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.4 系統(tǒng)測(cè)試
4.4.1 測(cè)試環(huán)境
4.4.2 功能測(cè)試
4.4.3 性能測(cè)試
4.5 本章小結(jié)
第五章 總結(jié)和展望
第六章 參考文獻(xiàn)
第七章 致謝
第八章 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
本文編號(hào):3856535
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究的背景和意義
1.2 論文內(nèi)容和創(chuàng)新點(diǎn)
1.3 研究生期間主要工作
1.4 論文結(jié)構(gòu)
第二章 相關(guān)國(guó)內(nèi)外技術(shù)研究
2.1 主題爬蟲(chóng)技術(shù)研究現(xiàn)狀
2.1.1 基于文本內(nèi)容的主題判定策略
2.1.2 基于網(wǎng)頁(yè)鏈接結(jié)構(gòu)的主題判定策略
2.1.3 基于文本內(nèi)容和網(wǎng)頁(yè)鏈接結(jié)構(gòu)的混合主題判定策略
2.2 HowNet研究現(xiàn)狀
2.3 基于HowNet的文本主題相似度評(píng)價(jià)研究現(xiàn)狀
2.4 知識(shí)圖譜研究現(xiàn)狀
2.5 本章小結(jié)
第三章 混合主題相似度判定算法
3.1 引言
3.2 基于HowNet的文本主題相似度評(píng)價(jià)方法
3.2.1 基于HowNet的IC計(jì)算模型的改進(jìn)
3.2.2 基于HowNet的文本特征降維方法
3.2.3 基于知識(shí)圖譜的主題對(duì)比文本
3.3 改進(jìn)的混合主題相似度判定方法
3.4 仿真實(shí)驗(yàn)及結(jié)論
3.4.1 實(shí)驗(yàn)開(kāi)發(fā)環(huán)境
3.4.2 數(shù)據(jù)準(zhǔn)備
3.4.3 性能指標(biāo)
3.4.4 實(shí)驗(yàn)方案和結(jié)果分析
3.5 本章小結(jié)
第四章 混合主題爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)
4.1 引言
4.2 混合主題爬蟲(chóng)需求分析與概要設(shè)計(jì)
4.2.1 系統(tǒng)功能需求分析
4.2.2 系統(tǒng)基本結(jié)構(gòu)
4.2.3 系統(tǒng)處理流程
4.2.4 數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)
4.3 混合主題爬蟲(chóng)系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.3.1 網(wǎng)頁(yè)解析模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.3.2 文本處理模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.3.3 主題策略模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.3.4 主題對(duì)比文本模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
4.4 系統(tǒng)測(cè)試
4.4.1 測(cè)試環(huán)境
4.4.2 功能測(cè)試
4.4.3 性能測(cè)試
4.5 本章小結(jié)
第五章 總結(jié)和展望
第六章 參考文獻(xiàn)
第七章 致謝
第八章 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
本文編號(hào):3856535
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3856535.html
最近更新
教材專(zhuān)著