天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于貝葉斯主題爬蟲的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-08-07 19:32

  本文關(guān)鍵詞:基于貝葉斯主題爬蟲的研究與實(shí)現(xiàn)


  更多相關(guān)文章: 貝葉斯分類器 主題爬蟲 中文分詞 特征選擇


【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,人們?cè)絹碓揭蕾囉谕ㄟ^網(wǎng)絡(luò)搜索自己想要的信息,而目前網(wǎng)上信息量龐大,用戶對(duì)搜索引擎的功能和內(nèi)容提出了更高的要求,希望搜索引擎能夠?yàn)槠涮峁└訉I(yè)的信息服務(wù),逐漸向主題化的方向發(fā)展。使用Web文檔分類技術(shù)可以根據(jù)用戶定義目標(biāo)主題,更加有效地篩選和管理Web資源,智能化地從Web上收集與主題相關(guān)的網(wǎng)頁(yè)集合,提高信息檢索的效率,它目前已成為主題爬蟲的研究熱點(diǎn)之一。本文基于貝葉斯分類器,針對(duì)主題爬蟲展開研究,研究工作主要包括以下幾項(xiàng):1.主題爬蟲體系結(jié)構(gòu)的設(shè)計(jì)。通過分析主題爬蟲的工作原理,研究出主題爬蟲的功能組成結(jié)構(gòu),分析了HTML網(wǎng)頁(yè)的組織結(jié)構(gòu)關(guān)系,設(shè)計(jì)網(wǎng)頁(yè)鏈接提取方案,搜索策略以及主題相似度計(jì)算模型的方法。2.構(gòu)造財(cái)經(jīng)、體育和汽車三個(gè)主題分類器。通過研究樸素貝葉斯原理,應(yīng)用樸素貝葉斯分類算法,設(shè)置合適的平滑因子,通過樣本訓(xùn)練該分類器,構(gòu)造出了財(cái)經(jīng)、體育和汽車三個(gè)主題的分類器。3.網(wǎng)頁(yè)采集與內(nèi)容處理。研究了網(wǎng)頁(yè)處理相關(guān)技術(shù)如提取正文、中文分詞、統(tǒng)計(jì)詞頻、特征選擇和鏈接提取等內(nèi)容,通過分析開源框架IKAnalyzer,DF統(tǒng)計(jì)詞頻和HtmlParser,使得網(wǎng)頁(yè)內(nèi)容和鏈接提取和處理得到實(shí)現(xiàn)。4.實(shí)現(xiàn)主題爬蟲系統(tǒng)。通過建立Http請(qǐng)求并獲得網(wǎng)頁(yè),對(duì)其提取正文,中文分詞,特征選擇,并使用分類器分析主題,同時(shí)融合多線程技術(shù),實(shí)現(xiàn)了基于貝葉斯分類器的主題爬蟲系統(tǒng)。最后,通過本文構(gòu)造出的財(cái)經(jīng)、體育和汽車這三個(gè)主題的分類器,從一些門戶網(wǎng)站中采集大量的網(wǎng)頁(yè)數(shù)據(jù),利用本研究中提出的方法對(duì)網(wǎng)頁(yè)進(jìn)行主題分類測(cè)試,爬蟲試驗(yàn)效果優(yōu)良,完成了課題要求。
【關(guān)鍵詞】:貝葉斯分類器 主題爬蟲 中文分詞 特征選擇
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1


本文編號(hào):636355

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/636355.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7c989***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com