基于web3.0網(wǎng)絡(luò)爬蟲自主學(xué)習(xí)技術(shù)研究
本文關(guān)鍵詞:基于web3.0網(wǎng)絡(luò)爬蟲自主學(xué)習(xí)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)已經(jīng)發(fā)展到web2.0時代,并且開始邁向web3.0,搜索引擎已經(jīng)成為人們從互聯(lián)網(wǎng)上獲取信息不可替代的渠道。在這種時代背景下,如何更有效的利用搜索引擎,發(fā)掘更有價值或者特定領(lǐng)域的信息是擺在眼前的問題。本系統(tǒng)就是在這種背景下研究如何獲取客戶來源渠道以及特定客戶信息。 本系統(tǒng)是銷售團隊智能管理系統(tǒng)中的子模塊,,是專門為該銷售系統(tǒng)里的客戶查找模塊提供客戶資源的。該模塊主要功能是為用戶提供來源于互聯(lián)網(wǎng)的公司客戶信息,這也是該軟件與傳統(tǒng)銷售軟件區(qū)別之一。傳統(tǒng)上這些公司客戶信息要么是來源于自己歷年積累的客戶信息,要么就是來源于網(wǎng)上的黃頁網(wǎng)站(如阿里巴巴和慧聰網(wǎng)等),但總的來說包含的有效公司信息還是比較有限的。如今搜索引擎已經(jīng)是人們獲取信息最重要的來源,有效利用該資源獲取信息,就顯得尤為重要。如今有多種搜索引擎,對本文來說每一種搜索引擎都是從互聯(lián)網(wǎng)獲取信息的重要通道,所以本著盡可能多的獲取信息渠道的目的,本文引入元搜索引擎的概念,即整合多種搜索引擎。用戶在元搜索引擎上輸入某個關(guān)鍵字,相當(dāng)于在多種搜索引擎上同時輸入該關(guān)鍵字并進(jìn)行檢索。本系統(tǒng)不僅便于用戶操作,還能盡量多的搜索到用戶所需要的信息。為了避免信息重復(fù),本系統(tǒng)還實現(xiàn)了篩選過濾信息的功能。在此基礎(chǔ)上,為了進(jìn)一步得到更多的客戶信息,本文利用用戶輸入的關(guān)鍵字進(jìn)行擴展處理。本文利用了知網(wǎng)這一本體對搜索的領(lǐng)域關(guān)鍵詞領(lǐng)域進(jìn)行統(tǒng)一建模。本體是表示領(lǐng)域知識的代表,也是語義網(wǎng)中的重要部分,語義網(wǎng)被認(rèn)為是新一代網(wǎng)絡(luò),即web3.0,本文在研究web3.0的搜索引擎上如何獲取用戶所需要的信息進(jìn)行了探索。本文的研究還包括搜索引擎上爬取信息的工具—網(wǎng)絡(luò)爬蟲(也叫網(wǎng)絡(luò)蜘蛛)。通過網(wǎng)絡(luò)爬蟲爬取完搜索引擎上公司相關(guān)信息大致分為三類:公司網(wǎng)站信息、平臺網(wǎng)站信息和無關(guān)項信息。其中公司網(wǎng)站信息是我們需要的,平臺信息是部分需要的,最后的無關(guān)項信息是直接可以忽略掉的。為了把網(wǎng)絡(luò)爬蟲得到的網(wǎng)站信息分成上述三類信息,本文采用了文本分類領(lǐng)域經(jīng)常使用的算法,樸素貝葉斯算法和K最近鄰算法(KNN)。根據(jù)上述兩種算法思想,首先進(jìn)行文本預(yù)處理,即把半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),這里主要利用IKAnalyzer包的中文的分詞處理過程為主。之后就要統(tǒng)計每個中文詞語在某個類(即上述三個類)里出現(xiàn)的頻次、該類里包含的中文詞語總數(shù)和訓(xùn)練樣本中所有中文詞語的總數(shù)。為了適應(yīng)KNN算法,還需要計算每個文檔的TF*IDF值,即詞頻和逆文檔頻率之積。然后對文本預(yù)處理過的數(shù)據(jù)進(jìn)行隨機的測試集和訓(xùn)練集劃分,即針對特征詞進(jìn)行訓(xùn)練集和測試集的劃分。隨后把訓(xùn)練集數(shù)據(jù)用在上述算法公式進(jìn)行訓(xùn)練,最后使用測試集數(shù)據(jù)再驗證算法的分類效果。 通過分析上述理論實現(xiàn)出來的分類算法的效果,本文在特定領(lǐng)域搜索知識上取得了較好的結(jié)果,其算法分類出來的平均精確度超過80%,基本能滿足需求,并且能延伸和借鑒到其他以爬取互聯(lián)網(wǎng)相關(guān)信息為研究的課題上。
【關(guān)鍵詞】:web3.0 網(wǎng)絡(luò)爬蟲 本體 K鄰近算法 樸素貝葉斯算法
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 緒論10-14
- 1.1 本文來源及研究意義10-11
- 1.2 本文面臨的研究難點11-12
- 1.3 本文主要工作12
- 1.4 本文組織結(jié)構(gòu)12-14
- 第二章 基于 web 3.0 的關(guān)鍵詞擴展技術(shù)14-21
- 2.1 web 3.0 含義14-15
- 2.2 語義網(wǎng)15-18
- 2.2.1 語義網(wǎng)概念15-16
- 2.2.2 語義網(wǎng)體系架構(gòu)16-18
- 2.3 本體18-19
- 2.3.1 本體的來歷18
- 2.3.2 本體建模18-19
- 2.3.3 本體分類19
- 2.4 基于本體的關(guān)鍵詞擴展19-21
- 第三章 面向元搜索的網(wǎng)絡(luò)爬蟲21-30
- 3.1 網(wǎng)絡(luò)爬蟲概念21
- 3.2 網(wǎng)絡(luò)爬蟲的爬取策略21-23
- 3.3 網(wǎng)絡(luò)爬蟲體系結(jié)構(gòu)23-26
- 3.4 網(wǎng)絡(luò)爬蟲的工具或程序26-28
- 3.5 元搜索網(wǎng)絡(luò)爬蟲28-30
- 第四章 網(wǎng)頁分類算法30-35
- 4.1 樸素貝葉斯算法概述30-31
- 4.2 KNN 算法概述31-32
- 4.3 網(wǎng)頁分類算法32-35
- 第五章 基于 web3.0 網(wǎng)絡(luò)爬蟲自主學(xué)習(xí)系統(tǒng)的實現(xiàn)及效果35-51
- 5.1 系統(tǒng)設(shè)計與實現(xiàn)35-47
- 5.1.1 基于 HOWNET 關(guān)鍵詞擴展36-39
- 5.1.2 基于元搜索的網(wǎng)絡(luò)爬蟲工具39-42
- 5.1.3 分類算法設(shè)計42-47
- 5.2 實驗樣本數(shù)據(jù)來源47-49
- 5.3 實現(xiàn)效果49-51
- 第六章 總結(jié)與展望51-53
- 6.1 總結(jié)51
- 6.2 展望51-53
- 參考文獻(xiàn)53-55
- 作者簡介55-56
- 致謝56
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李湘媛;;Web3.0時代互聯(lián)網(wǎng)發(fā)展研究[J];中國傳媒大學(xué)學(xué)報(自然科學(xué)版);2010年04期
2 張耀天;何正友;趙靜;張鵬;李明;桂建廷;;基于粗糙集理論和樸素貝葉斯網(wǎng)絡(luò)的電網(wǎng)故障診斷方法[J];電網(wǎng)技術(shù);2007年01期
3 李靜梅,孫麗華,張巧榮,張春生;一種文本處理中的樸素貝葉斯分類器[J];哈爾濱工程大學(xué)學(xué)報;2003年01期
4 李勇;韓亮;;主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究[J];計算機工程與科學(xué);2008年03期
5 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動分類系統(tǒng)的研究與實現(xiàn)[J];計算機應(yīng)用研究;2001年09期
6 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期
7 汪鵬;;Ontology知識表示的藝術(shù)[J];計算機教育;2004年07期
8 楊建林;;基于本體的文本信息檢索研究[J];情報理論與實踐;2006年05期
9 陳向東;余錦鳳;;一種基于本體的知識組織工具[J];情報理論與實踐;2006年06期
10 李潔;丁穎;;語義網(wǎng)關(guān)鍵技術(shù)概述[J];計算機工程與設(shè)計;2007年08期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 姜亮;基于語義網(wǎng)技術(shù)的機械設(shè)計方法和技術(shù)研究[D];大連理工大學(xué);2009年
本文關(guān)鍵詞:基于web3.0網(wǎng)絡(luò)爬蟲自主學(xué)習(xí)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號:262479
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/262479.html