基于ID3分類算法的深度網(wǎng)絡(luò)爬蟲設(shè)計(jì)
[Abstract]:Aiming at the problem of low information coverage in Web information mining, this paper studies the web crawler system, and proposes a Web page collection method based on ID3 classification algorithm for deep network. This paper analyzes, processes and classifies the features of Web pages, extracts the forms with depth pages, and automatically submits these forms to obtain deeper and wider pages. Experiments show that this method can effectively reduce the blind spots of existing search engines. Improve search results.
【作者單位】: 武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 馬瑜;王有剛;;ID3算法應(yīng)用研究[J];信息技術(shù);2006年12期
2 曲開社,成文麗,王俊紅;ID3算法的一種改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2003年25期
3 婁卓男,吳志強(qiáng);近幾年國(guó)外隱蔽網(wǎng)絡(luò)研究概述[J];圖書情報(bào)工作;2004年01期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王永梅;胡學(xué)鋼;;決策樹中ID3算法的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期
2 李用江,回雁雁;基于ADO.NET的海洋經(jīng)濟(jì)生物MIS系統(tǒng)[J];安陽(yáng)師范學(xué)院學(xué)報(bào);2004年05期
3 蔡茂蓉;;基于VRML和Java的遠(yuǎn)程虛擬教學(xué)系統(tǒng)[J];兵工自動(dòng)化;2005年06期
4 張輝;吳輝;劉瑞;周剛;;科技資源信息檢索關(guān)鍵技術(shù)[J];北京航空航天大學(xué)學(xué)報(bào);2006年09期
5 高影繁;馬潤(rùn)波;劉玉樹;;一種快速文本歸類算法的設(shè)計(jì)與實(shí)現(xiàn)[J];北京理工大學(xué)學(xué)報(bào);2006年12期
6 朱學(xué)冬;胡平;;基于最優(yōu)二叉樹的多故障分類器的設(shè)計(jì)[J];北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年02期
7 李耀輝,劉保軍;基于Hash散列分布的數(shù)字信息并行存貯[J];燕山大學(xué)學(xué)報(bào);2004年01期
8 張蕾;李小平;張曉華;;基于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的電力企業(yè)決策支持系統(tǒng)[J];電力科學(xué)與工程;2005年04期
9 王愛蓮;秦月明;;一種全文檢索試驗(yàn)系統(tǒng)的開發(fā)與實(shí)現(xiàn)[J];電腦開發(fā)與應(yīng)用;2008年12期
10 王桂芹;黃道;;決策樹算法研究及應(yīng)用[J];電腦應(yīng)用技術(shù);2008年01期
相關(guān)會(huì)議論文 前6條
1 來(lái)旭;李國(guó)輝;徐蕊;;基于云圖和雨量的關(guān)聯(lián)規(guī)則挖掘[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
2 劉東升;;基于Mobile Agent的分布式ID3挖掘模型[A];2005年全國(guó)開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年
3 郭承霞;王愛繼;陳慶海;;基于領(lǐng)域本體的智能信息檢索模型研究[A];2009國(guó)際信息技術(shù)與應(yīng)用論壇論文集(上)[C];2009年
4 維尼拉·木沙江;吳俊森;吐爾根·依布拉音;;維吾爾文搜索引擎的倒排索引設(shè)計(jì)與實(shí)現(xiàn)[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
5 康海燕;樊孝忠;馬禮;;自然語(yǔ)言理解的檢索技術(shù)在數(shù)字圖書館中的應(yīng)用[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
6 劉廣艷;孫瑩;黃保海;林培光;;基于本體方法的改進(jìn)VSM語(yǔ)義檢索模型[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
相關(guān)博士學(xué)位論文 前10條
1 常春;Ontology在農(nóng)業(yè)信息管理中的構(gòu)建和轉(zhuǎn)化[D];中國(guó)農(nóng)業(yè)科學(xué)院;2004年
2 劉云峰;基于潛在語(yǔ)義分析的中文概念檢索研究[D];華中科技大學(xué);2005年
3 柳偉;易錯(cuò)信道下基于內(nèi)容的差錯(cuò)控制方法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2005年
4 宋峻峰;面向語(yǔ)義Web的領(lǐng)域本體表示、推理、集成及其應(yīng)用研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2006年
5 胡熠;面向信息檢索的文本內(nèi)容分析[D];上海交通大學(xué);2007年
6 郭勇;基于語(yǔ)義的網(wǎng)絡(luò)知識(shí)獲取相關(guān)技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2007年
7 李華;面向知識(shí)服務(wù)的傳統(tǒng)農(nóng)具數(shù)字博物館設(shè)計(jì)與構(gòu)建[D];南京農(nóng)業(yè)大學(xué);2008年
8 付暢儉;基于內(nèi)容的視頻結(jié)構(gòu)挖掘方法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2008年
9 吳瓊;面向真實(shí)性檢測(cè)的數(shù)字圖像盲取證方法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2008年
10 欒悉道;多媒體數(shù)據(jù)語(yǔ)義建模及應(yīng)用研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 郭慧;數(shù)據(jù)挖掘技術(shù)對(duì)放射工作人員知覺壓力因素分析[D];鄭州大學(xué);2010年
2 韓成勇;高校學(xué)評(píng)教決策支持系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];蘇州大學(xué);2010年
3 張睿;ID3決策樹算法分析與改進(jìn)[D];蘭州大學(xué);2010年
4 楊洋;企業(yè)內(nèi)容管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2010年
5 牛建平;基于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)的油田生產(chǎn)決策分析研究[D];電子科技大學(xué);2010年
6 王曉慶;基于RBF網(wǎng)絡(luò)的文本自動(dòng)分類的研究[D];江西師范大學(xué);2003年
7 周祥東;視頻特征提取和視頻鏡頭分析[D];中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué);2002年
8 湯義;基于MPEG-7標(biāo)準(zhǔn)的視頻描述與檢索[D];中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué);2002年
9 周夢(mèng)麟;基于電信數(shù)據(jù)挖掘的研究與應(yīng)用[D];浙江工業(yè)大學(xué);2004年
10 董志勇;Web信息檢索中基于超鏈接的網(wǎng)頁(yè)評(píng)估算法的研究[D];河海大學(xué);2004年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前6條
1 曲開社,成文麗,王俊紅;ID3算法的一種改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2003年25期
2 郭景峰,米浦波,劉國(guó)華;決策樹算法的并行性研究[J];計(jì)算機(jī)工程;2002年08期
3 婁臻亮,張永清;基于ID3算法的實(shí)例學(xué)習(xí)及其在注塑模澆口選型中的應(yīng)用[J];模具技術(shù);1997年06期
4 滕皓,趙國(guó)毅,韓保勝;改進(jìn)決策樹的研究[J];濟(jì)南大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年03期
5 楊明,張載鴻;決策樹學(xué)習(xí)算法ID3的研究[J];微機(jī)發(fā)展;2002年05期
6 李國(guó)偉,周顏,李鉅;ID3算法在碩士研究生報(bào)名中的應(yīng)用[J];中原工學(xué)院學(xué)報(bào);2005年03期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 徐遠(yuǎn)純,盛昭瀚,柳炳祥;一種基于決策樹的客戶流失危機(jī)分析方法[J];計(jì)算機(jī)與現(xiàn)代化;2004年08期
2 李藝明 ,張應(yīng)利;數(shù)據(jù)挖掘在移動(dòng)通信業(yè)客戶流失管理中的應(yīng)用[J];廣東通信技術(shù);2005年03期
3 夏偉;;決策樹分類算法-ID3的改進(jìn)[J];黑龍江科技信息;2009年07期
4 李世娟;馬驥;白鷺;;基于改進(jìn)ID3算法的決策樹構(gòu)建[J];沈陽(yáng)大學(xué)學(xué)報(bào);2009年06期
5 陳偉;;改進(jìn)的ID3算法構(gòu)造決策樹[J];淮南師范學(xué)院學(xué)報(bào);2010年03期
6 鄭力明;易平;;基于HTMLParser信息提取的網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J];微計(jì)算機(jī)信息;2009年15期
7 陳麗君;;深層網(wǎng)網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J];計(jì)算機(jī)與信息技術(shù);2009年Z2期
8 陳哲;;垂直搜索中網(wǎng)頁(yè)抓取技術(shù)的研究[J];科技信息;2009年22期
9 賀財(cái)平;覃事剛;劉建勛;;Web服務(wù)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2011年01期
10 段玉春;朱曉艷;孫玉強(qiáng);;一種改進(jìn)的ID3算法[J];南陽(yáng)師范學(xué)院學(xué)報(bào);2006年09期
相關(guān)會(huì)議論文 前10條
1 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年
2 高暉;陳國(guó)勛;;IDF算法——ID3算法的模糊化改進(jìn)[A];模糊集理論與應(yīng)用——98年中國(guó)模糊數(shù)學(xué)與模糊系統(tǒng)委員會(huì)第九屆年會(huì)論文選集[C];1998年
3 彭亮;卓新建;黃瑋;范文慶;;基于網(wǎng)絡(luò)爬蟲的XSS漏洞掃描系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第十三屆中國(guó)科協(xié)年會(huì)第11分會(huì)場(chǎng)-中國(guó)智慧城市論壇論文集[C];2011年
4 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國(guó)第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國(guó)第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
5 卜亞杰;胡朝舉;;一種改進(jìn)的ID3算法[A];第一屆中國(guó)高校通信類院系學(xué)術(shù)研討會(huì)論文集[C];2007年
6 鄒永斌;陳興蜀;王文賢;;一個(gè)高性能Web資源收集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
7 王楠;慕曉冬;王寧燕;宋洪軍;李佳晨;張陽(yáng)子;;針對(duì)多線程架構(gòu)的決策樹查詢算法優(yōu)化及應(yīng)用[A];中國(guó)電子學(xué)會(huì)第十六屆信息論學(xué)術(shù)年會(huì)論文集[C];2009年
8 侯丹青;李舟軍;鄒蘊(yùn)珂;;一種跨站腳本漏洞檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十四卷)[C];2009年
9 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實(shí)現(xiàn)[A];2010年全國(guó)開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集[C];2010年
10 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評(píng)論信息的挖掘[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
相關(guān)重要報(bào)紙文章 前9條
1 王猛祥 徐明華;六度分隔:下一代網(wǎng)絡(luò)交際[N];中國(guó)計(jì)算機(jī)報(bào);2004年
2 Victor;電子郵件跟蹤服務(wù)面世[N];人民郵電;2004年
3 伍裕標(biāo);網(wǎng)絡(luò)監(jiān)控STOP![N];中國(guó)電腦教育報(bào);2003年
4 商建剛;當(dāng)你電子郵件地址被拍賣(上)[N];中國(guó)計(jì)算機(jī)報(bào);2001年
5 記者 郭麗君;封堵涉黃網(wǎng)站3500個(gè)[N];光明日?qǐng)?bào);2010年
6 記者 邵素宏;中移動(dòng)新型撥測(cè)系統(tǒng)“掃黃”顯威力[N];人民郵電;2010年
7 馬季;網(wǎng)絡(luò)文學(xué)遭遇“版權(quán)困境”[N];人民日?qǐng)?bào)海外版;2010年
8 記者 曹莉;泛華北(環(huán)渤海)工程信息共享平臺(tái)功能升級(jí)[N];中國(guó)建設(shè)報(bào);2011年
9 上海 陳曦;谷歌之后,誰(shuí)來(lái)制衡百度?[N];電腦報(bào);2010年
相關(guān)博士學(xué)位論文 前4條
1 牛曉太;多模式智能談判支持系統(tǒng)的理論與方法研究[D];武漢大學(xué);2004年
2 陳苗;海量地學(xué)數(shù)據(jù)查詢優(yōu)化關(guān)鍵技術(shù)的研究[D];吉林大學(xué);2008年
3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
4 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];華東師范大學(xué);2010年
2 黃曉鵬;基于網(wǎng)絡(luò)爬蟲技術(shù)的內(nèi)容探測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2010年
3 么士宇;基于分布式計(jì)算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D];大連海事大學(xué);2011年
4 趙艷;基于網(wǎng)絡(luò)爬蟲的跨站腳本漏洞動(dòng)態(tài)檢測(cè)技術(shù)研究[D];西南交通大學(xué);2011年
5 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)研究[D];西安電子科技大學(xué);2009年
6 張媚;Ajax友好的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];暨南大學(xué);2011年
7 龔勇;搜索引擎中網(wǎng)絡(luò)爬蟲的研究[D];武漢理工大學(xué);2010年
8 王佳;支持Ajax技術(shù)的主題網(wǎng)絡(luò)爬蟲系統(tǒng)研究與實(shí)現(xiàn)[D];北京交通大學(xué);2011年
9 宋婷;基于SVM的網(wǎng)絡(luò)爬蟲檢測(cè)研究與實(shí)現(xiàn)[D];天津大學(xué);2010年
10 成文麗;基于決策樹的數(shù)據(jù)挖掘算法的技術(shù)研究[D];太原理工大學(xué);2003年
,本文編號(hào):2333410
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2333410.html