基于遺傳算法的主題爬蟲(chóng)策略
本文選題:主題爬蟲(chóng) 切入點(diǎn):遺傳算法 出處:《計(jì)算機(jī)應(yīng)用》2007年S2期 論文類(lèi)型:期刊論文
【摘要】:針對(duì)目前主題搜索策略的不足,通過(guò)改進(jìn)遺傳算子提出了一種新的主題爬蟲(chóng)策略,即通過(guò)變異操作引入新的URL擴(kuò)大搜索范圍;通過(guò)交叉操作產(chǎn)生大量的URL;通過(guò)選擇操作選出適應(yīng)度高的個(gè)體作為下一代的種子。實(shí)驗(yàn)結(jié)果表明,基于遺傳算法的主體搜索策略GA與BFS和OPS相比,爬蟲(chóng)策略取網(wǎng)頁(yè)中的主體相關(guān)網(wǎng)頁(yè)數(shù)量多,在合理選擇種子集合時(shí),能抓取大量的主體相關(guān)度高的網(wǎng)頁(yè)。
[Abstract]:Aiming at the deficiency of the current topic search strategy, this paper proposes a new topic crawler strategy by improving the genetic operator, that is, introducing a new URL to expand the search range through mutation operation. A large number of URLs are generated by crossover operations, and individuals with high fitness are selected as seeds of the next generation. The experimental results show that GA, the agent search strategy based on genetic algorithm, is compared with BFS and OPS. The crawler strategy has a large number of web pages related to the subject, which can grab a large number of web pages with high correlation when the seed set is selected reasonably.
【作者單位】: 中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院 中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院 北京市農(nóng)林科學(xué)院農(nóng)業(yè)科技信息研究所
【基金】:北京市自然科學(xué)基金(4062013)
【分類(lèi)號(hào)】:TP18
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 曾春,邢春曉,周立柱;基于內(nèi)容過(guò)濾的個(gè)性化搜索算法[J];軟件學(xué)報(bào);2003年05期
2 吳安清;張穎江;涂軍;;主題搜索ROBOT綜合爬行策略的研究[J];武漢理工大學(xué)學(xué)報(bào);2006年02期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 姚克娟,李晉宏;應(yīng)用Agent技術(shù)實(shí)現(xiàn)個(gè)性化信息服務(wù)[J];北方工業(yè)大學(xué)學(xué)報(bào);2004年03期
2 高磊;徐東平;;啟發(fā)式算法在搜索引擎的應(yīng)用[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年02期
3 李彥剛;魏海平;侯興華;;基于HTMLParser的Web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];遼寧石油化工大學(xué)學(xué)報(bào);2006年02期
4 陳基漓;基于數(shù)據(jù)立方體的用戶興趣模型[J];桂林工學(xué)院學(xué)報(bào);2005年01期
5 高鳳榮;邢春曉;杜小勇;王珊;;基于矩陣聚類(lèi)的協(xié)作過(guò)濾算法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
6 宗校軍;沈軼;廖曉昕;;定題Web信息采集中的元數(shù)據(jù)處理[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年10期
7 原福永,楊桂芝,程玉良;基于Agent的個(gè)性化信息服務(wù)系統(tǒng)的開(kāi)發(fā)與設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2004年33期
8 邱科寧,郭清順,張小波;基于Agent的個(gè)性化分類(lèi)郵件系統(tǒng)研究[J];計(jì)算機(jī)工程與應(yīng)用;2005年07期
9 張輝,吳輝;用戶協(xié)作式智能搜索模型的研究[J];計(jì)算機(jī)工程與應(yīng)用;2005年11期
10 唐燦;朱征宇;;基于模糊興趣模型的個(gè)性化推薦算法[J];計(jì)算機(jī)工程與應(yīng)用;2006年09期
相關(guān)會(huì)議論文 前1條
1 周曉濱;;基于WEB的遠(yuǎn)程教育中搜索的研究與實(shí)現(xiàn)[A];全國(guó)第16屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2004年
相關(guān)博士學(xué)位論文 前8條
1 張曉剛;面向軟件過(guò)程改進(jìn)的知識(shí)管理技術(shù)研究[D];中國(guó)科學(xué)院研究生院(軟件研究所);2004年
2 張樹(shù)人;從社會(huì)性軟件、Web2.0到復(fù)雜適應(yīng)信息系統(tǒng)研究[D];中國(guó)人民大學(xué);2006年
3 張丙奇;個(gè)性化需求的描述、獲取與推斷—案例研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
4 趙鵬;復(fù)雜網(wǎng)絡(luò)與互聯(lián)網(wǎng)個(gè)性化信息服務(wù)的研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年
5 周斌;面向公眾服務(wù)的電子政務(wù)研究[D];同濟(jì)大學(xué);2007年
6 張磊;基于本體的主動(dòng)式知識(shí)系統(tǒng)及其若干關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2006年
7 董寶力;Web制造資源的語(yǔ)義發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];浙江大學(xué);2007年
8 臧鋮;個(gè)性化搜索中隱私保護(hù)的關(guān)鍵問(wèn)題研究[D];浙江大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 張砦;現(xiàn)代電子技術(shù)網(wǎng)絡(luò)集成教學(xué)系統(tǒng)研究與實(shí)現(xiàn)[D];南京航空航天大學(xué);2004年
2 郝彥彬;基于agent的信息融合與信息過(guò)濾機(jī)制的研究與實(shí)現(xiàn)[D];西北工業(yè)大學(xué);2003年
3 檀林;模糊知識(shí)處理在中文文本自動(dòng)分類(lèi)中的應(yīng)用研究[D];山西大學(xué);2004年
4 李東艷;互聯(lián)網(wǎng)信息內(nèi)容安全過(guò)濾方法研究[D];山西大學(xué);2004年
5 劉建國(guó);教學(xué)資源個(gè)性化服務(wù)模型及實(shí)現(xiàn)技術(shù)研究[D];西南師范大學(xué);2004年
6 陳晉川;基于CoP建模的信息過(guò)濾技術(shù)研究[D];中國(guó)科學(xué)院研究生院(軟件研究所);2004年
7 許彥彬;基于Java技術(shù)的生物資源專(zhuān)業(yè)搜索引擎的研究與開(kāi)發(fā)[D];昆明理工大學(xué);2004年
8 賴靜;非法互聯(lián)網(wǎng)網(wǎng)站及服務(wù)實(shí)時(shí)監(jiān)管取證系統(tǒng)[D];四川大學(xué);2004年
9 王斐;基于增量反饋和自適應(yīng)機(jī)制的主題爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2005年
10 歐歌;專(zhuān)題式Web信息獲取技術(shù)研究[D];北京化工大學(xué);2005年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 曾春,邢春曉,周立柱;基于內(nèi)容過(guò)濾的個(gè)性化搜索算法[J];軟件學(xué)報(bào);2003年05期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 吳軼華;集成學(xué)習(xí)[J];計(jì)算機(jī)研究與發(fā)展;1991年09期
2 洪家榮;;機(jī)器學(xué)習(xí)——回顧與展望[J];計(jì)算機(jī)科學(xué);1991年02期
3 雷鳴,楊叔子,吳雅;遺傳搜索優(yōu)化算法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);1992年S1期
4 尚奕;唐志敏;;一種用于求解TSP問(wèn)題的遺傳交換操作[J];計(jì)算機(jī)研究與發(fā)展;1992年09期
5 羊國(guó)光;用于衍射光學(xué)元件優(yōu)化設(shè)計(jì)的遺傳算法及其與模擬退火算法的比較[J];光學(xué)學(xué)報(bào);1993年07期
6 方建安,邵世煌;采用遺傳算法學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)控制器[J];控制與決策;1993年03期
7 劉曉;競(jìng)賽算法:隨機(jī)尋優(yōu)的一種新途徑[J];微電子學(xué)與計(jì)算機(jī);1993年12期
8 顏廷虎;鐘秉林;黃仁;;一種基于基因遺傳算法的診斷問(wèn)題求解方法[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);1993年05期
9 劉曉;;遺傳算法[J];航空計(jì)算技術(shù);1993年04期
10 劉曉;;模擬進(jìn)化[J];航空計(jì)算技術(shù);1993年04期
相關(guān)會(huì)議論文 前10條
1 石耀霖;MarceloAssumpcao;;巴西構(gòu)造應(yīng)力場(chǎng)的遺傳算法——有限單元法反演[A];1999年中國(guó)地球物理學(xué)會(huì)年刊——中國(guó)地球物理學(xué)會(huì)第十五屆年會(huì)論文集[C];1999年
2 汪洋;;應(yīng)用小波多尺度分解與遺傳算法聯(lián)合進(jìn)行勢(shì)場(chǎng)反演[A];1999年中國(guó)地球物理學(xué)會(huì)年刊——中國(guó)地球物理學(xué)會(huì)第十五屆年會(huì)論文集[C];1999年
3 葛芳;李志恒;關(guān)偉;;遺傳算法在班車(chē)行程問(wèn)題中的應(yīng)用[A];全國(guó)青年管理科學(xué)與系統(tǒng)科學(xué)論文集第5卷[C];1999年
4 祝明光;李南;;用遺傳算法優(yōu)化雙目標(biāo)Job-shop作業(yè)計(jì)劃問(wèn)題[A];全國(guó)青年管理科學(xué)與系統(tǒng)科學(xué)論文集第5卷[C];1999年
5 朱爍;趙道致;;裝配線平衡設(shè)計(jì)中節(jié)拍優(yōu)化的遺傳算法[A];全國(guó)青年管理科學(xué)與系統(tǒng)科學(xué)論文集第5卷[C];1999年
6 徐博藝;劉剛;李敏強(qiáng);;遺傳算法在非線性優(yōu)化問(wèn)題中的應(yīng)用[A];復(fù)雜巨系統(tǒng)理論·方法·應(yīng)用——中國(guó)系統(tǒng)工程學(xué)會(huì)第八屆學(xué)術(shù)年會(huì)論文集[C];1994年
7 王眾托;孫艷豐;;遺傳算法用于0-1規(guī)劃的新途徑[A];復(fù)雜巨系統(tǒng)理論·方法·應(yīng)用——中國(guó)系統(tǒng)工程學(xué)會(huì)第八屆學(xué)術(shù)年會(huì)論文集[C];1994年
8 劉昶;涂?jī)錾?;用遺傳算法解生產(chǎn)線存儲(chǔ)器配置問(wèn)題[A];復(fù)雜巨系統(tǒng)理論·方法·應(yīng)用——中國(guó)系統(tǒng)工程學(xué)會(huì)第八屆學(xué)術(shù)年會(huì)論文集[C];1994年
9 李大偉;戴建設(shè);李敉安;;遺傳算法及其在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法中的應(yīng)用[A];復(fù)雜巨系統(tǒng)理論·方法·應(yīng)用——中國(guó)系統(tǒng)工程學(xué)會(huì)第八屆學(xué)術(shù)年會(huì)論文集[C];1994年
10 王彤;劉相華;王國(guó)棟;鄒天來(lái);李洪斌;;改進(jìn)的快速付立葉變換及其應(yīng)用[A];1999中國(guó)鋼鐵年會(huì)論文集(下)[C];1999年
相關(guān)重要報(bào)紙文章 前10條
1 高瀾慶;礦山企盼智能化[N];中國(guó)礦業(yè)報(bào);2000年
2 記者 彭德建 通訊員 趙如江;全球智能控制與自動(dòng)化大會(huì)召開(kāi)[N];科學(xué)時(shí)報(bào);2000年
3 郭明波;來(lái)自蝙蝠的啟發(fā)[N];北京科技報(bào);2001年
4 特約記者 包國(guó)俊;我軍“神鷹一號(hào)”空戰(zhàn)智能仿真系統(tǒng)通過(guò)技術(shù)鑒定[N];光明日?qǐng)?bào);2001年
5 易必特;數(shù)據(jù)倉(cāng)庫(kù)與電信行業(yè)決策支持(上)[N];人民郵電;2001年
6 程愛(ài)娟;旅行推銷(xiāo)員問(wèn)題(TSP)的人工智能解法及其應(yīng)用[N];新疆科技報(bào)(漢);2001年
7 林京;《神經(jīng)網(wǎng)絡(luò)和遺傳算法在水科學(xué)領(lǐng)域的應(yīng)用》將面市[N];中國(guó)水利報(bào);2002年
8 本報(bào)記者 溫新紅;霍蘭:尋找隱在秩序[N];科學(xué)時(shí)報(bào);2002年
9 秋云;科學(xué)社進(jìn)入財(cái)經(jīng)出版領(lǐng)域[N];中國(guó)圖書(shū)商報(bào);2002年
10 包家慶;IDS五大發(fā)展趨勢(shì)[N];網(wǎng)絡(luò)世界;2002年
相關(guān)博士學(xué)位論文 前10條
1 侯格賢;遺傳算法及其在跟蹤系統(tǒng)中的應(yīng)用研究[D];西安電子科技大學(xué);1998年
2 馬國(guó)田;遺傳算法及其在電磁工程中的應(yīng)用[D];西安電子科技大學(xué);1998年
3 李海民;遺傳算法性能及其在聚類(lèi)分析中應(yīng)用的研究[D];西安電子科技大學(xué);1999年
4 趙天緒;集成電路缺陷分布模型和容錯(cuò)技術(shù)研究[D];西安電子科技大學(xué);1999年
5 李紅艷;圖像低信噪比小目標(biāo)檢測(cè)與跟蹤算法研究[D];西安電子科技大學(xué);2000年
6 姚紀(jì)歡;粗糙海面的電磁散射研究[D];西安電子科技大學(xué);2000年
7 劉瑩;計(jì)算機(jī)網(wǎng)絡(luò)中的多播路由算法[D];西安電子科技大學(xué);2000年
8 黃輝先;城市交通信號(hào)優(yōu)化控制方法的研究[D];西北工業(yè)大學(xué);2000年
9 曲建嶺;人工嗅覺(jué)系統(tǒng)中的信息處理技術(shù)[D];西北工業(yè)大學(xué);2000年
10 施群;分布化與智能技術(shù)在制造系統(tǒng)中的應(yīng)用研究[D];西北工業(yè)大學(xué);2000年
相關(guān)碩士學(xué)位論文 前10條
1 曾珞亞;模糊神經(jīng)網(wǎng)絡(luò)的應(yīng)用與研究[D];廣西師范大學(xué);2000年
2 高紅梅;一類(lèi)復(fù)雜圖象目標(biāo)識(shí)別研究及智能化方法的應(yīng)用[D];西安理工大學(xué);2000年
3 徐前鋒;多模型優(yōu)化模糊控制算法的應(yīng)用研究[D];西安理工大學(xué);2000年
4 潘偉;計(jì)算機(jī)視覺(jué)在農(nóng)產(chǎn)品自動(dòng)檢測(cè)與分級(jí)中的研究——番茄的自動(dòng)檢測(cè)與分級(jí)[D];東北農(nóng)業(yè)大學(xué);2000年
5 陳浩;小衛(wèi)星軟件測(cè)試的系統(tǒng)設(shè)計(jì)[D];中國(guó)科學(xué)院上海冶金研究所;2000年
6 韓乾國(guó);模糊控制技術(shù)在綠色食品保鮮方面的應(yīng)用研究[D];電子科技大學(xué);2000年
7 高建英;基于遺傳算法設(shè)計(jì)模糊RBF神經(jīng)網(wǎng)絡(luò)控制器[D];大連理工大學(xué);2000年
8 孫宏濤;智能控制及其工程應(yīng)用[D];北京工業(yè)大學(xué);2000年
9 徐璐;改進(jìn)遺傳算法(IGA)及其在圖像處理中的應(yīng)用[D];北京工業(yè)大學(xué);2000年
10 周凱汀;基于遺傳算法的最優(yōu)化控制研究[D];華僑大學(xué);2000年
,本文編號(hào):1638631
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1638631.html