天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向主題搜索的網(wǎng)絡爬蟲信息采集策略研究

發(fā)布時間:2017-09-29 07:17

  本文關鍵詞:面向主題搜索的網(wǎng)絡爬蟲信息采集策略研究


  更多相關文章: 搜索引擎 主題爬蟲 信息采集


【摘要】:基于主題搜索的主題網(wǎng)絡爬蟲,只抓取與用戶主題相關的頁面。在深入分析主題頁面分布特征和主題相關性判別算法的基礎上,提出了一個面向主題搜索的網(wǎng)絡爬蟲模型,它很好地克服了通用搜索引擎準確率偏低、信息內容相對陳舊、信息分布范圍不均衡等不足。實驗結果表明,盡管基于主題爬蟲的搜索增加了內存使用率,但也成倍提升了搜索的準確性,提高了抓取效率以及抓取結果的利用率。
【作者單位】: 儀征技師學院電子信息系;
【關鍵詞】搜索引擎 主題爬蟲 信息采集
【分類號】:TP391.3
【正文快照】: 0引言當前,互聯(lián)網(wǎng)迅速發(fā)展,網(wǎng)絡上多元化信息呈指數(shù)級增長,大數(shù)據(jù)時代已經(jīng)到來,網(wǎng)絡逐漸變成涵蓋全球的非結構化數(shù)據(jù)庫。鑒于網(wǎng)絡的分布式特性,網(wǎng)絡上的各種信息多是無規(guī)律的,很難對它進行結構化管理。如何高效提取和利用這些信息成為網(wǎng)絡信息檢索技術研究的重點。傳統(tǒng)通用搜

【參考文獻】

中國碩士學位論文全文數(shù)據(jù)庫 前1條

1 朱良峰;主題網(wǎng)絡爬蟲的研究與設計[D];南京理工大學;2008年

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 王二紅;壽永熙;馬志強;李靜;;多線程搜索器的設計與實現(xiàn)[J];內蒙古農(nóng)業(yè)大學學報(自然科學版);2010年03期

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 王佳;支持Ajax技術的主題網(wǎng)絡爬蟲系統(tǒng)研究與實現(xiàn)[D];北京交通大學;2011年

2 龔真平;基于web文獻的數(shù)據(jù)挖掘研究應用[D];西南交通大學;2011年

3 單大甫;基于網(wǎng)絡評論的文本傾向性分類技術的研究與實現(xiàn)[D];國防科學技術大學;2010年

4 李蓉;面向主題的搜索引擎的設計與實現(xiàn)[D];華東交通大學;2011年

5 邢敏玲;基于網(wǎng)頁分塊的主題爬蟲方法研究[D];重慶大學;2011年

6 盧振;面向教育新聞的主題爬蟲設計與實現(xiàn)[D];華中科技大學;2011年

7 嚴鴻毅;基于聚焦爬蟲的網(wǎng)上藥品信息監(jiān)測系統(tǒng)[D];浙江工業(yè)大學;2011年

8 呂賽輝;主題爬蟲關鍵技術研究及應用[D];浙江工業(yè)大學;2009年

9 劉鵬鵬;面向患者需求的醫(yī)學搜索引擎的研究與實現(xiàn)[D];浙江大學;2010年

10 張紅云;基于頁面分析的主題網(wǎng)絡爬蟲的研究[D];武漢理工大學;2010年

【二級參考文獻】

中國期刊全文數(shù)據(jù)庫 前9條

1 瞿鋒;陳紀元;;漢語自動分詞算法綜述[J];福建電腦;2006年04期

2 張茂元;張金隆;盧正鼎;鄒春燕;;基于特征相關學習的網(wǎng)頁信息提取方法[J];華中科技大學學報(自然科學版);2007年07期

3 李學勇,歐陽柳波,李國徽,鐘敏娟;網(wǎng)絡蜘蛛搜索策略比較研究[J];計算機工程與應用;2004年04期

4 李永平,程莉,葉衛(wèi)國;基于隱含語義的kNN文本分類研究[J];計算機工程與應用;2004年06期

5 歐陽柳波,李學勇,李國徽,王鑫;專業(yè)搜索引擎搜索策略綜述[J];計算機工程;2004年13期

6 劉金紅;陸余良;;主題網(wǎng)絡爬蟲研究綜述[J];計算機應用研究;2007年10期

7 馬亮,陳群秀,王俊,徐國偉;智能Web中文主題信息收集系統(tǒng)IRobot的設計[J];中文信息學報;2002年05期

8 崔維梅;范榮鵬;;搜索引擎技術的現(xiàn)狀和熱點[J];青年記者;2006年16期

9 傅向華,馮博琴,馬兆豐,何明;可在線增量自學習的聚焦爬行方法[J];西安交通大學學報;2004年06期

中國博士學位論文全文數(shù)據(jù)庫 前1條

1 董道國;高維數(shù)據(jù)索引結構研究[D];復旦大學;2005年

中國碩士學位論文全文數(shù)據(jù)庫 前4條

1 陳杰;主題搜索引擎中網(wǎng)絡蜘蛛搜索策略研究[D];浙江大學;2006年

2 王思力;面向大規(guī)模信息檢索的中文分詞技術研究[D];中國科學院研究生院(計算技術研究所);2006年

3 劉瑋瑋;搜索引擎中主題爬蟲的研究與實現(xiàn)[D];南京理工大學;2006年

4 馮月;基于專業(yè)搜索引擎網(wǎng)絡蜘蛛搜索策略研究[D];電子科技大學;2007年

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 彭軻;廖聞劍;;基于瀏覽器服務的網(wǎng)絡爬蟲[J];硅谷;2009年04期

2 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡爬蟲的設計與實現(xiàn)[J];微計算機信息;2010年03期

3 于成龍;于洪波;;網(wǎng)絡爬蟲技術研究[J];東莞理工學院學報;2011年03期

4 焦賽美;;網(wǎng)絡爬蟲技術的研究[J];瓊州學院學報;2011年05期

5 宋海洋;劉曉然;錢海俊;;一種新的主題網(wǎng)絡爬蟲爬行策略[J];計算機應用與軟件;2011年11期

6 劉金紅;陸余良;;主題網(wǎng)絡爬蟲研究綜述[J];計算機應用研究;2007年10期

7 鄒海亮;孫莉;;可定制的聚焦網(wǎng)絡爬蟲[J];電子科技;2009年01期

8 楊松梅;;網(wǎng)絡爬蟲[J];硅谷;2009年15期

9 張紅云;劉煒;熊前興;;一種基于語義本體的網(wǎng)絡爬蟲模型[J];計算機應用與軟件;2009年11期

10 張洪辰;;新浪微博數(shù)據(jù)抓取——高級搜索[J];信息與電腦(理論版);2013年11期

中國重要會議論文全文數(shù)據(jù)庫 前4條

1 夏詔杰;郭力;李曉霞;;化學主題網(wǎng)絡爬蟲的研究[A];第十屆全國計算(機)化學學術會議論文摘要集[C];2009年

2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡爬蟲的設計與實現(xiàn)[A];2010年全國通信安全學術會議論文集[C];2010年

3 張軍;于浩;內野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年

4 徐劍;柯貴明;;網(wǎng)絡爬蟲技術在搜索引擎中的應用[A];全國第21屆計算機技術與應用學術會議(CACIS·2010)暨全國第2屆安全關鍵技術與應用學術會議論文集[C];2010年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 龔秋艷;并行網(wǎng)絡爬蟲設計與實現(xiàn)[D];華東師范大學;2010年

2 么士宇;基于分布式計算的網(wǎng)絡爬蟲技術研究[D];大連海事大學;2011年

3 陳奮;過濾型網(wǎng)絡爬蟲的研究與設計[D];廈門大學;2007年

4 金梅;網(wǎng)絡爬蟲性能提升與功能拓展的研究與實現(xiàn)[D];吉林大學;2012年

5 芮虎;比價購物平臺中網(wǎng)絡爬蟲的設計與實現(xiàn)[D];華東理工大學;2013年

6 趙茉莉;網(wǎng)絡爬蟲系統(tǒng)的研究與實現(xiàn)[D];電子科技大學;2013年

7 譚龍遠;基于領域的網(wǎng)絡爬蟲技術的研究與實現(xiàn)[D];武漢理工大學;2009年

8 張紅云;基于頁面分析的主題網(wǎng)絡爬蟲的研究[D];武漢理工大學;2010年

9 趙鵬程;分布式書籍網(wǎng)絡爬蟲系統(tǒng)的設計與實現(xiàn)[D];西南交通大學;2014年

10 于懷寶;面向建材信息的網(wǎng)絡爬蟲系統(tǒng)的設計與實現(xiàn)[D];北京交通大學;2015年

,

本文編號:940671

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/940671.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶1b330***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com