天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

垂直搜索引擎中主題爬蟲搜索策略研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-03-10 19:16

  本文關(guān)鍵詞:簡析搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略,,由筆耕文化傳播整理發(fā)布。


《沈陽建筑大學(xué)》 2013年

垂直搜索引擎中主題爬蟲搜索策略研究與實(shí)現(xiàn)

徐曉艷  

【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,Web信息資源與日俱增,搜索引擎成為人們獲取網(wǎng)絡(luò)信息資源的重要工具,然而通用搜索引擎在追求檢索信息最大覆蓋率的同時(shí),降低了查找到的信息的準(zhǔn)確度,所以目前存在的各種綜合的搜索引擎越來越不能滿足用戶對信息檢索服務(wù)的“專、精”等方面的需求,面向主題查詢的垂直搜索引擎成為搜索引擎領(lǐng)域的一個(gè)新的發(fā)展方向。主題爬蟲作為垂直搜索引擎的重要的組成部分,它的目標(biāo)是盡可能地抓取與指定主題相關(guān)的網(wǎng)頁,而過濾掉與主題無關(guān)的頁面,其性能的好壞是影響信息檢索的質(zhì)量和效率的重要因素,所以設(shè)計(jì)一個(gè)高性能的主題爬蟲成為垂直搜索引擎研究的重要課題之一。 論文的主要研究對象是作為垂直搜索引擎的重要組成部分的主題爬蟲技術(shù)。首先概述了垂直搜索引擎和主題爬蟲的研究現(xiàn)狀、工作原理,指出主題爬蟲相較于一般的網(wǎng)絡(luò)爬蟲在信息檢索方面的優(yōu)勢,然后分析了主題爬蟲的搜索策略,討論主題爬蟲預(yù)測主題的準(zhǔn)確性和重要性。論文的研究工作圍繞著網(wǎng)頁中存在的文本內(nèi)容和超鏈接信息對主題爬蟲搜索策略的影響進(jìn)行展開。 論文首先詳細(xì)介紹了主題信息的表示、關(guān)鍵詞的提取及其權(quán)重的計(jì)算和主題相關(guān)度算法。分析了關(guān)鍵詞權(quán)重計(jì)算方法TF-IDF算法的不足之處并提出了改進(jìn)方案。對于頁面的主題相關(guān)度的計(jì)算,我們采用空間向量模型進(jìn)行計(jì)算。 針對網(wǎng)頁中的超鏈接優(yōu)先級的判斷問題,我們在傳統(tǒng)的HITS算法的基礎(chǔ)上,加入主題特征的影響因素,提出改進(jìn)的HITS算法。對每個(gè)網(wǎng)頁,我們利用三個(gè)向量(中心向量、權(quán)威向量、文本內(nèi)容向量)來計(jì)算其主題相關(guān)度,盡量避免出現(xiàn)主題漂移現(xiàn)象,并討論了網(wǎng)頁中心值和權(quán)威值的計(jì)算公式。 現(xiàn)有的基于文本內(nèi)容的搜索策略和基于鏈接分析的搜索策略都存在價(jià)值評價(jià)標(biāo)準(zhǔn)單一的缺點(diǎn),本文將這兩種搜索策略結(jié)合,提出了一種綜合考慮的爬行策略,這種策略會在主題網(wǎng)絡(luò)爬蟲的不同的爬行階段選擇適合的最優(yōu)的搜索策略。文章最后實(shí)現(xiàn)了基于綜合爬行策略的主題爬蟲系統(tǒng)。

【關(guān)鍵詞】:
【學(xué)位授予單位】:沈陽建筑大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3
【目錄】:

下載全文 更多同類文獻(xiàn)

CAJ全文下載

(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

CAJViewer閱讀器支持CAJ、PDF文件格式


【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 劉世濤;;簡析搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略[J];阜陽師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2006年03期

2 羅方芳;陳國龍;郭文忠;;基于改進(jìn)的Fish-search算法的信息檢索研究[J];福州大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年02期

3 鄧攀;劉功申;;一種高效的倒排索引存儲結(jié)構(gòu)[J];計(jì)算機(jī)工程與應(yīng)用;2008年31期

4 歐陽柳波,李學(xué)勇,李國徽,王鑫;專業(yè)搜索引擎搜索策略綜述[J];計(jì)算機(jī)工程;2004年13期

5 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期

6 劉秋梅;鄭耿忠;;基于WebSphinx的搜索引擎設(shè)計(jì)及研究[J];江西圖書館學(xué)刊;2006年01期

7 曹軍;Google的PageRank技術(shù)剖析[J];情報(bào)雜志;2002年10期

8 何曉陽,吳強(qiáng),吳治蓉;HITS算法與PageRank算法比較分析[J];情報(bào)雜志;2004年02期

9 劉斌;陳樺;;向量空間模型信息檢索技術(shù)討論[J];情報(bào)雜志;2006年07期

10 杜小勇;李曼;王珊;;本體學(xué)習(xí)研究綜述[J];軟件學(xué)報(bào);2006年09期

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 孫素芬;羅長壽;張峻峰;于峰;張樹亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2007年22期

2 汪斌;張?jiān)苽?劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)[J];安徽農(nóng)業(yè)科學(xué);2009年20期

3 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動摘要算法[J];北京交通大學(xué)學(xué)報(bào);2010年05期

4 黃洪;劉增良;余達(dá)太;周紹華;;一種具有免疫特征的智能數(shù)據(jù)分類分級模型[J];兵工學(xué)報(bào);2010年12期

5 黃洪;劉增良;余達(dá)太;;一種智能化的數(shù)據(jù)分類、分級及保護(hù)模型[J];北京工業(yè)大學(xué)學(xué)報(bào);2011年06期

6 汪濤,樊孝忠,顧益軍,劉林;基于概念分析的主題爬蟲設(shè)計(jì)[J];北京理工大學(xué)學(xué)報(bào);2004年10期

7 陳悅;陳運(yùn);楊義先;胡迪;;基于遺傳算法的聚焦爬蟲搜索策略設(shè)計(jì)與研究[J];成都信息工程學(xué)院學(xué)報(bào);2011年05期

8 謝軼群;舒江波;;基于本體的構(gòu)件庫智能檢索方法研究(英文)[J];湖南文理學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年03期

9 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年02期

10 王鑫;王英;;基于本體增量學(xué)習(xí)的主題爬行[J];長春工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年04期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 徐立恒;劉洋;來斯惟;劉康;田野;王渝麗;趙軍;;基于多特征表示的本體概念掛載[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

2 張曉瑩;張桂平;王裴巖;;領(lǐng)域本體構(gòu)建中關(guān)系輔助判斷技術(shù)研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

3 畢魯雁;焦宗夏;范圣韜;趙四軍;;基于本體的機(jī)載機(jī)電系統(tǒng)故障診斷研究[A];第五屆全國流體傳動與控制學(xué)術(shù)會議暨2008年中國航空學(xué)會液壓與氣動學(xué)術(shù)會議論文集[C];2008年

4 胡金柱;舒江波;陳志偉;杜志強(qiáng);竇桂琴;;基于本體構(gòu)件的工作流檢索研究[A];第四屆中國軟件工程大會論文集[C];2007年

5 徐惠;高志強(qiáng);陸青健;朱萬穎;;ORIGO:一種基于數(shù)字化圖書館資源的本體學(xué)習(xí)方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年

6 王棟;陳勇;徐建良;;基于預(yù)測的BitTorrent種子評估方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年

7 劉兵;胡學(xué)鋼;;基于多鏈接分析的主題爬蟲設(shè)計(jì)實(shí)現(xiàn)[A];全國第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年

8 陸勇;侯漢清;;基于詞典注釋的漢語同義詞自動識別[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

9 戴玉剛;;藏文網(wǎng)頁采集技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年

10 程曉;鄭德權(quán);楊宇航;邵國軍;;面向半結(jié)構(gòu)化文本的領(lǐng)域本體關(guān)系抽取[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 吳羽;面向時(shí)間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

2 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學(xué);2010年

3 陳一稀;基于關(guān)系數(shù)據(jù)庫的遺留系統(tǒng)向語義Web移植的研究[D];浙江大學(xué);2010年

4 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險(xiǎn)信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年

5 王聯(lián)國;人工魚群算法及其應(yīng)用研究[D];蘭州理工大學(xué);2009年

6 唐素勤;面向語義Web的描述邏輯本體構(gòu)建[D];中南大學(xué);2011年

7 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學(xué);2011年

8 田俊華;基于本體知識庫的教學(xué)資源自動采集技術(shù)研究[D];南京師范大學(xué);2011年

9 陳建輝;基于腦信息學(xué)的數(shù)據(jù)腦建模及其應(yīng)用[D];北京工業(yè)大學(xué);2011年

10 張楊;語義Web服務(wù)組合的可信性度量研究[D];重慶大學(xué);2011年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 呂芳芳;基于查詢擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年

2 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學(xué);2010年

3 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年

4 劉洋;基于本體的醫(yī)保審計(jì)知識庫構(gòu)建研究[D];哈爾濱工程大學(xué);2010年

5 汪永偉;搜索引擎中網(wǎng)頁排序算法的研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2010年

6 程波波;基于文本的茶學(xué)本體學(xué)習(xí)方法研究[D];安徽農(nóng)業(yè)大學(xué);2010年

7 徐濟(jì)成;面向農(nóng)業(yè)領(lǐng)域的本體學(xué)習(xí)建模研究[D];安徽農(nóng)業(yè)大學(xué);2010年

8 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[D];中國海洋大學(xué);2010年

9 于飛;基于搜索引擎的個(gè)性化推薦研究[D];哈爾濱理工大學(xué);2010年

10 李永春;主題搜索引擎的研究與實(shí)現(xiàn)[D];哈爾濱理工大學(xué);2010年

【二級參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年05期

2 王仕仲;寧龍兵;;基于Nutch的中文搜索引擎的研究與實(shí)現(xiàn)[J];電腦開發(fā)與應(yīng)用;2009年07期

3 張斌;周爾寧;;基于Nutch的分布式紡織垂直搜索引擎研究[J];電腦知識與技術(shù);2009年21期

4 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報(bào);2002年S1期

5 彭波,李曉明;搜索引擎倒排文件的一種分塊組織技術(shù)[J];電子學(xué)報(bào);2005年02期

6 歐陽為民,蔡慶生;基于版本空間的并行概念學(xué)習(xí)[J];計(jì)算機(jī)研究與發(fā)展;1998年10期

7 賈崇,陸玉昌,魯明羽;一種支持高效檢索的即時(shí)更新倒排索引方法[J];計(jì)算機(jī)工程與應(yīng)用;2003年29期

8 李軍;黃海寬;曹琦;;基于支持向量機(jī)的中藥工藝參數(shù)優(yōu)化研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年36期

9 朱華宇,孫正興,張福炎;一個(gè)基于向量空間模型的中文文本自動分類系統(tǒng)[J];計(jì)算機(jī)工程;2001年02期

10 吳恒山,劉興宇,左瓊;一種基于可擴(kuò)展散列表的倒排索引更新策略[J];計(jì)算機(jī)工程;2004年08期

中國重要會議論文全文數(shù)據(jù)庫 前1條

1 陳文亮;朱靖波;姚天順;張宇新;;基于Bootstrapping的領(lǐng)域詞匯自動獲取[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 徐和祥;Deep Web集成中若干技術(shù)研究[D];復(fù)旦大學(xué);2008年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 壽周翔;專業(yè)搜索引擎的研究與設(shè)計(jì)[D];浙江大學(xué);2005年

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價(jià)值[J];信息技術(shù);2008年04期

2 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期

3 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年11期

4 祝奕;;垂直搜索引擎的構(gòu)建與應(yīng)用[J];信息與電腦(理論版);2010年01期

5 張美芳;張迎春;;淺議垂直搜索引擎服務(wù)市場的商業(yè)模式[J];現(xiàn)代商業(yè);2010年06期

6 焦龍;;垂直搜索引擎在旅游企業(yè)中應(yīng)用的探索[J];商場現(xiàn)代化;2010年08期

7 趙宏中;李亞;;垂直搜索引擎應(yīng)用研究[J];現(xiàn)代商貿(mào)工業(yè);2010年04期

8 陳高維;鄧天權(quán);曾云磊;王維國;張龍;;基于垂直搜索引擎的旅游線路評價(jià)模型的設(shè)計(jì)[J];科技創(chuàng)新導(dǎo)報(bào);2010年18期

9 劉小強(qiáng);;二手轉(zhuǎn)讓及房產(chǎn)租售垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];三門峽職業(yè)技術(shù)學(xué)院學(xué)報(bào);2010年03期

10 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年02期

中國重要會議論文全文數(shù)據(jù)庫 前4條

1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會、河北省計(jì)算機(jī)學(xué)會、河北省自動化學(xué)會、河北省人工智能學(xué)會、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學(xué)術(shù)年會論文集[C];2007年

2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年

4 毛華揚(yáng);劉衛(wèi);;會計(jì)信息搜索方法研究[A];第十屆全國會計(jì)信息化年會論文集[C];2011年

中國重要報(bào)紙全文數(shù)據(jù)庫 前10條

1 北大縱橫管理顧問公司高級顧問戴曉東;[N];中國經(jīng)營報(bào);2006年

2 王艷;[N];中國旅游報(bào);2000年

3 王靖;[N];人民日報(bào)海外版;2000年

4 楊國民;[N];經(jīng)濟(jì)日報(bào);2007年

5 本報(bào)記者 王曉雁;[N];法制日報(bào);2009年

6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;[N];計(jì)算機(jī)世界;2010年

7 中新;[N];經(jīng)理日報(bào);2008年

8 源訊 編譯;[N];計(jì)算機(jī)世界;2006年

9 賽迪網(wǎng) 方剛;[N];中國計(jì)算機(jī)報(bào);2000年

10 ;[N];中國貿(mào)易報(bào);2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條

1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年

2 吳羽;面向時(shí)間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年

4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

5 王桂紅;農(nóng)產(chǎn)品市場價(jià)格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 海濤;垂直搜索引擎數(shù)據(jù)采集技術(shù)的研究與實(shí)現(xiàn)[D];華北電力大學(xué)(北京);2008年

2 崔詩遠(yuǎn);基于垂直搜索引擎的旅行社網(wǎng)絡(luò)營銷[D];青島大學(xué);2009年

3 翟曉玲;面向?qū)W科的基礎(chǔ)教育資源垂直搜索引擎的研究與實(shí)現(xiàn)[D];東北師范大學(xué);2009年

4 王嘉杰;面向博客領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2009年

5 劉明君;垂直搜索引擎?zhèn)鞑W(xué)特征及應(yīng)用研究[D];華中科技大學(xué);2008年

6 黎斌;可擴(kuò)展分布式垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)研究[D];國防科學(xué)技術(shù)大學(xué);2008年

7 李春燕;企業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年

8 石占偉;垃圾頁面檢測及其在垂直搜索引擎中的應(yīng)用[D];燕山大學(xué);2010年

9 張楠;面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn)[D];西南交通大學(xué);2010年

10 陳向東;寵物用品垂直搜索引擎研究與設(shè)計(jì)[D];西北農(nóng)林科技大學(xué);2010年


  本文關(guān)鍵詞:簡析搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略,由筆耕文化傳播整理發(fā)布。



本文編號:250300

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/250300.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c66b7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com