天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

《華中科技大學(xué)》2004年碩士論文

發(fā)布時(shí)間:2016-07-15 00:05

  本文關(guān)鍵詞:中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。


《華中科技大學(xué)》 2004年

中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

王軍  

【摘要】:搜索引擎是Web信息檢索的主要工具,Crawler是搜索引擎的核心組件,用于搜集Web頁(yè)面。實(shí)現(xiàn)一個(gè)可擴(kuò)展、高性能、大規(guī)模的中文搜索引擎,核心是設(shè)計(jì)一個(gè)可擴(kuò)展、高性能、大規(guī)模的Crawler。 考慮到Web的容量以及增長(zhǎng)速度,設(shè)計(jì)了并行Crawler系統(tǒng),該系統(tǒng)由多個(gè)Crawler進(jìn)程組成,每個(gè)Crawler進(jìn)程運(yùn)行在一臺(tái)機(jī)器上,一臺(tái)機(jī)器只運(yùn)行一個(gè)Crawler進(jìn)程。Crawler進(jìn)程有自己的本地頁(yè)面庫(kù)和本地索引庫(kù),它下載的頁(yè)面以及對(duì)頁(yè)面建立的索引分別保存在本地頁(yè)面庫(kù)和本地索引庫(kù)中。 為了在各個(gè)Crawler進(jìn)程之間進(jìn)行協(xié)調(diào),避免并行Crawler系統(tǒng)下載頁(yè)面重疊,設(shè)計(jì)了URL服務(wù)器。它運(yùn)行在單一機(jī)器上,用于在各個(gè)Crawler進(jìn)程之間分配URL,以及存放Crawler進(jìn)程新發(fā)現(xiàn)的URL?紤]到數(shù)據(jù)庫(kù)的負(fù)載,實(shí)現(xiàn)了多數(shù)據(jù)庫(kù)并行存取技術(shù)。 每個(gè)Crawler進(jìn)程就是一個(gè)小型搜索引擎,這些搜索引擎一起組成了一個(gè)大規(guī)模搜索引擎,為了在多個(gè)Crawler上進(jìn)行檢索,設(shè)計(jì)了檢索服務(wù)器,它將用戶的檢索請(qǐng)求提交給各個(gè)Crawler,由Crawler查詢自己的索引庫(kù),并將檢索結(jié)果返回給檢索服務(wù)器,檢索服務(wù)器對(duì)結(jié)果排序輸出。 為了減少頁(yè)面集批量更新的巨大開(kāi)銷,研究了增量式Crawler。它用于對(duì)頁(yè)面集中某些頁(yè)面進(jìn)行更新以便達(dá)到刷新整個(gè)頁(yè)面集的目的。但是增量式Crawler需要知道頁(yè)面集中哪些頁(yè)面發(fā)生了變化,為此使用人工神經(jīng)網(wǎng)絡(luò)建立了頁(yè)面變化模型,該模型可以預(yù)測(cè)頁(yè)面下一次變化的時(shí)間,從而確定對(duì)Web上實(shí)際頁(yè)面進(jìn)行重訪來(lái)完成頁(yè)面集的刷新任務(wù)。

【關(guān)鍵詞】:
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2004
【分類號(hào)】:TP391.3
【目錄】:

  • 摘要4-5
  • Abstract5-6
  • 目錄6-8
  • 1 緒論8-19
  • 1.1 課題背景8-9
  • 1.2 國(guó)內(nèi)外概況9-18
  • 1.3 課題主要研究工作18-19
  • 2 系統(tǒng)設(shè)計(jì)19-31
  • 2.1 系統(tǒng)結(jié)構(gòu)19-23
  • 2.2 并行Crawler系統(tǒng)23-26
  • 2.3 URL服務(wù)器26-28
  • 2.4 檢索服務(wù)器28-29
  • 2.5 小結(jié)29-31
  • 3 關(guān)鍵技術(shù)31-46
  • 3.1 優(yōu)化技術(shù)31-33
  • 3.2 URL通信接口33-38
  • 3.3 檢索接口38-43
  • 3.4 實(shí)驗(yàn)數(shù)據(jù)比較43-45
  • 3.5 小結(jié)45-46
  • 4 Crawler擴(kuò)展46-55
  • 4.1 增量式Crawler46-48
  • 4.2 頁(yè)面變化模型48-53
  • 4.3 模型應(yīng)用53-54
  • 4.3 小結(jié)54-55
  • 5 總結(jié)與展望55-58
  • 5.1 全文總結(jié)55-57
  • 5.2 展望57-58
  • 致謝58-59
  • 參考文獻(xiàn)59-64
  • 附錄 攻讀學(xué)位期間發(fā)表學(xué)術(shù)論文目錄64
  • 下載全文 更多同類文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【引證文獻(xiàn)】

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

    1 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究[D];西安電子科技大學(xué);2009年

    2 岳舜;搜索引擎檢索技術(shù)研究[D];西安電子科技大學(xué);2008年

    【參考文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條

    1 曹元大,賀海軍,涂哲明;中文Web文檔全文檢索系統(tǒng)的設(shè)計(jì)及實(shí)現(xiàn)[J];北京理工大學(xué)學(xué)報(bào);2002年01期

    【共引文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

    1 謝濤,蔣澤中;邊坡系統(tǒng)穩(wěn)定性多模型綜合評(píng)價(jià)[J];四川建筑科學(xué)研究;2004年02期

    2 孫全玲;基于粗集和神經(jīng)網(wǎng)絡(luò)的建模方法研究[J];安徽建筑工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版);2005年02期

    3 孫虹;方敏;;基于Rough集和RBF網(wǎng)絡(luò)的車牌字符識(shí)別方法[J];安徽建筑工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版);2006年04期

    4 孫虹;龔雪;;一種基于Rough集和RBF網(wǎng)絡(luò)的模擬電路故障診斷方法[J];安徽建筑工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版);2012年03期

    5 胡鳳蓮;劉宏;;安康市煙草病害預(yù)測(cè)系統(tǒng)研究[J];安徽農(nóng)學(xué)通報(bào)(上半月刊);2012年03期

    6 方惠敏;張守濤;丁文珂;;基于BP神經(jīng)網(wǎng)絡(luò)的玉米區(qū)試產(chǎn)量預(yù)測(cè)研究[J];安徽農(nóng)業(yè)科學(xué);2007年34期

    7 高艷萍;于紅;尹祥貴;綦孝姬;王春永;趙志強(qiáng);;基于雙數(shù)組Trie樹(shù)的漁業(yè)領(lǐng)域分詞研究[J];安徽農(nóng)業(yè)科學(xué);2008年11期

    8 陳繪畫(huà);朱壽燕;周澤華;;基于遺傳神經(jīng)網(wǎng)絡(luò)混合模型預(yù)測(cè)馬尾松毛蟲(chóng)發(fā)生量的研究[J];安徽農(nóng)業(yè)科學(xué);2009年12期

    9 項(xiàng)云飛;陳繪畫(huà);張建薇;;馬尾松毛蟲(chóng)危害程度分級(jí)預(yù)報(bào)的研究[J];安徽農(nóng)業(yè)科學(xué);2009年17期

    10 汪斌;張?jiān)苽?劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)[J];安徽農(nóng)業(yè)科學(xué);2009年20期

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 王浩鋒;基于BP神經(jīng)網(wǎng)絡(luò)的航段安全評(píng)估研究[D];中國(guó)工程物理研究院;2010年

    2 代宏偉;布里淵散射水下探測(cè)目標(biāo)的自動(dòng)識(shí)別[D];南昌航空大學(xué);2010年

    3 滕景忠;智能瓦斯傳感器的研制[D];山東科技大學(xué);2010年

    4 陳少華;基于Hopfield神經(jīng)網(wǎng)絡(luò)控制系統(tǒng)的研究[D];山東科技大學(xué);2010年

    5 徐小任;基于BP神經(jīng)網(wǎng)絡(luò)的城鎮(zhèn)網(wǎng)絡(luò)地價(jià)評(píng)估模型研究[D];廣西師范學(xué)院;2010年

    6 范不井;某地區(qū)電網(wǎng)短期負(fù)荷預(yù)測(cè)研究[D];鄭州大學(xué);2010年

    7 閻明;蒸汽發(fā)生器故障預(yù)報(bào)方法研究[D];哈爾濱工程大學(xué);2010年

    8 翁巖青;網(wǎng)頁(yè)抓取策略研究[D];哈爾濱工程大學(xué);2010年

    9 劉洋;基于本體的醫(yī)保審計(jì)知識(shí)庫(kù)構(gòu)建研究[D];哈爾濱工程大學(xué);2010年

    10 高利坤;感知器算法和BP算法的性能對(duì)比分析[D];大連理工大學(xué);2010年

    【同被引文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

    1 劉智濃;張永利;;搜索引擎技術(shù)簡(jiǎn)析[J];電腦知識(shí)與技術(shù);2006年02期

    2 劉晨曦;吳揚(yáng)揚(yáng);;一種基于塊分析的網(wǎng)頁(yè)去噪音方法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條

    1 吳東華;Web信息獲取技術(shù)研究[D];南京理工大學(xué);2004年

    2 陳鑫;中文智能搜索引擎[D];四川大學(xué);2004年

    3 吳寶貴;搜索引擎中索引技術(shù)研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2008年

    4 王啟戶;面向遠(yuǎn)程教育的搜索引擎系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2008年

    5 岳舜;搜索引擎檢索技術(shù)研究[D];西安電子科技大學(xué);2008年

    【二級(jí)引證文獻(xiàn)】

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條

    1 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究[D];西安電子科技大學(xué);2009年

    2 徐小樂(lè);搜索引擎?zhèn)性化檢索及用戶推薦功能的設(shè)計(jì)與實(shí)現(xiàn)[D];重慶交通大學(xué);2011年

    3 張哲雨;山東圣翰財(cái)貿(mào)職業(yè)學(xué)院圖書(shū)館WEB系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2011年

    4 張春昭;中國(guó)的“人肉搜索”引擎現(xiàn)狀研究[D];山東大學(xué);2009年

    【相似文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

    1 孫桂榮;從網(wǎng)絡(luò)信息檢索工具的現(xiàn)狀看其發(fā)展特點(diǎn)[J];現(xiàn)代情報(bào);2004年12期

    2 謝紅俠;惠正運(yùn);;一種面向文檔的XML的索引查詢方法[J];微機(jī)發(fā)展;2005年12期

    3 趙紅梅;互聯(lián)網(wǎng)實(shí)時(shí)信息搜索引擎[J];大眾標(biāo)準(zhǔn)化;2004年12期

    4 張磊;;搜索引擎綜述[J];泰州科技;2008年08期

    5 劉正春,蔣福坤;搜索引擎定量評(píng)價(jià)模型研究[J];大學(xué)數(shù)學(xué);2004年04期

    6 劉飛;高紅艷;;基于數(shù)據(jù)挖掘的Web信息檢索的研究[J];江西科學(xué);2008年02期

    7 戴建中;GnetFtp搜索引擎的算法設(shè)計(jì)與實(shí)現(xiàn)[J];汕頭大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年03期

    8 孟曉明;;淺談搜索引擎及其發(fā)展趨勢(shì)[J];福建電腦;2006年03期

    9 張婕;袁力田;;搜索引擎在網(wǎng)絡(luò)信息挖掘中的應(yīng)用[J];電腦與電信;2006年07期

    10 程彩鳳;杜友福;;搜索引擎技術(shù)分析[J];科技信息;2007年01期

    中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

    1 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年

    2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年

    3 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

    4 維尼拉·木沙江;吐?tīng)柡椤の崴韭?;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

    5 張健沛;徐潑;楊靜;;一種輕量級(jí)個(gè)性化搜索引擎系統(tǒng)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

    6 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年

    7 姚樹(shù)宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國(guó)開(kāi)放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年

    8 倪俊峰;;基于黃頁(yè)搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005年

    9 李賀華;付鶴崗;;多Agent Web信息檢索應(yīng)用研究[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年

    10 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2010年

    中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

    1 李一鑫;[N];財(cái)經(jīng)時(shí)報(bào);2007年

    2 周文林;[N];經(jīng)濟(jì)參考報(bào);2007年

    3 惠正一;[N];第一財(cái)經(jīng)日?qǐng)?bào);2005年

    4 賽迪顧問(wèn)股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;[N];中國(guó)計(jì)算機(jī)報(bào);2005年

    5 陳珊;[N];人民郵電;2005年

    6 趙法忠;[N];中國(guó)經(jīng)營(yíng)報(bào);2005年

    7 金朝力;[N];北京商報(bào);2006年

    8 本報(bào)記者  趙曉輝 孟昭麗;[N];中國(guó)證券報(bào);2006年

    9 孫琎;[N];第一財(cái)經(jīng)日?qǐng)?bào);2006年

    10 姜蕊;[N];中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2006年

    中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年

    2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

    3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

    4 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

    5 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年

    6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

    7 王镠璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年

    8 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

    9 白玉琪;空間信息搜索引擎研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

    10 費(fèi)巍;搜索引擎檢索功能的性能評(píng)價(jià)研究[D];武漢大學(xué);2010年

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 王軍;中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2004年

    2 薛云;Internet上元搜索引擎的研究與設(shè)計(jì)[D];太原理工大學(xué);2003年

    3 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年

    4 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實(shí)現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年

    5 董晨;基于模糊聚類的個(gè)性化搜索引擎的研究[D];福州大學(xué);2005年

    6 封俊;基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)[D];太原理工大學(xué);2010年

    7 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實(shí)現(xiàn)[D];華南理工大學(xué);2010年

    8 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年

    9 李建平;智能化WEB信息搜索引擎的研究與實(shí)現(xiàn)[D];大慶石油學(xué)院;2003年

    10 田生偉;基于涉農(nóng)詞典的搜索引擎的研究與實(shí)踐[D];新疆大學(xué);2004年


      本文關(guān)鍵詞:中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。



    本文編號(hào):71205

    資料下載
    論文發(fā)表

    本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/71205.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶19604***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com