天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

搜索引擎Google的體系結(jié)構(gòu)及其核心技術(shù)研究

發(fā)布時(shí)間:2016-10-10 20:54

  本文關(guān)鍵詞:搜索引擎Google的體系結(jié)構(gòu)及其核心技術(shù)研究,由筆耕文化傳播整理發(fā)布。


介紹Google的體系結(jié)構(gòu)、核心技術(shù)

第22卷第1期

2006年2月

哈爾濱商業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版)

JournalofHarbinUniversityofCommerce(NaturalSciencesEdition)

Vol.22No.1Feb.2006

搜索引擎Google的體系結(jié)構(gòu)及其核心技術(shù)研究

王德峰,李 東

1,2

1

(1.哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江哈爾濱150001;2.哈爾濱商業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院,黑龍江哈爾濱150028)

摘 要:Google采用了并行,索引桶,數(shù)據(jù)壓縮,PageRank算法等的技術(shù),建立了復(fù)雜的體系結(jié)構(gòu),包括網(wǎng)絡(luò)爬行機(jī)器人crawler、知識(shí)庫(kù)Repository、索引系統(tǒng)(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五個(gè)部分.Google的rank系統(tǒng)綜合了詞頻,類型,相鄰度,網(wǎng)頁(yè)重要性等因素.其中最值得一提的是計(jì)算網(wǎng)頁(yè)重要性的PageRank算法,它把文獻(xiàn)檢索的引用理論應(yīng)用到Web中,即一個(gè)網(wǎng)頁(yè)有很多網(wǎng)頁(yè)指向它,或者一些重要的網(wǎng)頁(yè)指向它,則這個(gè)網(wǎng)頁(yè)很重要.PageRank算法大大提高了檢索效率.

關(guān)鍵詞:搜索引擎;PageRank;Google;網(wǎng)絡(luò)爬行機(jī)器人;排序中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1672-0946(2006)01-0084-04

StudyonarchitectureandcoretechnologyofsearchengineGoogle

WANGDe feng,LIDong

1,2

1

(1.SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China;2.SchoolofComputerandInformationEngineering,HarbinUniversityofCommerce,Harbin150028,China)

Abstract:ItishardtoretrieveinformationontheInternet,butsearchenginemakeiteasy.ThedataontheInternetissolargethattheretrieveinformationtechnologyonthenormaldatabasecannotmeettherequirement.Toresolvetheproblem,sometechnologies,suchasparallelprocess ing,barrelsorting,compressionandPageRank,areappliedtoGoogle.Soitisacomplicatedsystemwhichhavefiveparts,crawler,Repository,indexsystem(includingindexer,barrels,fileindexandsoon),sorter,searcher.TheranksystemofGoogleconsidersbothcount weight,typeweight,prox weight,andPageRankwhichweighttheimportanceofapage.AppliedAcademiccitationliteraturetotheWeb,apagecanhaveahighPageRankiftherearemanypagesthatpointtoit,oriftherearesomepagesthatpointtoitandhaveahighPageRank.ApplyingthePageR ank,thesearchtechnologyisimprovedeffectively.

Keywords:searchengine;PageRank;Google;crawler;sort

據(jù)統(tǒng)計(jì),Web已經(jīng)擁有100億左右的靜態(tài)網(wǎng)頁(yè)

[1]

和550億左右的動(dòng)態(tài)網(wǎng)頁(yè).在如此浩瀚的信息海洋里尋找信息,如同 大海撈針 .而方便快捷的搜索引擎為我們提供了可能,這也是搜索引擎高據(jù)榜首的原因之一.

收稿日期:2005-09-21.

作者簡(jiǎn)介:王德峰(1974-),女,教師,研究方向:搜索引擎,Web數(shù)據(jù)挖掘;李 東(1967-),博士后,教授.研究方向:網(wǎng)絡(luò)信息安全技術(shù),并行計(jì)算,計(jì)算機(jī)系統(tǒng)結(jié)構(gòu),計(jì)算機(jī)圖形學(xué)等.

根據(jù)!中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告(2005 1) 用戶在互聯(lián)網(wǎng)上獲取信息最常用的方法是通

[2]

過搜索引擎:占70.7%.遠(yuǎn)遠(yuǎn)高于位于第二位的直接訪問已知的網(wǎng)站:占24.6%.搜索引擎的后起之秀Google每天處理的搜索請(qǐng)求已達(dá)2億次.由此可


  本文關(guān)鍵詞:搜索引擎Google的體系結(jié)構(gòu)及其核心技術(shù)研究,由筆耕文化傳播整理發(fā)布。

,

本文編號(hào):136693

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/136693.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5e23c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com