基于分解轉(zhuǎn)移矩陣的PageRank迭代計(jì)算方法
本文選題:計(jì)算機(jī)應(yīng)用 切入點(diǎn):中文信息處理 出處:《中文信息學(xué)報(bào)》2007年05期 論文類型:期刊論文
【摘要】:本文提出了一種基于分解轉(zhuǎn)移矩陣的PageRank的迭代計(jì)算方法。該方法對(duì)PageRank理論模型進(jìn)一步推導(dǎo),把其Markov狀態(tài)轉(zhuǎn)移矩陣進(jìn)行了分解,從而降低存儲(chǔ)開(kāi)銷和計(jì)算復(fù)雜度,減少I/O需求,使得PageRank計(jì)算的工程化實(shí)現(xiàn)更為簡(jiǎn)單。實(shí)驗(yàn)表明1 700多萬(wàn)的網(wǎng)頁(yè)2.8億條鏈接,可以在30秒內(nèi)完成一次迭代,內(nèi)存需求峰值585MB,可以滿足工程化應(yīng)用的需求。
[Abstract]:In this paper, an iterative computing method for PageRank based on factorization transfer matrix is proposed, which further deduces the theoretical model of PageRank and decomposes its Markov state transition matrix, thus reducing the storage overhead and computational complexity, and reducing the requirements of I / O. The experiment shows that more than 17 million web pages with 280 million links can complete an iteration within 30 seconds, and the peak memory requirement is 585MB, which can meet the needs of engineering applications.
【作者單位】: 北京信息科技大學(xué)中文信息處理研究中心 北京信息科技大學(xué)中文信息處理研究中心 北京信息科技大學(xué)中文信息處理研究中心
【基金】:863計(jì)劃重點(diǎn)項(xiàng)目資助(2006AA010105) 北京市教委科技發(fā)展計(jì)劃項(xiàng)目資助(KM200710772010) 北京市屬市管高校人才強(qiáng)教計(jì)劃項(xiàng)目資助(PXM2007_014224_044677,PXM2007_014224_044676)
【分類號(hào)】:TP301.6
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 木合亞提·尼亞孜別克;古力沙吾利;;哈薩克文信息處理的現(xiàn)狀和發(fā)展方向[J];中文信息學(xué)報(bào);2010年04期
2 周程遠(yuǎn);朱敏;楊云;;基于詞典的中文分詞算法研究[J];計(jì)算機(jī)與數(shù)字工程;2009年03期
3 羅杰;陳力;夏德麟;王凱;;基于新的關(guān)鍵詞提取方法的快速文本分類系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;2006年04期
4 朱曉旭;李培峰;朱巧明;刁紅軍;;一個(gè)適用于手持設(shè)備的多層漢字輸入法模型[J];中文信息學(xué)報(bào);2006年06期
5 扎西加;珠杰;;面向信息處理的藏文分詞規(guī)范研究[J];中文信息學(xué)報(bào);2009年04期
6 干俊偉,黃德根;漢語(yǔ)介詞短語(yǔ)的自動(dòng)識(shí)別[J];中文信息學(xué)報(bào);2005年04期
7 劉云峰,齊歡,Xiang’en Hu,Zhiqiang Cai;潛在語(yǔ)義分析權(quán)重計(jì)算的改進(jìn)[J];中文信息學(xué)報(bào);2005年06期
8 趙海;揭春雨;;基于有效子串標(biāo)注的中文分詞[J];中文信息學(xué)報(bào);2007年05期
9 賈寧;張全;;基于句間關(guān)系的漢語(yǔ)語(yǔ)義塊省略恢復(fù)[J];中文信息學(xué)報(bào);2008年06期
10 黃嫻;張克亮;;漢語(yǔ)零形回指研究綜述[J];中文信息學(xué)報(bào);2009年04期
相關(guān)會(huì)議論文 前10條
1 宋蘭;孫茂松;;中文文本全文查重的實(shí)驗(yàn)研究[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
2 劉匯丹;芮建武;吳健;;藏文網(wǎng)頁(yè)的編碼識(shí)別與轉(zhuǎn)換[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
3 徐印才;任立群;段元慧;任俊泉;;輸血科智能管理系統(tǒng)的開(kāi)發(fā)與應(yīng)用[A];第四屆全國(guó)臨床檢驗(yàn)學(xué)術(shù)會(huì)議論文匯編[C];2006年
4 陳皓;鄭利平;劉曉平;;模板在虛擬現(xiàn)實(shí)平臺(tái)中的應(yīng)用[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國(guó)第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年
5 唐西隆;;用ToolBook制作多媒體課件的技巧[A];第十五屆全國(guó)圖學(xué)教育研討會(huì)暨第七屆工程制圖CAI課件演示交流會(huì)論文集[C];2006年
6 滿正行;李應(yīng)興;單廣榮;于洪志;;網(wǎng)絡(luò)應(yīng)用中實(shí)現(xiàn)藏文支持的一種方案[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
7 趙曉波;;基于即時(shí)通信的客戶服務(wù)系統(tǒng)[A];2007年中國(guó)通信學(xué)會(huì)“移動(dòng)增值業(yè)務(wù)與應(yīng)用”學(xué)術(shù)年會(huì)論文集[C];2007年
8 唐永明;王小捷;文娟;;基于關(guān)聯(lián)詞的復(fù)句語(yǔ)言模型[A];第三屆中國(guó)智能計(jì)算大會(huì)論文集[C];2009年
9 朱新河;嚴(yán)新平;蕭漢梁;;計(jì)算機(jī)輔助油液監(jiān)測(cè)數(shù)據(jù)處理系統(tǒng)[A];第二屆全國(guó)青年摩擦學(xué)學(xué)術(shù)會(huì)議論文專輯[C];1993年
10 彭朝林;;急診分診處的計(jì)算機(jī)應(yīng)用[A];全國(guó)護(hù)理臨床研究學(xué)術(shù)交流暨專題講座會(huì)議論文會(huì)編[C];2001年
相關(guān)重要報(bào)紙文章 前10條
1 記者 梁捷;我國(guó)中文信息處理技術(shù)從實(shí)驗(yàn)室走向全面應(yīng)用[N];光明日?qǐng)?bào);2009年
2 姚雙云 華中師范大學(xué)語(yǔ)言與語(yǔ)言教育研究中心;虛詞知識(shí)庫(kù):中文信息處理的基石[N];中國(guó)社會(huì)科學(xué)報(bào);2011年
3 張波 龍雨;中文信息處理國(guó)際學(xué)術(shù)會(huì)議在武漢大學(xué)召開(kāi)[N];中國(guó)社會(huì)科學(xué)院院報(bào);2007年
4 記者 韓曉玲邋通訊員 張波 龍雨;海內(nèi)外專家聚焦中文信息處理[N];湖北日?qǐng)?bào);2007年
5 胡唯元;文字編碼新標(biāo)準(zhǔn):不再為“名”所累[N];科技日?qǐng)?bào);2006年
6 撰文 西南證券;計(jì)算機(jī)應(yīng)用服務(wù)業(yè),隨大勢(shì)而動(dòng)[N];上海金融報(bào);2008年
7 許偉;金友兵 破局國(guó)外辦公套件壟斷[N];中國(guó)企業(yè)報(bào);2008年
8 ;浙江天宇信息技術(shù)有限公司[N];中國(guó)計(jì)算機(jī)報(bào);2009年
9 蘭文科;淺析計(jì)算機(jī)應(yīng)用系統(tǒng)平臺(tái)建設(shè)[N];中國(guó)國(guó)門時(shí)報(bào);2007年
10 王偉 潘麗;構(gòu)建數(shù)字海事[N];計(jì)算機(jī)世界;2006年
相關(guān)博士學(xué)位論文 前9條
1 李蘇紅;基于實(shí)體模型的工程圖樣數(shù)字化設(shè)計(jì)的研究[D];吉林大學(xué);2007年
2 劉杰;泄漏發(fā)射的信息重建與防御對(duì)策[D];浙江大學(xué);2004年
3 Memon Abdul Ghafoor;[D];浙江大學(xué);2006年
4 劉磊;概念內(nèi)涵屬性計(jì)算研究[D];上海交通大學(xué);2011年
5 王建會(huì);中文信息處理中若干關(guān)鍵技術(shù)的研究[D];復(fù)旦大學(xué);2004年
6 吳應(yīng)良;網(wǎng)絡(luò)計(jì)算中的智能信息處理方法研究[D];華南理工大學(xué);2000年
7 梁添才;基于認(rèn)知機(jī)理的漢字智能造字研究[D];華南理工大學(xué);2008年
8 盧建平;基于拓?fù)鋵W(xué)和統(tǒng)計(jì)學(xué)的無(wú)字庫(kù)漢字智能造字研究[D];華南理工大學(xué);2010年
9 江會(huì)星;漢語(yǔ)命名實(shí)體識(shí)別研究[D];北京郵電大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 王敏;基于改進(jìn)的隱馬爾科夫模型漢語(yǔ)詞性標(biāo)注[D];山西大學(xué);2007年
2 黨蘭學(xué);漢字語(yǔ)法語(yǔ)義智能輸入法總體設(shè)計(jì)與部分實(shí)現(xiàn)[D];河南大學(xué);2006年
3 白曉梅;校園網(wǎng)中文搜索引掣系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2006年
4 曹林峰;中文文字差錯(cuò)率統(tǒng)計(jì)軟件的實(shí)現(xiàn)[D];西安電子科技大學(xué);2007年
5 張玉華;基于碼本的輸入法評(píng)測(cè)系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D];蘇州大學(xué);2005年
6 杜瑩;漢字語(yǔ)法語(yǔ)義智能輸入法核心算法及實(shí)現(xiàn)技術(shù)[D];河南大學(xué);2006年
7 徐瑞;一個(gè)中文語(yǔ)義語(yǔ)料庫(kù)的研究與建設(shè)[D];蘇州大學(xué);2006年
8 沈威;基于渡越矩陣與語(yǔ)境計(jì)算模型的復(fù)句關(guān)系詞的自動(dòng)標(biāo)注[D];華中師范大學(xué);2007年
9 羅麗俊;中文信息處理中若干技術(shù)的研究與實(shí)現(xiàn)[D];遼寧科技大學(xué);2008年
10 毋琳;特定領(lǐng)域問(wèn)答系統(tǒng)中通用語(yǔ)義理解框架的設(shè)計(jì)與實(shí)現(xiàn)[D];河南大學(xué);2007年
,本文編號(hào):1571439
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1571439.html