天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于64位體系結(jié)構(gòu)的倒排索引壓縮算法

發(fā)布時(shí)間:2017-08-18 04:18

  本文關(guān)鍵詞:基于64位體系結(jié)構(gòu)的倒排索引壓縮算法


  更多相關(guān)文章: 倒排索引 索引壓縮 位體系結(jié)構(gòu) 搜索引擎 信息檢索


【摘要】:在64位體系結(jié)構(gòu)的CPU中,字長(zhǎng)從32位擴(kuò)展到64位,處理器每次可以處理的數(shù)據(jù)也增加到64位。這對(duì)搜索引擎使用的核心數(shù)據(jù)結(jié)構(gòu)——倒排索引的壓縮與解壓縮帶來(lái)一定的影響。針對(duì)當(dāng)前32位整數(shù)字對(duì)齊壓縮算法Simple不適用于64位系統(tǒng)的問(wèn)題,對(duì)其進(jìn)行改進(jìn),并提出3種基于64位的字對(duì)齊壓縮算法,即SimpleX64-16、SimpleX64-32和SimpleX64-64。3種算法都采用多種壓縮模式,并對(duì)每個(gè)模式進(jìn)行壓縮空間的優(yōu)化。在64位機(jī)器上GOV2和ClueWeb09B數(shù)據(jù)集的倒排索引實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的基于32位字對(duì)齊的壓縮算法相比,3種基于64位字對(duì)齊的算法在解壓速度方面最多提高14.5%,在壓縮率方面最多提高2.5%。
【作者單位】: 北京大學(xué)網(wǎng)絡(luò)與信息系統(tǒng)研究所;哈爾濱醫(yī)科大學(xué)附屬第一醫(yī)院信息中心;
【關(guān)鍵詞】倒排索引 索引壓縮 位體系結(jié)構(gòu) 搜索引擎 信息檢索
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61272340,61073082) 人人游戲基金資助項(xiàng)目(QXWJ-YX-201206017)
【分類號(hào)】:TP391.3
【正文快照】: 1概述搜索引擎作為網(wǎng)絡(luò)時(shí)代的信息檢索工具,目前已成為用戶獲取網(wǎng)絡(luò)信息的主要途徑之一,其核心數(shù)據(jù)結(jié)構(gòu)是倒排索引。搜索引擎通常利用倒排索引壓縮技術(shù)來(lái)提升查詢處理速度。該技術(shù)除了能夠減少倒排索引占用的磁盤空間外,還能減少內(nèi)存占用,提高CPU緩存的命中率[1]。為了不斷提

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條

1 朱虹,吳林;倒排索引壓縮及在RDBMS全文檢索中的實(shí)現(xiàn)[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年04期

2 王虎;王潛平;;對(duì)幾種倒排文件壓縮技術(shù)的研究與分析[J];計(jì)算機(jī)工程與應(yīng)用;2006年07期

3 紀(jì)蕾,陳英;基于文檔重排的索引壓縮技術(shù)[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條

1 丁維;周長(zhǎng)勝;崔凌云;馬志強(qiáng);楊娜;;基于多級(jí)指引索引的高效技術(shù)[J];計(jì)算機(jī)與信息技術(shù);2006年06期

2 劉小珠;彭智勇;陳旭;;高效的隨機(jī)訪問(wèn)分塊倒排文件自索引技術(shù)[J];計(jì)算機(jī)學(xué)報(bào);2010年06期

3 方雪華;劉祖潤(rùn);;中小型中文報(bào)刊全文數(shù)據(jù)庫(kù)的建立及其應(yīng)用[J];邵陽(yáng)學(xué)院學(xué)報(bào)(自然科學(xué)版);2006年01期

4 霍林;黃俊文;盧正鼎;黃保華;潘英花;王力;;二元互關(guān)聯(lián)后繼樹(shù)精簡(jiǎn)索引模型研究[J];小型微型計(jì)算機(jī)系統(tǒng);2011年02期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條

1 ;Improved Self-Indexing Inverted Files for Full-Text Retrieval[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(下)[C];2008年

2 朱虹;黃歡;;DM4全文檢索機(jī)制的改進(jìn)[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年

3 劉小珠;孫莎;曾承;彭智勇;;基于緩存的倒排索引機(jī)制研究[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條

1 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

2 劉健;面向信息檢索的文本信息組織關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2009年

3 朱明杰;互聯(lián)網(wǎng)搜索系統(tǒng)中的高性能查詢問(wèn)題研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年

4 吳煒;密文全文檢索系統(tǒng)中的索引機(jī)制研究[D];華中科技大學(xué);2009年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 馬靜;基于web的數(shù)字化資源全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年

2 劉巍;基于內(nèi)容的同源音頻和視頻檢索[D];北京郵電大學(xué);2011年

3 陳恒;基于內(nèi)容的視頻搜索引擎[D];北京郵電大學(xué);2011年

4 李春豐;面向動(dòng)態(tài)文本的在線索引若干問(wèn)題研究[D];廣東工業(yè)大學(xué);2011年

5 蔣勵(lì);關(guān)系數(shù)據(jù)庫(kù)中教育信息全文檢索效率的改進(jìn)研究與實(shí)現(xiàn)[D];天津師范大學(xué);2011年

6 薛煜陽(yáng);農(nóng)業(yè)搜索引擎倒排索引緩沖機(jī)制研究[D];新疆農(nóng)業(yè)大學(xué);2011年

7 潘勝一;基于倒排索引的壓縮算法性能研究[D];杭州電子科技大學(xué);2009年

8 孫德才;相似字符串匹配過(guò)濾算法研究[D];湖南大學(xué);2009年

9 苗帥;海量數(shù)據(jù)存儲(chǔ)與全文檢索[D];江蘇科技大學(xué);2011年

10 漆團(tuán);數(shù)據(jù)庫(kù)中基于多索引段的全文索引研究[D];華中科技大學(xué);2011年

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 王濤;吳潔明;;搜索引擎建立倒排索引的算法研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2008年01期

2 王路芳;張虎;;一種面向搜索引擎的基于集合模型的搜索算法[J];山西農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年06期

3 方冰;張一中;;高性能FTP搜索引擎的設(shè)計(jì)[J];南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年03期

4 李棟;史曉東;;一種支持高效檢索的實(shí)時(shí)更新倒排索引策略[J];情報(bào)學(xué)報(bào);2006年01期

5 趙麗紅;維尼拉·木沙江;;維、哈、柯多語(yǔ)種搜索引擎中改進(jìn)索引創(chuàng)建的新方法的構(gòu)思[J];現(xiàn)代計(jì)算機(jī);2011年06期

6 吳文娟;車明;;搜索引擎倒排索引技術(shù)的改進(jìn)[J];微處理機(jī);2006年06期

7 李曉明;單棟棟;;基于文檔重要度的靜態(tài)索引剪枝方法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期

8 匡振國(guó);倪宏;嵇智輝;劉磊;;一種基于Lucene的影片搜索引擎的研究和應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2008年29期

9 郭立力;趙春江;;高效FTP搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期

10 易清亮;劉克劍;蔡祖戀;;基于P2P技術(shù)的大型分布式FTP搜索引擎研究[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 維尼拉·木沙江;吳俊森;吐?tīng)柛ひ啦祭?;維吾爾文搜索引擎的倒排索引設(shè)計(jì)與實(shí)現(xiàn)[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

2 孫宇;劉憬;張宇;劉挺;;基于分詞和倒排索引的短文本檢索技術(shù)的研究與實(shí)現(xiàn)[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2007年學(xué)術(shù)交流年會(huì)論文集[C];2007年

3 李棟;史曉東;;對(duì)搜索引擎中倒排索引更新策略的研究和改進(jìn)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年

4 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年

5 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

6 維尼拉·木沙江;吐?tīng)柡椤の崴韭?;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

7 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年

8 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年

9 姚樹(shù)宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國(guó)開(kāi)放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年

10 倪俊峰;;基于黃頁(yè)搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

1 李一鑫;搜索排名的紅與黑[N];財(cái)經(jīng)時(shí)報(bào);2007年

2 周文林;搜狗3.0能否撼動(dòng)搜索市場(chǎng)[N];經(jīng)濟(jì)參考報(bào);2007年

3 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財(cái)經(jīng)日?qǐng)?bào);2005年

4 賽迪顧問(wèn)股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,,還是門戶[N];中國(guó)計(jì)算機(jī)報(bào);2005年

5 陳珊;浙江移動(dòng)推出手機(jī)搜索引擎服務(wù)[N];人民郵電;2005年

6 趙法忠;搜索引擎還需悠著點(diǎn)[N];中國(guó)經(jīng)營(yíng)報(bào);2005年

7 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報(bào);2006年

8 本報(bào)記者  趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國(guó)證券報(bào);2006年

9 孫t;搜索引擎驚喜侵權(quán)官司止于“避風(fēng)港”?[N];第一財(cái)經(jīng)日?qǐng)?bào);2006年

10 姜蕊;問(wèn)天下誰(shuí)識(shí)搜索?[N];中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2006年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

2 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年

3 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年

4 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

5 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

7 王昤璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年

8 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

9 鄭文良;基于簡(jiǎn)單本體的農(nóng)業(yè)P2P搜索引擎關(guān)鍵技術(shù)研究[D];沈陽(yáng)農(nóng)業(yè)大學(xué);2013年

10 張帆;搜索引擎中索引表求交和提前停止技術(shù)優(yōu)化研究[D];南開(kāi)大學(xué);2012年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 吳寶貴;搜索引擎中索引技術(shù)研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2008年

2 吳俊森;維哈柯多語(yǔ)種搜索引擎倒排索引模塊的實(shí)現(xiàn)[D];新疆大學(xué);2007年

3 封俊;基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)[D];太原理工大學(xué);2010年

4 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年

5 王珍;維、哈、柯文搜索引擎中的自動(dòng)分類技術(shù)研究[D];新疆大學(xué);2010年

6 劉雪芹;單漢字全文檢索技術(shù)研究[D];河北工業(yè)大學(xué);2005年

7 王穎;中文局域網(wǎng)搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2009年

8 胡曉翠;站點(diǎn)搜索引擎的研究與實(shí)現(xiàn)[D];武漢科技大學(xué);2009年

9 劉宇波;面向可下載資源的WEB搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2005年

10 薛云;Internet上元搜索引擎的研究與設(shè)計(jì)[D];太原理工大學(xué);2003年



本文編號(hào):692641

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/692641.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶df496***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com