天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的OA論文存儲(chǔ)及檢索策略

發(fā)布時(shí)間:2017-11-07 20:34

  本文關(guān)鍵詞:基于Hadoop的OA論文存儲(chǔ)及檢索策略


  更多相關(guān)文章: Hadoop 論文存儲(chǔ) 文件索引 檢索算法


【摘要】:隨著OA(Open Access)期刊論文的海量式增長(zhǎng),OA期刊論文的訪問以及存儲(chǔ)問題成為了一個(gè)挑戰(zhàn),如何能夠高效的存儲(chǔ)以及定位到準(zhǔn)確的論文已經(jīng)成為了一個(gè)亟待解決的問題。分布式存儲(chǔ)計(jì)算系統(tǒng)框架Hadoop已經(jīng)被廣泛應(yīng)用到各個(gè)領(lǐng)域,但Hadoop的分布式存儲(chǔ)框架HDFS不善長(zhǎng)存儲(chǔ)管理較小的文件。針對(duì)如何利用這種具有高擴(kuò)展性,高容錯(cuò)性的分布式存儲(chǔ)計(jì)算系統(tǒng)為OA提供一個(gè)底層的數(shù)據(jù)支持,本文提出了基于Hadoop的OA期刊論文存儲(chǔ)策略,同時(shí)根據(jù)OA期刊論文數(shù)據(jù)的特殊性,對(duì)其檢索排序算法進(jìn)行了研究。 首先,本文在查閱相關(guān)文獻(xiàn)的基礎(chǔ)上,介紹了海量的OA期刊論文存儲(chǔ)架構(gòu)在Hadoop平臺(tái)的背景與意義,同時(shí)對(duì)Hadoop這一分布式存儲(chǔ)與計(jì)算框架進(jìn)行了透徹地分析,闡述了基于Hadoop的小文件的存儲(chǔ)與檢索的研究現(xiàn)狀。 其次,,針對(duì)Hadoop原生系統(tǒng)以及當(dāng)前的小文件合并存儲(chǔ)策略無(wú)法滿足OA期刊論文的存儲(chǔ)特點(diǎn),本文提出了一種基于Hadoop的OA期刊論文的合并策略,將B+樹索引機(jī)制應(yīng)用到論文合并當(dāng)中。同時(shí)建立了MoB+樹索引機(jī)制,這種索引機(jī)制不但提高了文件檢索速度,還減緩了Namenode命名空間的吃緊問題。 再次,根據(jù)OA期刊論文的元數(shù)據(jù)的本身性質(zhì),為了讓排序結(jié)果滿足不同標(biāo)簽域產(chǎn)生不同的權(quán)重值的要求,提出了一種優(yōu)化的基于OA期刊論文的檢索算法。同時(shí)利用Hadoop平臺(tái)的分布式計(jì)算框架MapReduce實(shí)現(xiàn)了這一論文排序的優(yōu)化算法。 最后,搭建Hadoop平臺(tái),對(duì)本文提出的方法進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文所提供的方法有效提高了OA期刊論文在Hadoop平臺(tái)上的讀取效率,同時(shí)利用改進(jìn)的Lucene的排序算法,有效地改善了論文排序中的評(píng)分問題。
【學(xué)位授予單位】:燕山大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP333

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條

1 程維紅;任勝利;;中國(guó)科技期刊開放存取出版現(xiàn)狀[J];編輯學(xué)報(bào);2007年03期

2 李晶皎,何敬禹,鄭牧野,王愛俠;文件系統(tǒng)索引結(jié)構(gòu)的研究[J];東北大學(xué)學(xué)報(bào);2004年04期

3 陳劍;龔發(fā)根;;一種優(yōu)化分布式文件系統(tǒng)的文件合并策略[J];計(jì)算機(jī)應(yīng)用;2011年S2期

4 趙曉永;楊揚(yáng);孫莉莉;陳宇;;基于Hadoop的海量MP3文件存儲(chǔ)架構(gòu)[J];計(jì)算機(jī)應(yīng)用;2012年06期

5 張春明;芮建武;何婷婷;;一種Hadoop小文件存儲(chǔ)和讀取的方法[J];計(jì)算機(jī)應(yīng)用與軟件;2012年11期

6 陸志峰,陳新建;B~+樹索引文件結(jié)構(gòu)的優(yōu)化設(shè)計(jì)[J];計(jì)算機(jī)工程與設(shè)計(jì);2000年03期

7 余思;桂小林;黃汝維;莊威;;一種提高云存儲(chǔ)中小文件存儲(chǔ)效率的方案[J];西安交通大學(xué)學(xué)報(bào);2011年06期

8 李彬;;基于Hadoop框架的TF-IDF算法改進(jìn)[J];微型機(jī)與應(yīng)用;2012年07期

9 洪旭升;林世平;;基于MapFile的HDFS小文件存儲(chǔ)效率問題[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2012年11期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 周金娉;開放存取期刊學(xué)術(shù)影響力研究[D];吉林大學(xué);2013年



本文編號(hào):1154019

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/1154019.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a6e3f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com