數(shù)字版權(quán)資源庫的構(gòu)建中Lucene技術(shù)的應(yīng)用研究
【摘要】 隨著互聯(lián)網(wǎng)的飛速發(fā)展,信息的存儲(chǔ)與傳播方式發(fā)生了巨大的變化。由于數(shù)字資源的易擴(kuò)散和易傳播性,數(shù)字資源給人們帶來極大便利的同時(shí),也給數(shù)字版權(quán)管理工作帶來了前所未有的挑戰(zhàn)。首先,數(shù)字版權(quán)資源依靠傳統(tǒng)的存儲(chǔ)方式,不能有效解決日益增長(zhǎng)的數(shù)字資源的存儲(chǔ)問題。其次,對(duì)于海量的數(shù)字作品如何從中快速搜索有用的信息變的越來越困難。因此構(gòu)建一個(gè)對(duì)數(shù)字作品具有海量存儲(chǔ)和快速搜索功能的數(shù)字版權(quán)資源庫是必要的。本文采用Hadoop框架下的HDFS分布式文件系統(tǒng),解決數(shù)字作品的海量存儲(chǔ)問題;在數(shù)字版權(quán)資源庫的快速搜索方面,先采用Lucene全文檢索技術(shù)對(duì)版權(quán)元數(shù)據(jù)信息創(chuàng)建索引,并對(duì)索引文件進(jìn)行搜索;然后采用Elasticsearch分布式搜索技術(shù)對(duì)Luc ene的索引文件進(jìn)行分片存儲(chǔ)和分布式搜索;最后本搜索引擎為用戶提供友好的操作功能:數(shù)字作品管理,數(shù)字版權(quán)管理,資源庫索引,資源庫搜索等。本文的難點(diǎn)和創(chuàng)新點(diǎn)如下:分析了數(shù)字版權(quán)資源的特征,設(shè)計(jì)了易于擴(kuò)展、高度容錯(cuò)、支持海量數(shù)據(jù)集的云存儲(chǔ)方案;研究Lucene技術(shù),設(shè)計(jì)了數(shù)字版權(quán)資源元數(shù)據(jù)全文檢索方案;采用Elasticsearch對(duì)資源庫的索引文件進(jìn)行分片處理,實(shí)現(xiàn)了數(shù)字版權(quán)資源庫的分布式索引和分布式搜索。本文主要成果是運(yùn)用HDFS分布式文件系統(tǒng)實(shí)現(xiàn)數(shù)字版權(quán)資源的海量存儲(chǔ),采用Lucene全文檢索和Elasticsearch索引分片技術(shù)對(duì)版權(quán)資源庫進(jìn)行分布式索引和快速檢索。最終構(gòu)建了一個(gè)高效的、分布式的數(shù)字版權(quán)資源庫,保證海量數(shù)字作品的安全可靠存儲(chǔ),促進(jìn)數(shù)字版權(quán)產(chǎn)業(yè)的資源整合,減少數(shù)字作品的傳播成本,為數(shù)字作品版權(quán)信息的登記、備案、搜索和檢測(cè)提供底層支撐。
1緒論
1.1課題研究背景
在數(shù)字版權(quán)管理方面,國(guó)內(nèi)外上有許多著名的數(shù)字版權(quán)管理系統(tǒng)及產(chǎn)品,比如微軟公司的公司的公司的和北大方正的等。另外中科院自動(dòng)化所和香港大學(xué)等研究機(jī)構(gòu)也都對(duì)數(shù)字版權(quán)管理技術(shù)的體系結(jié)構(gòu)和關(guān)鍵算法進(jìn)行了深入的探索與研究⑴。在各種數(shù)字版權(quán)管理系統(tǒng)及產(chǎn)品研究中,為方便數(shù)字版權(quán)資源的數(shù)據(jù)整合,需要構(gòu)建一個(gè)完整的、規(guī)范的數(shù)字版權(quán)資源庫,這樣可以有效的促進(jìn)數(shù)字版權(quán)資源的貿(mào)易和流通,提高了數(shù)字版權(quán)管理工作效率。中國(guó)版權(quán)保護(hù)中心在對(duì)版權(quán)保護(hù)技術(shù)和法律法規(guī)的研究分析后,認(rèn)為從根本上解決數(shù)字作品產(chǎn)業(yè)鏈各個(gè)參弓者的利益分享和技術(shù)創(chuàng)新,實(shí)現(xiàn)快速高效的維權(quán)機(jī)制,是瓦聯(lián)網(wǎng)上數(shù)字版權(quán)保護(hù)的主要問題。為了解決述問題,中國(guó)版權(quán)保護(hù)中心結(jié)合中國(guó)國(guó)情提出了數(shù)字版權(quán)唯一標(biāo)識(shí)符簡(jiǎn)稱,并通過高新技術(shù)乎段解決的數(shù)字版權(quán)資源信總的海量存儲(chǔ)和快速搜索題,提出了數(shù)字版權(quán)資源庫的構(gòu)建與應(yīng)用研究,并實(shí)現(xiàn)數(shù)字作品的海量存儲(chǔ)和快速搜索。
1.2國(guó)內(nèi)外研究現(xiàn)狀及趨勢(shì)
近年來,數(shù)字版權(quán)管理技術(shù)已經(jīng)應(yīng)用到電子書、圖片、音頻、視頻等領(lǐng)域,但還存在一些有待解決的難點(diǎn)問題,針對(duì)國(guó)內(nèi)數(shù)字內(nèi)容服務(wù)方面,還有一定的研究空間。比如數(shù)字版權(quán)元數(shù)據(jù)的標(biāo)準(zhǔn)化,數(shù)字版權(quán)資源庫的構(gòu)建,數(shù)字作品的盜版檢測(cè)和數(shù)字作品的權(quán)利轉(zhuǎn)移等技術(shù)的研究。目前國(guó)內(nèi)外有很多各種各樣的資源庫,如醫(yī)學(xué)資源庫、教育資源庫、圖書資源庫,但是對(duì)于數(shù)字版權(quán)資源庫卻很少,數(shù)字版權(quán)資源庫主要存儲(chǔ)的是數(shù)字作品的版權(quán)信息,為數(shù)字版權(quán)管理提供底層支撐。本課題以數(shù)字版權(quán)內(nèi)容備案和數(shù)字版權(quán)內(nèi)容搜索為核心,收集整理大量數(shù)字版權(quán)信息,利用技術(shù)手段針對(duì)數(shù)字內(nèi)容進(jìn)行特征備案,形成數(shù)字版權(quán)資源數(shù)據(jù)庫。數(shù)字版權(quán)資源信息包括數(shù)字作品元數(shù)據(jù)信息和和數(shù)字作品源文件,同時(shí)為數(shù)字作品信息提供海量存儲(chǔ)和快速搜索等服務(wù)。
..............
2相關(guān)技術(shù)介紹
2.1云存儲(chǔ)技術(shù)
傳統(tǒng)的技術(shù)架構(gòu)已經(jīng)越來越不適應(yīng)海故數(shù)據(jù)的處要求,憑借其在海量數(shù)據(jù)處理領(lǐng)域的領(lǐng)先技術(shù),在激烈的行業(yè)競(jìng)爭(zhēng)中街很大的優(yōu)勢(shì),其中的兩個(gè)技術(shù)就是分布式存儲(chǔ)和分布式計(jì)算框架。其設(shè)汁想來源于的和這兩篇學(xué)術(shù)文章,它最年的應(yīng)用是為搜索引擎建立索引和提供快速搜索功能“?蚣苤幸怖ǚ植际轿募到y(tǒng)和并行計(jì)算,其中分布式文件系統(tǒng)具有靠性、高安全性和擴(kuò)展性等優(yōu)點(diǎn)。云存儲(chǔ)不只是具體的存儲(chǔ)設(shè)備,而是釆用集群技術(shù)將大量的機(jī)器集合起來組成一個(gè)具有海量存儲(chǔ)和并行訪問等功能的集群這種通過應(yīng)用軟件和存儲(chǔ)設(shè)備來實(shí)現(xiàn)存儲(chǔ)服務(wù)的功能,即是云儲(chǔ)存。
如上圖所示在集群中有多個(gè)集群節(jié)點(diǎn)組成,在集群中有一個(gè)名節(jié)點(diǎn)和多個(gè)數(shù)據(jù)節(jié)點(diǎn)。名節(jié)點(diǎn)保存元數(shù)據(jù)信息和志操作信息,通過名節(jié)點(diǎn)可以獲取具體的數(shù)據(jù)存放的塊位置信息和塊的操作信息。數(shù)據(jù)節(jié)點(diǎn)保存具體的塊集群中的塊默認(rèn)大小是,每個(gè)塊都有多個(gè)副本來保證數(shù)據(jù)的可靠性。名節(jié)點(diǎn)是任務(wù)的管理者數(shù)掘節(jié)點(diǎn)執(zhí)行具體的任務(wù)。同樣集群中只能有一個(gè),可以有多個(gè)?蛻舳丝梢酝ㄟ^來訪問也可以直接訪問。
2.2 Lucene全文檢索技術(shù)
下面來介紹一下全文檢索工具包的優(yōu)點(diǎn):是基于語言開發(fā)的,具有面丨句對(duì)象的特性。提供了簡(jiǎn)單易用的索引和搜索,具有良好的擴(kuò)展性。具有獨(dú)立的文本分〗處理接口,通過實(shí)現(xiàn)索引文件的創(chuàng)建,程序員可以根據(jù)業(yè)務(wù)需要實(shí)現(xiàn)具體的文本分析接口來擴(kuò)展新的文件格式。工具包對(duì)于文本索引和搜索其冇一套高效解決方案,程序員只需要根據(jù)具體業(yè)務(wù)調(diào)的接—就可以實(shí)現(xiàn)自己的搜索引擎,其查詢包括:布爾查詢、短語查詢、模糊査詢、多字段査詢等等。
3數(shù)字版權(quán)資源痄搜索引擎的研究............14
3.1數(shù)字版權(quán)資源庫的休系架構(gòu).................14
3.2數(shù)字版權(quán)資源庫的二存儲(chǔ)技術(shù)...........................15
4數(shù)字版權(quán)資源庫搜索引擎的設(shè)計(jì)與實(shí)現(xiàn).........................26
4.1數(shù)字版權(quán)資源庫搜索引擎的設(shè)計(jì)............................26
4.1.1需求分析....................26
5實(shí)驗(yàn)結(jié)果分析..................44
5.1系統(tǒng)實(shí)驗(yàn)環(huán)境...............44
5.2實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備.....................44
5.3海量存儲(chǔ)...............45
5實(shí)驗(yàn)結(jié)果分析
5.1系統(tǒng)實(shí)驗(yàn)環(huán)境
云存儲(chǔ)集群:臺(tái)機(jī)器系統(tǒng);分布式搜索集群:臺(tái)機(jī)器系統(tǒng);主要技術(shù)、開發(fā)環(huán)境;運(yùn)行環(huán)境;框架。
5.2實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備
數(shù)字版權(quán)資源庫包括數(shù)字版權(quán)元數(shù)據(jù)和數(shù)字作品的源文件,均來源于中國(guó)版權(quán)保護(hù)中心的真實(shí)的數(shù)字作品信息,木文測(cè)試數(shù)據(jù)量在選擇大小在四個(gè)數(shù)量級(jí):萬條記錄、條記錄、萬條記錄、萬條記萬條記錄。在此四個(gè)數(shù)量級(jí)上比較索引的創(chuàng)建時(shí)間和索引文件大小,搜索的查詢時(shí)間,比較查詢的內(nèi)容對(duì)于查詢字段有:作品名稱、作者、作品說明,對(duì)于和分布式搜索査詢內(nèi)容都是全文檢索,本系統(tǒng)測(cè)試比較了查詢?cè)~“家鄉(xiāng)基礎(chǔ)閱讀”。其體的測(cè)試數(shù)據(jù)準(zhǔn)備如下表所示。本文所采用的支持高并發(fā)的數(shù)掘存儲(chǔ),在集群搭建完畢后,采用文件大小分別是等四個(gè)級(jí)別來測(cè)試分布式文件系統(tǒng)的上傳和下載性能,將四類文件上傳到文件系統(tǒng)上,如下圖所示。
..............
6總結(jié)與展望
目前數(shù)字版權(quán)產(chǎn)業(yè)的發(fā)展趨勢(shì)是要求系統(tǒng)平臺(tái)化、服務(wù)規(guī)范化、功能一體化。數(shù)字版權(quán)資源庫搜索引擎的相關(guān)技術(shù)和策略正在面臨巨大的挑戰(zhàn),數(shù)字版權(quán)資源信息的飛速增長(zhǎng),缺乏規(guī)范統(tǒng)一的資源庫,并對(duì)其提供快速搜索服務(wù)等問題,從而不利于數(shù)字版權(quán)的監(jiān)管和發(fā)展。為了解決這些問題,本文采用了基于的全文檢索技術(shù),在海量數(shù)字源文件存儲(chǔ)方面采用了云存儲(chǔ)技術(shù);其中對(duì)的索引文件,采用進(jìn)行分布式索引和分布式搜索,從而構(gòu)建了基于的數(shù)字版權(quán)資源庫搜索引擎,并且對(duì)數(shù)字版權(quán)資源庫的構(gòu)建過程做了詳細(xì)的介紹,本文的難點(diǎn)和創(chuàng)新點(diǎn)如下:分析了數(shù)字版權(quán)資源的特征,設(shè)計(jì)了易于擴(kuò)展、高度容錯(cuò)、支持海量數(shù)據(jù)集的云存儲(chǔ)方案;研究技術(shù),設(shè)計(jì)了數(shù)字版權(quán)資源元數(shù)據(jù)全文檢索方案;對(duì)資源庫的索引文件進(jìn)行分片處理,實(shí)現(xiàn)了數(shù)字版權(quán)資源厙的分布式索引和分布式搜索。該系統(tǒng)中,也可能存在很多問題,比如,與其他系統(tǒng)的集成問題;诘臄(shù)字版權(quán)資源庳搜索引擎已基本成形,從最辱接觸全文檢索技術(shù),到學(xué)習(xí)分布式文件系統(tǒng),到堪于對(duì)的索引文件;行分片段存儲(chǔ)和搜索的各種工、技術(shù)研究學(xué),最后實(shí)現(xiàn)整個(gè)數(shù)字版資源庫搜索引擎,在研究學(xué)習(xí)過,不僅提高了軟件編程實(shí)現(xiàn)的能力,而且對(duì)云存儲(chǔ)和全文檢索技術(shù)了一定的理解。
...................
參考文獻(xiàn):
- [1] 吳潔明,韓云輝,冀單單. 基于Lucene的數(shù)字作品搜索引擎的研究與設(shè)計(jì)[J]. 計(jì)算機(jī)工程與科學(xué). 2013(05)
- [2] 趙珂,逯鵬,李永強(qiáng). 基于Lucene的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程. 2011(16)
- [3] 周國(guó)祥,陸文海. 基于BHO技術(shù)的數(shù)字版權(quán)保護(hù)系統(tǒng)的研究與設(shè)計(jì)[J]. 計(jì)算機(jī)研究與發(fā)展. 2010(S1)
- [4] 唐箭. 云存儲(chǔ)系統(tǒng)的分析與應(yīng)用研究[J]. 電腦知識(shí)與技術(shù). 2009(20)
- [5] 李穎,李志蜀,鄧歡. 基于Lucene的中文分詞方法設(shè)計(jì)與實(shí)現(xiàn)[J]. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2008(05)
- [6] 孔伯煊,李祥. 基于Lucene\XML技術(shù)的Web搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J]. 航空計(jì)算技術(shù). 2006(04)
- [7] 李振龍. Web信息檢索的技術(shù)分析與發(fā)展策略研究[J]. 計(jì)算機(jī)科學(xué). 2006(04)
- [8] 趙汀,孟祥武. 基于LUCENEAPI的中文全文數(shù)據(jù)庫設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程與應(yīng)用. 2003(20)
- [9] 鄒海山,吳勇,吳月珠,陳陣. 中文搜索引擎中的中文信息處理技術(shù)[J]. 計(jì)算機(jī)應(yīng)用研究. 2000(12)
本文編號(hào):9233
本文鏈接:http://www.sikaile.net/shoufeilunwen/shuoshibiyelunwen/9233.html