基于分布式結(jié)構(gòu)的數(shù)字圖書(shū)館文獻(xiàn)集成檢索方法研究
發(fā)布時(shí)間:2021-07-27 01:42
在開(kāi)放的Hadoop環(huán)境下,提出一種基于分布式結(jié)構(gòu)的數(shù)字圖書(shū)館文獻(xiàn)集成檢索方法。構(gòu)建五層次的分布式索引結(jié)構(gòu),合并文本文獻(xiàn)構(gòu)成集合,將分布式索引結(jié)構(gòu)均勻部署于網(wǎng)絡(luò)拓?fù)涞墓?jié)點(diǎn)處;采用流形排序的方式調(diào)整文獻(xiàn)檢索順序,對(duì)輸入分布式節(jié)點(diǎn)的指令進(jìn)行賦值,計(jì)算映射函數(shù)的關(guān)系并標(biāo)記待檢索文獻(xiàn)未知向量,計(jì)算權(quán)值比重,確定節(jié)點(diǎn)數(shù)據(jù)與被檢索目標(biāo)文獻(xiàn)的相近度,完成檢索方法研究。測(cè)試結(jié)果表明,提出檢索方法的索引構(gòu)建效率、更新效率均優(yōu)于傳統(tǒng)集中式檢索方法,具有更好的文獻(xiàn)檢索效果。
【文章來(lái)源】:電子設(shè)計(jì)工程. 2020,28(12)
【文章頁(yè)數(shù)】:5 頁(yè)
【圖文】:
圖1 分布式索引結(jié)構(gòu)
基于層次和增量的索引方式,支持?jǐn)?shù)字圖書(shū)館不同數(shù)據(jù)庫(kù)之間的新舊索引合并,在經(jīng)典索引排序基礎(chǔ)上提高文獻(xiàn)集成檢索的擴(kuò)展性和可靠性。由于采用分布式結(jié)構(gòu),數(shù)據(jù)的檢索過(guò)程由多臺(tái)服務(wù)器同步完成,不再僅單獨(dú)依賴于中心系統(tǒng)。MapReduce計(jì)算框架與HDFS分布式存儲(chǔ)系統(tǒng)配合使用,在圖書(shū)館數(shù)據(jù)庫(kù)中能夠一次性檢索混合海量文檔。將需要檢索的文獻(xiàn)資料文檔集合先上傳到系統(tǒng)中,再利用MapReduce建立臨時(shí)索引資料,最終生成一種分布式的索引文件。MapReduce特有的分布式結(jié)構(gòu)可將待查詢文獻(xiàn)分成若干個(gè)小塊,可提高文獻(xiàn)查詢和讀寫的效率。每一個(gè)塊文件對(duì)應(yīng)小文件的內(nèi)容,最后在對(duì)文檔聚合。目標(biāo)文獻(xiàn)文檔的合并過(guò)程,如圖2所示。將經(jīng)過(guò)合并和集成化處理后的文獻(xiàn)上傳到HDFS文件系統(tǒng)中的指定位置,由于圖書(shū)館文獻(xiàn)采用分塊式的方式存儲(chǔ),檢索系統(tǒng)中不同節(jié)點(diǎn)的服務(wù)器可同時(shí)工作,使網(wǎng)絡(luò)傳輸量得到明顯的改善。執(zhí)行MapReduce計(jì)算框架中的Map功能,為下一步分布式檢索做準(zhǔn)備,MapReduce的分布式數(shù)據(jù)處理過(guò)程,如圖3所示。
將經(jīng)過(guò)合并和集成化處理后的文獻(xiàn)上傳到HDFS文件系統(tǒng)中的指定位置,由于圖書(shū)館文獻(xiàn)采用分塊式的方式存儲(chǔ),檢索系統(tǒng)中不同節(jié)點(diǎn)的服務(wù)器可同時(shí)工作,使網(wǎng)絡(luò)傳輸量得到明顯的改善。執(zhí)行MapReduce計(jì)算框架中的Map功能,為下一步分布式檢索做準(zhǔn)備,MapReduce的分布式數(shù)據(jù)處理過(guò)程,如圖3所示。查詢檢索指令輸入數(shù)字化系統(tǒng)后,進(jìn)入不同的查詢塊,MapReduce計(jì)算框架具有分塊功能,再按照一定的Map函數(shù)規(guī)則形成中間數(shù)據(jù),最后進(jìn)行Reduce處理輸出查詢結(jié)果。分布式索引結(jié)構(gòu)在數(shù)字圖書(shū)館集成檢索中的優(yōu)勢(shì)在于,不再依賴于傳統(tǒng)的集中式文獻(xiàn)識(shí)別與處理模式,實(shí)現(xiàn)文獻(xiàn)知識(shí)檢索的并行化。借助Hadoop框架的結(jié)構(gòu)優(yōu)勢(shì),將分布式索引結(jié)構(gòu)均勻部署于每一個(gè)計(jì)算機(jī)網(wǎng)絡(luò)節(jié)點(diǎn)處,建立局部索引,通過(guò)網(wǎng)絡(luò)服務(wù)器連接將局部索引后匯總到主索引。由于分布式結(jié)構(gòu)的存在,無(wú)論是在計(jì)算中心還是在其他計(jì)算機(jī)節(jié)點(diǎn),只要經(jīng)過(guò)授權(quán),用戶可以隨時(shí)查詢文獻(xiàn),不再受到查詢時(shí)間和空間的限制。
【參考文獻(xiàn)】:
期刊論文
[1]圖書(shū)館書(shū)目數(shù)據(jù)自動(dòng)采集模型構(gòu)建[J]. 時(shí)冬梅,張藝婕. 自動(dòng)化與儀器儀表. 2019(08)
[2]文獻(xiàn)元數(shù)據(jù)集成管理研究[J]. 丁遒勁,曾建勛. 情報(bào)學(xué)報(bào). 2019(06)
[3]面向非相關(guān)文獻(xiàn)的知識(shí)關(guān)聯(lián)發(fā)現(xiàn)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 劉愛(ài)琴,安婷. 國(guó)家圖書(shū)館學(xué)刊. 2019(03)
[4]一種基于向量索引的內(nèi)存OLAP星型連接加速新技術(shù)[J]. 張延松,張宇,王珊. 計(jì)算機(jī)學(xué)報(bào). 2019(08)
[5]高校圖書(shū)館數(shù)字學(xué)術(shù)服務(wù)空間的構(gòu)建與思考[J]. 黃曉軍. 圖書(shū)與情報(bào). 2019(01)
[6]面向高效加密云數(shù)據(jù)排序搜索的類別分組索引方法[J]. 劉良桂,孫輝,賈會(huì)玲,張宇. 電子學(xué)報(bào). 2019(02)
[7]基于元數(shù)據(jù)管理的數(shù)字資源保障評(píng)估研究[J]. 許天才,潘雨亭,楊新涯,羅麗,孫銳. 圖書(shū)情報(bào)工作. 2019(02)
[8]基于語(yǔ)義的數(shù)字圖書(shū)館檢索模型研究[J]. 馬佳立. 電子設(shè)計(jì)工程. 2018(22)
[9]圖書(shū)館藏書(shū)光學(xué)特征的高效檢索技術(shù)研究[J]. 劉敏. 激光雜志. 2018(06)
[10]結(jié)合HBase的散列概要森林索引方案[J]. 馮詩(shī)淳,曹斌,晁德文,林博,尹建偉. 小型微型計(jì)算機(jī)系統(tǒng). 2018(01)
本文編號(hào):3304807
【文章來(lái)源】:電子設(shè)計(jì)工程. 2020,28(12)
【文章頁(yè)數(shù)】:5 頁(yè)
【圖文】:
圖1 分布式索引結(jié)構(gòu)
基于層次和增量的索引方式,支持?jǐn)?shù)字圖書(shū)館不同數(shù)據(jù)庫(kù)之間的新舊索引合并,在經(jīng)典索引排序基礎(chǔ)上提高文獻(xiàn)集成檢索的擴(kuò)展性和可靠性。由于采用分布式結(jié)構(gòu),數(shù)據(jù)的檢索過(guò)程由多臺(tái)服務(wù)器同步完成,不再僅單獨(dú)依賴于中心系統(tǒng)。MapReduce計(jì)算框架與HDFS分布式存儲(chǔ)系統(tǒng)配合使用,在圖書(shū)館數(shù)據(jù)庫(kù)中能夠一次性檢索混合海量文檔。將需要檢索的文獻(xiàn)資料文檔集合先上傳到系統(tǒng)中,再利用MapReduce建立臨時(shí)索引資料,最終生成一種分布式的索引文件。MapReduce特有的分布式結(jié)構(gòu)可將待查詢文獻(xiàn)分成若干個(gè)小塊,可提高文獻(xiàn)查詢和讀寫的效率。每一個(gè)塊文件對(duì)應(yīng)小文件的內(nèi)容,最后在對(duì)文檔聚合。目標(biāo)文獻(xiàn)文檔的合并過(guò)程,如圖2所示。將經(jīng)過(guò)合并和集成化處理后的文獻(xiàn)上傳到HDFS文件系統(tǒng)中的指定位置,由于圖書(shū)館文獻(xiàn)采用分塊式的方式存儲(chǔ),檢索系統(tǒng)中不同節(jié)點(diǎn)的服務(wù)器可同時(shí)工作,使網(wǎng)絡(luò)傳輸量得到明顯的改善。執(zhí)行MapReduce計(jì)算框架中的Map功能,為下一步分布式檢索做準(zhǔn)備,MapReduce的分布式數(shù)據(jù)處理過(guò)程,如圖3所示。
將經(jīng)過(guò)合并和集成化處理后的文獻(xiàn)上傳到HDFS文件系統(tǒng)中的指定位置,由于圖書(shū)館文獻(xiàn)采用分塊式的方式存儲(chǔ),檢索系統(tǒng)中不同節(jié)點(diǎn)的服務(wù)器可同時(shí)工作,使網(wǎng)絡(luò)傳輸量得到明顯的改善。執(zhí)行MapReduce計(jì)算框架中的Map功能,為下一步分布式檢索做準(zhǔn)備,MapReduce的分布式數(shù)據(jù)處理過(guò)程,如圖3所示。查詢檢索指令輸入數(shù)字化系統(tǒng)后,進(jìn)入不同的查詢塊,MapReduce計(jì)算框架具有分塊功能,再按照一定的Map函數(shù)規(guī)則形成中間數(shù)據(jù),最后進(jìn)行Reduce處理輸出查詢結(jié)果。分布式索引結(jié)構(gòu)在數(shù)字圖書(shū)館集成檢索中的優(yōu)勢(shì)在于,不再依賴于傳統(tǒng)的集中式文獻(xiàn)識(shí)別與處理模式,實(shí)現(xiàn)文獻(xiàn)知識(shí)檢索的并行化。借助Hadoop框架的結(jié)構(gòu)優(yōu)勢(shì),將分布式索引結(jié)構(gòu)均勻部署于每一個(gè)計(jì)算機(jī)網(wǎng)絡(luò)節(jié)點(diǎn)處,建立局部索引,通過(guò)網(wǎng)絡(luò)服務(wù)器連接將局部索引后匯總到主索引。由于分布式結(jié)構(gòu)的存在,無(wú)論是在計(jì)算中心還是在其他計(jì)算機(jī)節(jié)點(diǎn),只要經(jīng)過(guò)授權(quán),用戶可以隨時(shí)查詢文獻(xiàn),不再受到查詢時(shí)間和空間的限制。
【參考文獻(xiàn)】:
期刊論文
[1]圖書(shū)館書(shū)目數(shù)據(jù)自動(dòng)采集模型構(gòu)建[J]. 時(shí)冬梅,張藝婕. 自動(dòng)化與儀器儀表. 2019(08)
[2]文獻(xiàn)元數(shù)據(jù)集成管理研究[J]. 丁遒勁,曾建勛. 情報(bào)學(xué)報(bào). 2019(06)
[3]面向非相關(guān)文獻(xiàn)的知識(shí)關(guān)聯(lián)發(fā)現(xiàn)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 劉愛(ài)琴,安婷. 國(guó)家圖書(shū)館學(xué)刊. 2019(03)
[4]一種基于向量索引的內(nèi)存OLAP星型連接加速新技術(shù)[J]. 張延松,張宇,王珊. 計(jì)算機(jī)學(xué)報(bào). 2019(08)
[5]高校圖書(shū)館數(shù)字學(xué)術(shù)服務(wù)空間的構(gòu)建與思考[J]. 黃曉軍. 圖書(shū)與情報(bào). 2019(01)
[6]面向高效加密云數(shù)據(jù)排序搜索的類別分組索引方法[J]. 劉良桂,孫輝,賈會(huì)玲,張宇. 電子學(xué)報(bào). 2019(02)
[7]基于元數(shù)據(jù)管理的數(shù)字資源保障評(píng)估研究[J]. 許天才,潘雨亭,楊新涯,羅麗,孫銳. 圖書(shū)情報(bào)工作. 2019(02)
[8]基于語(yǔ)義的數(shù)字圖書(shū)館檢索模型研究[J]. 馬佳立. 電子設(shè)計(jì)工程. 2018(22)
[9]圖書(shū)館藏書(shū)光學(xué)特征的高效檢索技術(shù)研究[J]. 劉敏. 激光雜志. 2018(06)
[10]結(jié)合HBase的散列概要森林索引方案[J]. 馮詩(shī)淳,曹斌,晁德文,林博,尹建偉. 小型微型計(jì)算機(jī)系統(tǒng). 2018(01)
本文編號(hào):3304807
本文鏈接:http://www.sikaile.net/tushudanganlunwen/3304807.html
最近更新
教材專著