基于WEB元數(shù)據(jù)抽取的ETL資源整合模型研究與實現(xiàn)
發(fā)布時間:2021-10-16 11:38
數(shù)字資源整合是目前圖書館界數(shù)字化建設的一個重要方面。隨著數(shù)字資源的不斷增長,圖書館對資源管理的難度和工作量也在加大,用戶在浩如煙海的數(shù)字資源面前也感覺到使用的不便。用戶希望能夠通過統(tǒng)一的檢索界面,方便快捷地利用到圖書館所有分布式資源,包括電子圖書、電子期刊等學術資源,以及文摘題錄、專利成果和其他網(wǎng)上教學資源、會議錄等形式各異的數(shù)字資源,希望圖書館提供一站式的信息服務。這就是資源整合要解決的問題。本文在依托湖南師范大學“數(shù)字圖書館”建設項目的基礎之上,對ETL數(shù)據(jù)抽取模型進行深入研究后,給出了基于WEB元數(shù)據(jù)抽取的數(shù)字資源整合系統(tǒng)的實現(xiàn)模型。論文主要圍繞數(shù)字圖書館元數(shù)據(jù)整合解決方案,首先簡單回顧了國內外資源整合的現(xiàn)狀;接著對資源整合的內容、模式等進行了理論分析,重點探討了基于元數(shù)據(jù)倉庫的資源整合模式;然后借助于ETL抽取模型,詳細介紹了WEB元數(shù)據(jù)抽取的相關技術,包括HTML、XHTML、XML、DOM、JAXP等;接著分析了WEB信息抽取的流程,分為樣本頁面提取與規(guī)則庫的生成、HTML頁面清洗、噪音處理、DOM樹解析、XML到數(shù)據(jù)庫的轉換存儲等過程;最后結合這些相關技術和JDK、Ecl...
【文章來源】:湖南師范大學湖南省 211工程院校
【文章頁數(shù)】:81 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國內外研究現(xiàn)狀
1.3 主要研究內容
1.4 論文的組織結構
第二章 數(shù)字資源整合概述
2.1 數(shù)字資源整合的概念
2.2 數(shù)字資源整合的內容
2.2.1 按資源來源劃分
2.2.2 按文獻類型劃分
2.3 數(shù)字資源整合的必要性分析
2.4 數(shù)字資源整合的作用
2.5 數(shù)字資源整合的原則
2.6 數(shù)字資源整合的模式
2.6.1 基于導航系統(tǒng)的資源整合
2.6.2 基于OPAC系統(tǒng)的資源整合
2.6.3 基于跨庫檢索的資源整合
2.6.4 基于中間件的資源整合
2.6.5 基于元數(shù)據(jù)倉庫的資源整合
第三章 基于元數(shù)據(jù)倉庫的資源整合模型研究
3.1 基于元數(shù)據(jù)倉庫的資源整合解決方案
3.2 ETL整合模型
3.2.1 ETL概念
3.2.2 ETL數(shù)據(jù)抽取機制
3.2.3 ETL體系結構
3.2.4 ETL工具
3.3 數(shù)據(jù)庫設計
3.3.1 數(shù)據(jù)庫需求分析
3.3.2 數(shù)據(jù)庫結構設計
3.3.3 數(shù)據(jù)采集模式分析
第四章 WEB元數(shù)據(jù)抽取模式實現(xiàn)
4.1 Web信息抽取概述
4.1.1 Web信息抽取的相關概念
4.1.2 Web信息抽取方式的分類
4.2 WEB信息抽取的相關技術
4.2.1 HTML
4.2.2 XML
4.2.3 XHTML
4.2.4 DOM
4.3 WEB信息抽取的實現(xiàn)
4.3.1 WEB信息抽取包裝器的構造
4.3.2 WEB抽取的基本流程
4.3.3 通過樣本頁面,生成規(guī)則庫
4.3.4 獲取整個網(wǎng)頁的內容
4.3.5 頁面清洗與轉換工作
4.3.6 DOM樹解析
4.3.7 XML到數(shù)據(jù)庫的轉換
第五章 系統(tǒng)設計與運行實例
5.1 總體設計
5.2 開發(fā)工具
5.3 包裝器界面
5.3.1 包裝器運行界面
5.3.2 數(shù)據(jù)結果
5.4 集成檢索界面與結果
第六章 總結與展望
參考文獻
附錄
致謝
【參考文獻】:
期刊論文
[1]對WebFeat Express的認識、實踐與思考[J]. 李欣. 圖書館學研究. 2010(02)
[2]ETL中的數(shù)據(jù)增量抽取機制研究[J]. 戴浩,楊波. 計算機工程與設計. 2009(23)
[3]圖書館數(shù)字信息資源整合模式探究[J]. 陳永選,鄭樂丹. 四川圖書館學報. 2008(02)
[4]基于Web的信息抽取技術研究綜述[J]. 蒲筱哥. 現(xiàn)代情報. 2007(10)
[5]CALIS數(shù)字圖書館資源統(tǒng)一檢索系統(tǒng)評價研究[J]. 張宏亮. 圖書館學研究. 2007(10)
[6]數(shù)字資源整合技術在數(shù)字圖書館建設中的應用[J]. 彭澤華. 高校圖書館工作. 2007(05)
[7]高校圖書館數(shù)字資源體系建設淺析[J]. 朱嘉嘉. 科技情報開發(fā)與經(jīng)濟. 2007(15)
[8]TRS數(shù)據(jù)庫統(tǒng)一檢索平臺的應用分析[J]. 馮潔,詹穎. 貴圖學刊. 2006(04)
[9]ETL技術及其在數(shù)字圖書館中的應用研究[J]. 黃永文,李廣建. 圖書館雜志. 2006(02)
[10]信息資源整合的建模與實現(xiàn)方法研究[J]. 章成志,蘇新寧. 現(xiàn)代圖書情報技術. 2005(10)
本文編號:3439742
【文章來源】:湖南師范大學湖南省 211工程院校
【文章頁數(shù)】:81 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國內外研究現(xiàn)狀
1.3 主要研究內容
1.4 論文的組織結構
第二章 數(shù)字資源整合概述
2.1 數(shù)字資源整合的概念
2.2 數(shù)字資源整合的內容
2.2.1 按資源來源劃分
2.2.2 按文獻類型劃分
2.3 數(shù)字資源整合的必要性分析
2.4 數(shù)字資源整合的作用
2.5 數(shù)字資源整合的原則
2.6 數(shù)字資源整合的模式
2.6.1 基于導航系統(tǒng)的資源整合
2.6.2 基于OPAC系統(tǒng)的資源整合
2.6.3 基于跨庫檢索的資源整合
2.6.4 基于中間件的資源整合
2.6.5 基于元數(shù)據(jù)倉庫的資源整合
第三章 基于元數(shù)據(jù)倉庫的資源整合模型研究
3.1 基于元數(shù)據(jù)倉庫的資源整合解決方案
3.2 ETL整合模型
3.2.1 ETL概念
3.2.2 ETL數(shù)據(jù)抽取機制
3.2.3 ETL體系結構
3.2.4 ETL工具
3.3 數(shù)據(jù)庫設計
3.3.1 數(shù)據(jù)庫需求分析
3.3.2 數(shù)據(jù)庫結構設計
3.3.3 數(shù)據(jù)采集模式分析
第四章 WEB元數(shù)據(jù)抽取模式實現(xiàn)
4.1 Web信息抽取概述
4.1.1 Web信息抽取的相關概念
4.1.2 Web信息抽取方式的分類
4.2 WEB信息抽取的相關技術
4.2.1 HTML
4.2.2 XML
4.2.3 XHTML
4.2.4 DOM
4.3 WEB信息抽取的實現(xiàn)
4.3.1 WEB信息抽取包裝器的構造
4.3.2 WEB抽取的基本流程
4.3.3 通過樣本頁面,生成規(guī)則庫
4.3.4 獲取整個網(wǎng)頁的內容
4.3.5 頁面清洗與轉換工作
4.3.6 DOM樹解析
4.3.7 XML到數(shù)據(jù)庫的轉換
第五章 系統(tǒng)設計與運行實例
5.1 總體設計
5.2 開發(fā)工具
5.3 包裝器界面
5.3.1 包裝器運行界面
5.3.2 數(shù)據(jù)結果
5.4 集成檢索界面與結果
第六章 總結與展望
參考文獻
附錄
致謝
【參考文獻】:
期刊論文
[1]對WebFeat Express的認識、實踐與思考[J]. 李欣. 圖書館學研究. 2010(02)
[2]ETL中的數(shù)據(jù)增量抽取機制研究[J]. 戴浩,楊波. 計算機工程與設計. 2009(23)
[3]圖書館數(shù)字信息資源整合模式探究[J]. 陳永選,鄭樂丹. 四川圖書館學報. 2008(02)
[4]基于Web的信息抽取技術研究綜述[J]. 蒲筱哥. 現(xiàn)代情報. 2007(10)
[5]CALIS數(shù)字圖書館資源統(tǒng)一檢索系統(tǒng)評價研究[J]. 張宏亮. 圖書館學研究. 2007(10)
[6]數(shù)字資源整合技術在數(shù)字圖書館建設中的應用[J]. 彭澤華. 高校圖書館工作. 2007(05)
[7]高校圖書館數(shù)字資源體系建設淺析[J]. 朱嘉嘉. 科技情報開發(fā)與經(jīng)濟. 2007(15)
[8]TRS數(shù)據(jù)庫統(tǒng)一檢索平臺的應用分析[J]. 馮潔,詹穎. 貴圖學刊. 2006(04)
[9]ETL技術及其在數(shù)字圖書館中的應用研究[J]. 黃永文,李廣建. 圖書館雜志. 2006(02)
[10]信息資源整合的建模與實現(xiàn)方法研究[J]. 章成志,蘇新寧. 現(xiàn)代圖書情報技術. 2005(10)
本文編號:3439742
本文鏈接:http://www.sikaile.net/tushudanganlunwen/3439742.html