面向領(lǐng)域的Deep Web查詢接口發(fā)現(xiàn)與元數(shù)據(jù)信息抽取研究
本文關(guān)鍵詞:面向領(lǐng)域的Deep Web查詢接口發(fā)現(xiàn)與元數(shù)據(jù)信息抽取研究,由筆耕文化傳播整理發(fā)布。
【摘要】:在互聯(lián)網(wǎng)中,大量的信息隱藏在深處而導(dǎo)致普通搜索引擎不能直接搜索到,然而絕大部分這些搜索引擎無法搜索到的信息正是我們需要的重要內(nèi)容。這些在互聯(lián)網(wǎng)上存儲在網(wǎng)絡(luò)數(shù)據(jù)庫里,用戶卻無法通過超鏈接的形式訪問的資源被稱為Deep Web數(shù)據(jù)。為了獲得這些深層網(wǎng)的信息,需要通過它們的查詢接口提交查詢,建立一個Deep Web信息集成系統(tǒng),查詢接口的發(fā)現(xiàn)分類和構(gòu)建元數(shù)據(jù)庫等是首要任務(wù)。但是,深度網(wǎng)中的信息存儲在不同的Web數(shù)據(jù)庫里,并且隨時都在進行動態(tài)變化,相應(yīng)的查詢接口也經(jīng)常變化著,對元信息的獲取產(chǎn)生了巨大的困難。作為集成框架的基礎(chǔ),如何正確、有效的進行Deep Web查詢接口的發(fā)現(xiàn)、元數(shù)據(jù)信息抽取顯得尤為重要。針對上面的主要問題,本文研究的重點內(nèi)容在于:(1)對Deep Web查詢接口的發(fā)現(xiàn)進行研究,本文提出了基于規(guī)則的方法,通過爬取相關(guān)URL獲得相應(yīng)信息源的查詢接口所在的網(wǎng)頁,定位該網(wǎng)頁中查詢接口所在的位置,并獲取該信息源的接口信息進行存儲。(2)對Deep Web源信息的抽取進行研究,本文主要采用了基于視覺特征和自定義規(guī)則的方法,來獲取到源查詢接口中的屬性信息,并將這些信息存儲在元信息庫中。(3)對獲取到的Deep Web源信息進行管理,主要采用表格方式存儲數(shù)據(jù),為系統(tǒng)集成和結(jié)果處理提供便利。(4)通過多線程的技術(shù)初步解決了多個信息源元數(shù)據(jù)更新的效率問題。本文最后對Deep Web元數(shù)據(jù)信息的抽取結(jié)果進行了實驗驗證。實驗結(jié)果表明所使用的發(fā)現(xiàn)、抽取方法具有可行性和較好的性能,所獲取的結(jié)果適用于Deep Web系統(tǒng)集成以及查詢結(jié)果處理。同時,查詢接口元信息的管理模塊具有一定的可擴展性,為Deep Web集成系統(tǒng)的設(shè)計打下較好的基礎(chǔ)。
【關(guān)鍵詞】:Deep Web 查詢接口發(fā)現(xiàn) 元數(shù)據(jù)信息抽取 集成
【學(xué)位授予單位】:暨南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
- 摘要3-4
- ABSTRACT4-8
- 第一章 緒論8-15
- 1.1 研究背景8-9
- 1.2 研究現(xiàn)狀9-10
- 1.3 本文研究內(nèi)容和目標10-13
- 1.4 本文解決的關(guān)鍵問題13
- 1.5 論文研究特色13
- 1.6 論文結(jié)構(gòu)安排13-15
- 第二章 Deep Web源查詢接口的發(fā)現(xiàn)15-27
- 2.1 Deep Web源查詢接口發(fā)現(xiàn)的重要性及其難點15
- 2.2 源查詢接口發(fā)現(xiàn)的相關(guān)技術(shù)15-18
- 2.3 Deep Web源查詢接口發(fā)現(xiàn)過程18-26
- 2.3.1 源查詢接口發(fā)現(xiàn)的整體流程18-19
- 2.3.2 信息源首頁發(fā)現(xiàn)算法19-20
- 2.3.3 信息源主頁最大相似度計算20-24
- 2.3.4 源查詢接口的判定規(guī)則24-25
- 2.3.5 源查詢接口發(fā)現(xiàn)算法時間復(fù)雜度分析25-26
- 2.4 本節(jié)提出算法的優(yōu)缺點26-27
- 第三章 Deep Web源查詢接口信息抽取及元信息的管理27-42
- 3.1 Deep Web源查詢接口信息抽取的重要性及其難點27-29
- 3.2 源查詢接口信息抽取的相關(guān)技術(shù)29-30
- 3.3 Deep Web源查詢接口信息抽取過程30-39
- 3.3.1 源查詢接口信息抽取的具體流程31-34
- 3.3.2 元數(shù)據(jù)信息庫設(shè)計34-36
- 3.3.3 源查詢接口信息的抽取規(guī)則36-39
- 3.4 元信息更新與多線程技術(shù)39-40
- 3.5 本節(jié)采用的信息抽取方法優(yōu)缺點40-42
- 第四章 面向領(lǐng)域的Deep Web查詢接口發(fā)現(xiàn)與元數(shù)據(jù)信息抽取系統(tǒng)的設(shè)計與實現(xiàn)42-47
- 4.1 系統(tǒng)簡介42
- 4.2 系統(tǒng)設(shè)計目標42-43
- 4.3 系統(tǒng)總體設(shè)計43-44
- 4.4 系統(tǒng)詳細設(shè)計44-47
- 4.4.1 領(lǐng)域選擇模塊44
- 4.4.2 接口發(fā)現(xiàn)模塊44-45
- 4.4.3 接口抽取模塊45
- 4.4.4 元信息管理模塊45-47
- 第五章 實驗結(jié)果及相關(guān)分析47-54
- 5.1 源查詢接口發(fā)現(xiàn)的結(jié)果及相關(guān)分析47-51
- 5.1.1 實驗環(huán)境47
- 5.1.2 源查詢接口發(fā)現(xiàn)的結(jié)果47-48
- 5.1.3 源查詢接口發(fā)現(xiàn)的準確率48-51
- 5.2 源查詢接口信息抽取的結(jié)果及相關(guān)分析51-54
- 5.2.1 源查詢接口信息抽取的結(jié)果51-53
- 5.2.2 源查詢接口抽取比率53-54
- 第六章 總結(jié)與展望54-56
- 6.1 工作總結(jié)54
- 6.2 工作展望54-56
- 參考文獻56-60
- 致謝60
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭冬冬;崔志明;;Deep Web查詢接口選擇[J];計算機應(yīng)用;2006年09期
2 王彩霞;高明;;Deep Web查詢接口及其識別算法[J];電腦知識與技術(shù);2011年22期
3 周愛武;李玉梅;周閃閃;王寶銅;;基于返回結(jié)果的Deep Web查詢接口識別[J];計算機技術(shù)與發(fā)展;2009年07期
4 李齊會;;Deep Web查詢接口的判定技術(shù)研究[J];計算機與數(shù)字工程;2009年03期
5 楊麗華;;基于規(guī)則的Deep Web查詢接口的抽取[J];電腦知識與技術(shù);2010年01期
6 錢程;陽小蘭;;Deep Web查詢接口研究[J];計算機與現(xiàn)代化;2012年06期
7 李雪玲;施化吉;蘭均;李星毅;;基于決策樹和鏈接相似的Deep Web查詢接口判定[J];計算機應(yīng)用研究;2011年11期
8 徐和祥;王述云;胡運發(fā);;基于本體的Deep Web查詢接口分類[J];小型微型計算機系統(tǒng);2008年10期
9 董永權(quán);李慶忠;丁艷輝;張永新;;一種基于證據(jù)理論和任務(wù)分配的Deep Web查詢接口匹配方法[J];模式識別與人工智能;2011年02期
10 崔曉軍;彭智勇;曾承;;基于多標注源的Deep Web查詢結(jié)果自動標注[J];計算機應(yīng)用;2009年01期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 王英;左萬利;彭濤;赫楓齡;彭釗;;特定領(lǐng)域Deep Web查詢接口的集成[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 張慧斌;Deep Web查詢接口及查詢結(jié)果抽取研究[D];南開大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前8條
1 項江;面向領(lǐng)域的Deep Web查詢接口發(fā)現(xiàn)與元數(shù)據(jù)信息抽取研究[D];暨南大學(xué);2016年
2 廖柳燕;Deep Web查詢結(jié)果集成處理研究與實現(xiàn)[D];暨南大學(xué);2016年
3 唐博;基于概念格的Deep Web查詢接口建模系統(tǒng)研究與設(shè)計[D];西安電子科技大學(xué);2013年
4 李振興;面向領(lǐng)域的Deep Web查詢接口發(fā)現(xiàn)研究[D];暨南大學(xué);2014年
5 陳海;Deep Web查詢接口發(fā)現(xiàn)與模式抽取的研究[D];首都師范大學(xué);2012年
6 陳雅冰;基于領(lǐng)域的Deep Web查詢接口抽取[D];華南理工大學(xué);2011年
7 張云冬;特定領(lǐng)域的Deep Web查詢集成及結(jié)果抽取[D];復(fù)旦大學(xué);2008年
8 曹慶皇;Deep Web查詢接口匹配技術(shù)研究[D];江蘇大學(xué);2009年
本文關(guān)鍵詞:面向領(lǐng)域的Deep Web查詢接口發(fā)現(xiàn)與元數(shù)據(jù)信息抽取研究,,由筆耕文化傳播整理發(fā)布。
本文編號:431354
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/431354.html