基于視覺信息和樹匹配的Deep Web數(shù)據(jù)抽取問題的研究
本文關(guān)鍵詞:基于視覺信息和樹匹配的Deep Web數(shù)據(jù)抽取問題的研究
更多相關(guān)文章: 列表頁面 視覺塊樹 Deep Web數(shù)據(jù)抽取 樹匹配
【摘要】:隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展和普及,Web已經(jīng)成為一個巨大的信息源集合,擁有著海量信息。Deep Web是由Web中可在線訪問的數(shù)據(jù)庫構(gòu)成,具有信息量大、結(jié)構(gòu)化程度高、領(lǐng)域覆蓋全面等特點(diǎn),Deep Web對以分析挖掘?yàn)槟繕?biāo)的應(yīng)用系統(tǒng)有著十分重大的應(yīng)用價值。隨著電子商務(wù)、市場情報等應(yīng)用需求的增長,如何從Deep Web中獲取用戶感興趣的信息或數(shù)據(jù),以便進(jìn)行深度的分析從而提供更具價值的服務(wù)和應(yīng)用,比如比價系統(tǒng)、元搜索等,已成為目前研究的熱點(diǎn)課題。為了有效利用Deep Web, Deep Web數(shù)據(jù)集成應(yīng)運(yùn)而生,包括數(shù)據(jù)獲取、數(shù)據(jù)抽取和數(shù)據(jù)整合等環(huán)節(jié),其中Deep Web數(shù)據(jù)抽取是其關(guān)鍵環(huán)節(jié)。由于Deep Web的海量、異構(gòu)等特點(diǎn)使得Deep Web數(shù)據(jù)抽取成為一項(xiàng)極具挑戰(zhàn)的工作,其主要困難有:(1) Deep Web涉及領(lǐng)域廣,數(shù)據(jù)量大,要實(shí)現(xiàn)Deep Web數(shù)據(jù)的自動抽取。(2)不同Deep Web頁面差距較大,抽取方法要有一定的適應(yīng)性,確保其抽取的正確率和效率。本文針對Deep Web中包含半結(jié)構(gòu)化數(shù)據(jù)的列表頁面,利用頁面的視覺信息和樹匹配技術(shù),實(shí)現(xiàn)了此類Web頁面中數(shù)據(jù)的全自動抽取,其主要貢獻(xiàn)和創(chuàng)新有以下兩點(diǎn):(1)列表頁面中數(shù)據(jù)記錄的識別和抽取Web頁面的設(shè)計(jì)是為了方便用戶瀏覽,有著豐富的視覺信息,比如字體、布局、背景等。為了方便利用頁面的視覺信息,我們給出了頁面的表示模型——視覺塊樹,相較于VIPS等頁面分塊技術(shù),這里沒有使用任何假設(shè)和啟發(fā)式規(guī)則,更能客觀的反應(yīng)頁面信息。為了抽取數(shù)據(jù)記錄,我們首先識別出數(shù)據(jù)區(qū)域,這里結(jié)合列表頁面的視覺特征,給出了數(shù)據(jù)區(qū)域識別算法,相較于傳統(tǒng)方法,此算法有較強(qiáng)的適應(yīng)性。對于數(shù)據(jù)區(qū)域下數(shù)據(jù)記錄的識別,本文采用一種序列劃分的策略,其基本思想是先對數(shù)據(jù)區(qū)域樹下子樹聚類,根據(jù)聚類的結(jié)果信息對子樹序列進(jìn)行劃分,過濾掉噪聲節(jié)點(diǎn)從而確定每條數(shù)據(jù)記錄的邊界,最終實(shí)現(xiàn)數(shù)據(jù)區(qū)域下數(shù)據(jù)記錄的抽取工作。(2)基于樹匹配技術(shù)實(shí)現(xiàn)數(shù)據(jù)項(xiàng)對齊數(shù)據(jù)項(xiàng)對齊是指將由同一模板生成的數(shù)據(jù)記錄中相同語義項(xiàng)放在關(guān)系表的同一列下,即為數(shù)據(jù)記錄生成關(guān)系模式。本文將每條數(shù)據(jù)記錄看為一棵樹,從而把數(shù)據(jù)記錄模式生成看為多序列對齊問題。首先給出了樹匹配的一種嚴(yán)格模式;然后采用簡單樹匹配(Simple Tree Matching,簡稱STM)算法得到兩棵樹的一個最大匹配,由于采用了視覺塊樹這種數(shù)據(jù)結(jié)構(gòu),能對STM進(jìn)行一些剪枝操作,可使算法復(fù)雜度由0(n2)幾乎降為線性;最后基于STM給出了模式生成算法。
【關(guān)鍵詞】:列表頁面 視覺塊樹 Deep Web數(shù)據(jù)抽取 樹匹配
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
- 摘要8-10
- ABSTRACT10-12
- 第1章 緒論12-18
- 1.1 研究背景及意義12-13
- 1.2 Deep Web數(shù)據(jù)抽取面臨的主要問題13-14
- 1.3 研究內(nèi)容及貢獻(xiàn)14-17
- 1.3.1 研究內(nèi)容14-16
- 1.3.2 本文貢獻(xiàn)16-17
- 1.4 論文組織結(jié)構(gòu)17-18
- 第2章 Deep Web數(shù)據(jù)抽取相關(guān)研究和技術(shù)18-28
- 2.1 引言18
- 2.2 Deep Web數(shù)據(jù)抽取方法分類18-23
- 2.2.1 手工實(shí)現(xiàn)的抽取方法19-20
- 2.2.2 半自動的抽取方法20-21
- 2.2.3 全自動的抽取方法21-23
- 2.3 Web相關(guān)技術(shù)23-24
- 2.4 視覺塊樹24-26
- 2.5 本章小結(jié)26-28
- 第3章 基于序列劃分策略的列表頁面數(shù)據(jù)記錄抽取28-45
- 3.1 引言28-29
- 3.2 挖掘數(shù)據(jù)區(qū)域29-33
- 3.3 數(shù)據(jù)記錄的抽取33-40
- 3.3.1 視覺塊相似性度量34-35
- 3.3.2 數(shù)據(jù)區(qū)域樹下的子樹聚類35-38
- 3.3.3 確定數(shù)據(jù)記錄38-40
- 3.4 實(shí)驗(yàn)40-44
- 3.4.1 數(shù)據(jù)集40
- 3.4.2 實(shí)驗(yàn)環(huán)境40
- 3.4.3 評價標(biāo)準(zhǔn)40-41
- 3.4.4 實(shí)驗(yàn)結(jié)果及分析41-44
- 3.5 小結(jié)44-45
- 第4章 基于樹匹配算法的數(shù)據(jù)項(xiàng)對齊45-57
- 4.1 引言45-46
- 4.2 數(shù)據(jù)記錄預(yù)處理46
- 4.3 樹匹配算法46-54
- 4.3.1 簡單樹匹配47-51
- 4.3.2 多重對齊51-54
- 4.4 實(shí)驗(yàn)54-56
- 4.5 小結(jié)56-57
- 第5章 總結(jié)與展望57-59
- 5.1 總結(jié)57-58
- 5.2 展望58-59
- 參考文獻(xiàn)59-64
- 致謝64-65
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄65-66
- 附件66
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張艷濱;余雁;;視覺信息的多維性探究[J];大眾文藝;2013年04期
2 張恒;劉艷麗;;基于視覺信息融合的駕駛員疲勞監(jiān)測方法綜述[J];信息技術(shù);2008年06期
3 李剛;;視覺信息傳遞的模糊性[J];美術(shù)大觀;2010年03期
4 壽天德;尹德輝;;關(guān)于圖形、圖像與腦對視覺信息的處理[J];臨沂師范學(xué)院學(xué)報;2010年01期
5 ;非電話類服務(wù)[J];視聽界;1991年03期
6 韓叢耀;;中華藝術(shù)視覺信息數(shù)據(jù)庫建設(shè)構(gòu)想(上)——視覺信息處理機(jī)制的建模及在視覺信息數(shù)據(jù)庫建設(shè)中的應(yīng)用[J];中國教育信息化;2009年17期
7 王苗輝;;基于視知覺的視覺信息界面設(shè)計(jì)研究[J];包裝工程;2011年08期
8 汪云九,邢靜;視覺信息加工的一些理論和模型[J];機(jī)器人;1987年03期
9 刁云程;“視覺信息加工”研究圓滿結(jié)束[J];中國科學(xué)基金;1994年01期
10 陳果;張武昕;高雋;;微小目標(biāo)的視覺信息獲取及系統(tǒng)設(shè)計(jì)[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2007年12期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 何蕓;杜誠;;21世紀(jì)的視覺信息技術(shù)[A];面向21世紀(jì)的科技進(jìn)步與社會經(jīng)濟(jì)發(fā)展(上冊)[C];1999年
2 翁強(qiáng);閆麗;翁偉生;;多維空間感知覺模型對視覺信息加工缺損的研究[A];第十一次中國生物物理學(xué)術(shù)大會暨第九屆全國會員代表大會摘要集[C];2009年
3 劉力;龔海韻;;果蠅蘑菇體對視覺信息的歸納作用[A];首屆中國神經(jīng)信息學(xué)討論會摘要[C];2000年
4 孫明;;視覺信息學(xué)的基本概念及其新技術(shù)在農(nóng)業(yè)中的應(yīng)用[A];中國農(nóng)業(yè)工程學(xué)會2011年學(xué)術(shù)年會論文集[C];2011年
5 王書榮;;視覺信息加工中的神經(jīng)元相互作用[A];第九次全國生物物理大會學(xué)術(shù)會議論文摘要集[C];2002年
6 蘇潤娥;吉國明;宋筆鋒;;人的視覺信息捕捉能力測試軟件[A];陜西省航空裝備制造技術(shù)發(fā)展——第九屆陜西省青年科學(xué)家論壇論文集[C];2006年
7 楊瑾;李瀟;王書榮;;家鴿背外側(cè)丘腦神經(jīng)元參與外側(cè)單眼視覺和環(huán)境亮度檢測[A];第九次全國生物物理大會學(xué)術(shù)會議論文摘要集[C];2002年
8 張春宇;張蔚;劉海鵬;于立平;王小捷;李睿凡;;基于視覺信息的漢語詞匯語義習(xí)得[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
9 唐克倫;張湘?zhèn)?成思源;熊漢偉;張洪;;視覺信息與CMM測量數(shù)據(jù)的融合[A];第十二屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2005年
10 李珊珊;于慶寶;馮士剛;鹿麒麟;唐一源;;視覺信息等級處理的雙腦協(xié)同性研究[A];大連理工大學(xué)生物醫(yī)學(xué)工程學(xué)術(shù)論文集(第2卷)[C];2005年
中國重要報紙全文數(shù)據(jù)庫 前2條
1 記者 班威;“家務(wù)機(jī)器人”能走能做家務(wù)[N];新華每日電訊;2010年
2 本報駐北京記者 李雪;北京心目影院 盲人的音畫世界[N];中國文化報;2014年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前7條
1 查正軍;基于機(jī)器學(xué)習(xí)方法的視覺信息標(biāo)注研究[D];中國科學(xué)技術(shù)大學(xué);2009年
2 祝博薈;基于深度與視覺信息融合的行人檢測與再識別研究[D];東華大學(xué);2013年
3 何立火;視覺信息質(zhì)量感知模型及評價方法研究[D];西安電子科技大學(xué);2013年
4 尹顯東;多維隨機(jī)序列敏感視覺信息隱藏技術(shù)研究[D];電子科技大學(xué);2007年
5 沈喬楠;堆石混凝土施工管理中視覺信息的處理方法及應(yīng)用研究[D];清華大學(xué);2010年
6 王蒙軍;唇讀發(fā)聲器中視覺信息的檢測與處理[D];天津大學(xué);2007年
7 劉震;基于局部視覺信息的大規(guī)模圖像檢索研究[D];中國科學(xué)技術(shù)大學(xué);2015年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王苗苗;聯(lián)合鋒電位和局部場電位的視覺信息整合特性研究[D];鄭州大學(xué);2015年
2 凡思武;基于視覺信息和樹匹配的Deep Web數(shù)據(jù)抽取問題的研究[D];山東大學(xué);2015年
3 彭凌玲;視覺信息的能量[D];吉林大學(xué);2005年
4 張e,
本文編號:1078527
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1078527.html