天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于重復(fù)模式的Web數(shù)據(jù)抽取與集成應(yīng)用

發(fā)布時(shí)間:2020-01-17 18:13
【摘要】:信息時(shí)代,Internet已經(jīng)成為人們獲取信息的重要途徑,而基于關(guān)鍵字檢索的Internet搜索引擎又是人們從互聯(lián)網(wǎng)上查找信息的主要方法。從互聯(lián)網(wǎng)獲取信息的主要局限性在于,在互聯(lián)網(wǎng)海量的Web頁(yè)面中很難定位特定的知識(shí);而搜索引擎又很容易將所需知識(shí)淹沒(méi)在大量的低相關(guān)度,甚至無(wú)關(guān)網(wǎng)頁(yè)中。另一方面隨著信息技術(shù)的進(jìn)步和人們的實(shí)際需要,涌現(xiàn)出了一些全新的基于Web的應(yīng)用,例如監(jiān)控股票市場(chǎng)的實(shí)時(shí)行情、各個(gè)電子商務(wù)網(wǎng)站的商品價(jià)格比較等等。僅憑傳統(tǒng)搜索引擎技術(shù)和Web查詢技術(shù)無(wú)法真正滿足這些新興的需求。與信息檢索技術(shù)不同的是,數(shù)據(jù)抽取技術(shù)更側(cè)重于從Web文檔集合中發(fā)現(xiàn)相關(guān)聯(lián)的文檔,并從中抽取出用戶感興趣的信息,即將HTML等半結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換成為結(jié)構(gòu)化的數(shù)據(jù)。 Web數(shù)據(jù)庫(kù)的廣泛使用使得大量高質(zhì)量的信息無(wú)法被傳統(tǒng)的搜索引擎索搜索到。這種基于數(shù)據(jù)庫(kù)的應(yīng)用被稱之為Deep Web。Web數(shù)據(jù)庫(kù)依據(jù)用戶特定的查詢要求或條件動(dòng)態(tài)的生成Web頁(yè)而,即查詢相關(guān)Web頁(yè)面中的數(shù)據(jù)記錄之間具有極高的代碼結(jié)構(gòu)相似性,也就是說(shuō)Web數(shù)據(jù)記錄對(duì)應(yīng)的DOM子樹之間自然也就具有很高的結(jié)構(gòu)相似性。 本文從分析Web文檔與DOM樹的對(duì)應(yīng)關(guān)系入手,提出了一種基于重復(fù)模式的高效Web自動(dòng)抽取算法——DES算法,同時(shí)利用集成工具ODI進(jìn)行數(shù)據(jù)集成,獲得可以直接被其它的應(yīng)用程序利用結(jié)構(gòu)化數(shù)據(jù),進(jìn)一步完成信息檢索、數(shù)據(jù)挖掘、機(jī)器翻譯、文本摘要等后續(xù)Web信息處理。HTML對(duì)應(yīng)的DOM樹是該方法的Web數(shù)據(jù)結(jié)構(gòu)化和分析抽取的基礎(chǔ)。該抽取算法首先通過(guò)比較同一模板的兩個(gè)樣本網(wǎng)頁(yè)的內(nèi)容相似度,對(duì)DOM樹進(jìn)行裁剪,準(zhǔn)確定位待抽取數(shù)據(jù)區(qū)域;其次通過(guò)TOP-DOWN樹匹配算法進(jìn)行樹的結(jié)構(gòu)相似件比較,發(fā)掘數(shù)據(jù)區(qū)域中多條數(shù)據(jù)記錄的重復(fù)模式,得出數(shù)據(jù)記錄的粒度,進(jìn)而生成抽取規(guī)則。從而實(shí)現(xiàn)對(duì)DOM樹中的數(shù)據(jù)記錄的發(fā)現(xiàn)及抽取。 最后論文應(yīng)川基于相似性比較的方法對(duì)原型系統(tǒng)進(jìn)行了實(shí)現(xiàn)。實(shí)驗(yàn)表明,該算法對(duì)于各類動(dòng)態(tài)Web網(wǎng)頁(yè)的信息抽取有著很好的效果。
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP393.09

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 趙麗娜;周吉順;;基于WEB的高校網(wǎng)上選課系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2011年18期

2 米新英;;基于Web的通用商品報(bào)價(jià)系統(tǒng)的研究與實(shí)現(xiàn)[J];北華航天工業(yè)學(xué)院學(xué)報(bào);2011年03期

3 朱啟英;李明霞;穆玉明;張?jiān)疵?;基于WEB的考試系統(tǒng)在醫(yī)學(xué)遠(yuǎn)程教育中的應(yīng)用[J];中國(guó)高等醫(yī)學(xué)教育;2011年06期

4 段靜波;潘惠蘋;;基于WEB的學(xué)院教務(wù)管理系統(tǒng)設(shè)計(jì)與應(yīng)用[J];電腦知識(shí)與技術(shù);2011年17期

5 范毅君;馬永威;;淺談門戶網(wǎng)站的設(shè)計(jì)與在油田中的應(yīng)用[J];中國(guó)石油和化工標(biāo)準(zhǔn)與質(zhì)量;2011年07期

6 潘生;;基于WEB的人力資源管理專業(yè)親驗(yàn)式教學(xué)資源庫(kù)系統(tǒng)設(shè)計(jì)[J];電腦知識(shí)與技術(shù);2011年23期

7 杜婷;陶克斌;夏勤;;基于Web的無(wú)刷新即時(shí)通訊設(shè)計(jì)與實(shí)現(xiàn)[J];重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年04期

8 王玉華;;Unix平臺(tái)下的數(shù)據(jù)庫(kù)查詢開發(fā)工具(Web-DTools)的設(shè)計(jì)與實(shí)現(xiàn)[J];信息與電腦(理論版);2011年06期

9 張愛(ài)軍;;電子商務(wù)技術(shù)的創(chuàng)新發(fā)展趨勢(shì)[J];電腦知識(shí)與技術(shù);2011年26期

10 鐘壽福;吳偉信;;中學(xué)研究性學(xué)習(xí)網(wǎng)絡(luò)支撐平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J];福建電腦;2011年07期

相關(guān)會(huì)議論文 前10條

1 石晶;龔震宇;裘杭萍;;基于Web挖掘的個(gè)性化服務(wù)技術(shù)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

2 李利波;劉明利;;一種改進(jìn)的無(wú)回溯反向Web服務(wù)動(dòng)態(tài)組合方法[A];2011年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2011年

3 游爭(zhēng)光;劉建勛;唐明董;;分布式Web服務(wù)測(cè)試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年

4 殷華蓓;李通;唐常杰;張?zhí)鞈c;左志松;;從Web文件中挖掘個(gè)性化導(dǎo)航知識(shí)[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年

5 ;基于廣義對(duì)話的Web用戶的聚類(英文)[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年

6 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

8 王海燕;谷明哲;王靜;孟小峰;;基于預(yù)定義模式的Web信息抽取[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

9 胡建強(qiáng);周斌;尹剛;鄒鵬;;基于角色的Web服務(wù)訪問(wèn)控制技術(shù)研究[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年

10 黃建波;丁揚(yáng);方芳;;基于代理服務(wù)器的Web加速的實(shí)現(xiàn)[A];2010通信理論與技術(shù)新發(fā)展——第十五屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2010年

相關(guān)重要報(bào)紙文章 前10條

1 趙曉濤;Web安全 服務(wù)為王[N];網(wǎng)絡(luò)世界;2008年

2 本報(bào)特約撰稿 張娟;用Web 2.0提升知識(shí)管理效率[N];計(jì)算機(jī)世界;2008年

3 厲民;金融風(fēng)暴沖擊Web2.0產(chǎn)業(yè)[N];人民郵電;2008年

4 電腦商報(bào)記者 周雪;Web安全市場(chǎng)須冷卻慎行[N];電腦商報(bào);2008年

5 郭川;Web2.0:新花樣層出不窮[N];人民郵電;2008年

6 本報(bào)記者 趙曉濤;Web安全:歷史的命題[N];網(wǎng)絡(luò)世界;2008年

7 本報(bào)記者 李飛虎;Web 2.0[N];中國(guó)計(jì)算機(jī)報(bào);2008年

8 彭敏;企業(yè)級(jí)Web2.0迎來(lái)應(yīng)用高潮[N];電腦商報(bào);2009年

9 商報(bào)記者 吳辰光;Web2.0凸顯空洞概念[N];北京商報(bào);2009年

10 本報(bào)記者 毛江華;安啟華聯(lián)手賽門鐵克 掘金Web安全[N];計(jì)算機(jī)世界;2009年

相關(guān)博士學(xué)位論文 前10條

1 丁艷輝;面向Web數(shù)據(jù)集成的數(shù)據(jù)抽取問(wèn)題研究[D];山東大學(xué);2010年

2 聶鐵錚;Deep Web中Web數(shù)據(jù)庫(kù)集成關(guān)鍵技術(shù)的研究[D];東北大學(xué);2009年

3 張建武;面向Web應(yīng)用的安全評(píng)測(cè)技術(shù)研究[D];北京郵電大學(xué);2012年

4 朱俊武;基于本體的Web服務(wù)語(yǔ)義支撐技術(shù)研究[D];南京航空航天大學(xué);2008年

5 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年

6 魏登萍;語(yǔ)義Web服務(wù)發(fā)現(xiàn)中匹配策略的研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

7 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年

8 楊卉;Web文本觀點(diǎn)挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年

9 馬建斌;中文Web信息作者同一認(rèn)定技術(shù)研究[D];河北農(nóng)業(yè)大學(xué);2010年

10 陳世展;服務(wù)網(wǎng)絡(luò):基于語(yǔ)義和社會(huì)化關(guān)系的Web服務(wù)計(jì)算基礎(chǔ)設(shè)施[D];天津大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 徐晴;Web數(shù)據(jù)抽取技術(shù)及應(yīng)用[D];華東理工大學(xué);2012年

2 吳俊霖;基于半自動(dòng)化WEB數(shù)據(jù)抽取器的信息集成研究[D];西南大學(xué);2010年

3 唐黎;Deep Web頁(yè)面結(jié)構(gòu)分析與核心內(nèi)容提取研究[D];重慶大學(xué);2011年

4 吳新勇;基于需求群組的Web服務(wù)調(diào)度模型研究[D];上海交通大學(xué);2011年

5 徐衛(wèi);Web新聞熱點(diǎn)發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年

6 姜本臣;基于嵌入式Web服務(wù)器應(yīng)用技術(shù)的研究[D];沈陽(yáng)工業(yè)大學(xué);2012年

7 溫梨梨;基于零拷貝的Web服務(wù)器技術(shù)研究[D];中國(guó)海洋大學(xué);2011年

8 焦燕廷;一種基于領(lǐng)域本體的語(yǔ)義Web服務(wù)匹配和組合方法[D];山東科技大學(xué);2011年

9 黃亮;Web漏洞掃描系統(tǒng)中的智能爬蟲技術(shù)研究[D];杭州電子科技大學(xué);2012年

10 陳洪平;面向Deep Web的數(shù)據(jù)抽取與語(yǔ)義標(biāo)注技術(shù)研究[D];蘇州大學(xué);2010年

,

本文編號(hào):2570704

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2570704.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶09390***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com