天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

精確web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-10-15 11:32

  本文關(guān)鍵詞:精確web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)


  更多相關(guān)文章: Web信息抽取 網(wǎng)絡(luò)爬蟲 XPath 信息檢索


【摘要】:Web信息已經(jīng)成為各領(lǐng)域最具潛力和價(jià)值的巨大信息來源,當(dāng)前的一些研究和應(yīng)用,如推薦系統(tǒng)、觀點(diǎn)挖掘與分析、數(shù)據(jù)融合和集成系統(tǒng)等都是基于結(jié)構(gòu)化的Web數(shù)據(jù)。面對(duì)海量的繁雜的Web信息,如何從中快速有效地查找和獲取所需的信息來用作進(jìn)一步的挖掘,獲取更多的潛在價(jià)值是一個(gè)具有挑戰(zhàn)性的技術(shù)難題,也是一個(gè)非常有研究意義和實(shí)用意義的課題。精確Web信息抽取的研究正是為滿足這些需求而出現(xiàn)的熱點(diǎn)研究領(lǐng)域。所謂Web信息抽取是指從半結(jié)構(gòu)化或無結(jié)構(gòu)化的Web頁面中準(zhǔn)確的抽取數(shù)據(jù),轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)以進(jìn)行挖掘和利用的過程。 本文的內(nèi)容主要包括:分析比較當(dāng)前的信息抽取研究方法及抽取模型,對(duì)各類站點(diǎn)的網(wǎng)頁特點(diǎn)進(jìn)行研究;研究抽取模版及利用基于用戶交互的抽取規(guī)則生成方法,設(shè)計(jì)了幾類網(wǎng)頁抽取元素和導(dǎo)航元素,元素的定位與識(shí)別主要采用基于XPath的方式;設(shè)計(jì)并開發(fā)實(shí)現(xiàn)該信息抽取系統(tǒng),具體的開發(fā)采用Qt開發(fā)框架、Python和JavaScript技術(shù),實(shí)現(xiàn)的抽取系統(tǒng)提供一個(gè)Webkit瀏覽器引擎用于網(wǎng)頁渲染和Ajax動(dòng)態(tài)內(nèi)容加載及用戶的瀏覽交互。 實(shí)驗(yàn)結(jié)果證明本文研究實(shí)現(xiàn)的精確Web信息抽取系統(tǒng)能滿足目前各類站點(diǎn)精確Web信息抽取的需求,如新聞?lì)、電商類、微博類等站點(diǎn)的Web信息抽取,抽取結(jié)果數(shù)據(jù)能保存為各種結(jié)構(gòu)化的數(shù)據(jù)格式(數(shù)據(jù)庫、Excel、格式文本文件),并且該系統(tǒng)的信息抽取的效率和精確性能達(dá)到較好的效果。
【關(guān)鍵詞】:Web信息抽取 網(wǎng)絡(luò)爬蟲 XPath 信息檢索
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092
【目錄】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 緒論9-14
  • 1.1 研究背景與意義9-10
  • 1.2 國內(nèi)外研究現(xiàn)狀10-12
  • 1.3 研究內(nèi)容12-13
  • 1.4 本文組織結(jié)構(gòu)安排13-14
  • 第二章 相關(guān)概念、理論與關(guān)鍵技術(shù)14-22
  • 2.1 信息抽取相關(guān)概念14-17
  • 2.1.1 HTML & DOM14-15
  • 2.1.2 XML & XPath15-16
  • 2.1.3 正則表達(dá)式16-17
  • 2.2 爬蟲技術(shù)17-18
  • 2.3 頁面渲染引擎18-19
  • 2.4 信息檢索模型19-21
  • 2.4.1 布爾模型20
  • 2.4.2 向量空間模型20-21
  • 2.5 本章小結(jié)21-22
  • 第三章 精確WEB信息抽取系統(tǒng)的研究22-31
  • 3.1 精確WEB信息抽取模型22-23
  • 3.2 抽取規(guī)則與基于XML的抽取模版生成23-26
  • 3.2.1 基于用戶交互的抽取信息定義及規(guī)則生成24
  • 3.2.2 模版引擎與抽取模版生成24-26
  • 3.3 抽取字段元素和導(dǎo)航元素類型研究26-28
  • 3.4 網(wǎng)頁瀏覽導(dǎo)航模型28-29
  • 3.5 網(wǎng)頁元素識(shí)別29-30
  • 3.6 本章小結(jié)30-31
  • 第四章 精確WEB信息抽取系統(tǒng)的設(shè)計(jì)31-42
  • 4.1 系統(tǒng)設(shè)計(jì)目標(biāo)31
  • 4.2 系統(tǒng)總體設(shè)計(jì)31-34
  • 4.2.1 系統(tǒng)處理流程31-33
  • 4.2.2 總體架構(gòu)和模塊設(shè)計(jì)33-34
  • 4.3 系統(tǒng)各功能模塊的設(shè)計(jì)34-35
  • 4.3.1 網(wǎng)頁數(shù)據(jù)識(shí)別與標(biāo)注模塊34
  • 4.3.2 抽取規(guī)則與模版生成模塊34
  • 4.3.3 抽取任務(wù)運(yùn)行模塊34-35
  • 4.3.4 數(shù)據(jù)集成模塊35
  • 4.4 元素與導(dǎo)航類型設(shè)計(jì)35-38
  • 4.4.1 網(wǎng)頁抽取元素類型35-37
  • 4.4.2 導(dǎo)航元素類型37-38
  • 4.5 數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)38-40
  • 4.6 接口設(shè)計(jì)40
  • 4.7 系統(tǒng)主界面的設(shè)計(jì)40-41
  • 4.8 本章小結(jié)41-42
  • 第五章 精確WEB信息抽取系統(tǒng)的實(shí)現(xiàn)42-55
  • 5.1 開發(fā)技術(shù)選型43
  • 5.2 網(wǎng)頁數(shù)據(jù)識(shí)別與標(biāo)注模塊的實(shí)現(xiàn)43-48
  • 5.3 抽取模版生成模塊的實(shí)現(xiàn)48-51
  • 5.3.1 抽取模版的定義48-50
  • 5.3.2 抽取模版文件的生成50-51
  • 5.4 抽取任務(wù)運(yùn)行模塊的實(shí)現(xiàn)51-53
  • 5.5 數(shù)據(jù)集成模塊的實(shí)現(xiàn)53-54
  • 5.6 本章小結(jié)54-55
  • 第六章 實(shí)驗(yàn)結(jié)果分析55-59
  • 6.1 實(shí)驗(yàn)環(huán)境55
  • 6.2 評(píng)估方法及實(shí)驗(yàn)結(jié)果55-58
  • 6.2.1 評(píng)估方法55-56
  • 6.2.2 Web信息抽取系統(tǒng)實(shí)驗(yàn)56-58
  • 6.3 結(jié)果分析58
  • 6.4 本章小結(jié)58-59
  • 第七章 總結(jié)與展望59-61
  • 7.1 論文工作總結(jié)59-60
  • 7.2 展望60-61
  • 參考文獻(xiàn)61-63
  • 致謝63-64
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄64

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前8條

1 李廣建;喬建忠;;全自動(dòng)生成網(wǎng)頁信息抽取包裝器的主要技術(shù)方法研究[J];情報(bào)理論與實(shí)踐;2010年01期

2 李霞;蔣盛益;;基于DOM樹及行文本統(tǒng)計(jì)去噪的網(wǎng)頁文本抽取技術(shù)[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2012年03期

3 蔡李;單艷;薛化建;蘇國平;;維吾爾文網(wǎng)頁正文抽取系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年02期

4 趙宏亮;楊鶴標(biāo);;面向領(lǐng)域的語義搜索引擎的應(yīng)用研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年05期

5 呂國英;馮艷;李茹;;基于CFN的教材內(nèi)容提要信息抽取研究[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期

6 魏瑞斌;;基于微軟學(xué)術(shù)搜索的信息檢索研究的文獻(xiàn)計(jì)量分析[J];圖書情報(bào)工作;2012年20期

7 沈靖喃;黃雪丹;杜妮香;何建鋒;;畜牧養(yǎng)殖培訓(xùn)系統(tǒng)設(shè)計(jì)與開發(fā)——以生豬養(yǎng)殖技術(shù)培訓(xùn)系統(tǒng)為例[J];軟件導(dǎo)刊;2014年08期

8 陳朝;;面向雙維度標(biāo)簽語義聚合在Folksonomy導(dǎo)航架構(gòu)研究[J];圖書館學(xué)研究;2015年13期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前5條

1 王雅莉;古麗拉·阿東別克;;哈薩克語通用詞匯自動(dòng)提取方法研究與實(shí)現(xiàn)[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

2 陳志峰;朱巧明;;面向課程教學(xué)的中文問答系統(tǒng)研究[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

3 丁凡;王斌;白碩;劉宜軒;李亞楠;;文本檢索中句法信息的有效利用研究[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

4 呂國英;馮艷;李茹;;基于中文框架語義的信息抽取研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

5 林建方;李生;鄭德權(quán);;基于詞語搭配關(guān)系的查詢擴(kuò)展方法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 劉朝濤;中文問答系統(tǒng)中的句型理論及其應(yīng)用研究[D];重慶大學(xué);2010年

2 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年

3 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學(xué);2007年

4 王樹梅;信息檢索相關(guān)技術(shù)研究[D];南京理工大學(xué);2007年

5 譚紅葉;中文事件抽取關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2008年

6 何慧;WEB文本挖掘中關(guān)鍵問題的研究[D];北京郵電大學(xué);2009年

7 茹昭;企業(yè)信息檢索中的對(duì)象檢索方法研究[D];北京郵電大學(xué);2008年

8 陳圣兵;基于商空間理論的海量信息檢索模型的研究[D];安徽大學(xué);2010年

9 何川;分布式信息檢索中的若干重要問題研究[D];北京郵電大學(xué);2012年

10 王桂紅;農(nóng)產(chǎn)品市場(chǎng)價(jià)格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 孫嶺;一種基于前綴表達(dá)式的Web信息抽取方法的關(guān)鍵問題的實(shí)現(xiàn)[D];山東科技大學(xué);2010年

2 齊保元;知識(shí)文檔的語義檢索方法研究與實(shí)現(xiàn)[D];首都師范大學(xué);2011年

3 李亞洲;文本分類語料庫自動(dòng)構(gòu)建系統(tǒng)的研究與改進(jìn)[D];武漢理工大學(xué);2011年

4 盧承山;基于領(lǐng)域的主題信息采集技術(shù)研究[D];武漢理工大學(xué);2011年

5 田鶴楠;質(zhì)檢總局輿情監(jiān)控系統(tǒng)中信息抽取的研究[D];北京郵電大學(xué);2011年

6 祝美蓮;半結(jié)構(gòu)化網(wǎng)頁的信息抽取技術(shù)研究[D];中國石油大學(xué);2011年

7 鄧飛;基于本體的查詢擴(kuò)展研究[D];遼寧科技大學(xué);2011年

8 盧振;面向教育新聞的主題爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年

9 于鵬;基于自然語言打印機(jī)人機(jī)交互方法研究與實(shí)現(xiàn)[D];大連理工大學(xué);2011年

10 白宇;中文問答系統(tǒng)中多策略答案抽取技術(shù)的研究[D];沈陽航空工業(yè)學(xué)院;2008年

,

本文編號(hào):1036886

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1036886.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2c1da***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com