輿情系統(tǒng)中web信息抽取子系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間：2021-08-22 08:46

　　網(wǎng)絡(luò)輿情反映了廣大民眾對各種事件的態(tài)度，是國家相關(guān)部門了解民意的重要渠道。Web信息抽取是輿情系統(tǒng)進行輿情信息分析的輸入，它性能的好壞直接影響了輿情信息的來源及判斷。隨著互聯(lián)網(wǎng)的快速發(fā)展，網(wǎng)頁形式越來越多，為了快速準確地獲取輿情信息，輿情系統(tǒng)對Web信息抽取提出了越來越高的要求。本文正是針對上述問題提出解決方案，以Web信息抽取技術(shù)為研究對象，針對當前各種網(wǎng)頁形式進行深入分析，并且結(jié)合輿情信息處理要求，針對新聞、博客、論壇及微博四種不同類型的輿情信息來源網(wǎng)頁，提出不同的抽取方法。主要研究內(nèi)容有：1.研究新聞博客類網(wǎng)頁信息抽取技術(shù)，采用通用網(wǎng)頁正文提取技術(shù)，對新聞博客類網(wǎng)頁正文進行抽取，并利用正則表達式提取其他數(shù)據(jù)項，該方法不依賴于網(wǎng)頁結(jié)構(gòu)，抽取速度快，準確度高，通用性好。2.研究網(wǎng)頁聚類方法，提出一種基于網(wǎng)頁結(jié)構(gòu)的聚類方法。該方法結(jié)合論壇類網(wǎng)頁標簽特性，由于每個標簽節(jié)點因?qū)哟尾煌瑢W(wǎng)頁結(jié)構(gòu)相似性影響不同，對每個節(jié)點賦予權(quán)值，采用加權(quán)余弦相似性公式計算兩棵網(wǎng)頁標簽樹的相似性。該方法有很好的聚類效果，時間復雜度為O（n）。3.研究基于網(wǎng)頁結(jié)構(gòu)相似性比較的Web信息自動抽取技術(shù)，提出一種論壇...

【文章來源】：電子科技大學四川省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：103 頁

【學位級別】：碩士

【文章目錄】：
摘要
ABSTRACT
第一章緒論
    1.1 選題背景與研究意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 本文研究內(nèi)容與組織結(jié)構(gòu)
第二章相關(guān)技術(shù)基礎(chǔ)
    2.1 網(wǎng)絡(luò)爬蟲
    2.2 HTML 標簽樹
    2.3 XML 簡介
    2.4 通用網(wǎng)頁正文提取技術(shù)
    2.5 網(wǎng)頁聚類
        2.5.1 相似性計算
            2.5.1.1 加權(quán)余弦相似性
            2.5.1.2 樹編輯距離
        2.5.2 網(wǎng)頁聚類技術(shù)
    2.6 信息熵
    2.7 正則表達式
    2.8 本章小結(jié)
第三章系統(tǒng)中關(guān)鍵技術(shù)的實現(xiàn)
    3.1 網(wǎng)頁聚類方法
    3.2 自動生成模板
        3.2.1 模板表示
        3.2.2 模板生成流程
            3.2.2.1 自動下載網(wǎng)頁
            3.2.2.2 生成 HTML 標簽樹
            3.2.2.3 數(shù)據(jù)區(qū)域確定
            3.2.2.4 數(shù)據(jù)項路徑確定
            3.2.2.5 存儲匹配模板
    3.3 本章小結(jié)
第四章輿情系統(tǒng)中 Web 信息抽取子系統(tǒng)總體設(shè)計
    4.1 輿情系統(tǒng)簡介
        4.1.1 總體處理流程
        4.1.2 總體結(jié)構(gòu)
        4.1.3 開發(fā)環(huán)境
    4.2 Web 信息抽取子系統(tǒng)總體設(shè)計
        4.2.1 Web 信息抽取總體結(jié)構(gòu)設(shè)計
        4.2.2 Web 信息抽取流程
        4.2.3 數(shù)據(jù)庫設(shè)計
    4.3 本章小結(jié)
第五章 Web 信息抽取子系統(tǒng)功能模塊設(shè)計與實現(xiàn)
    5.1 URL 分類
        5.1.1 URL 獲取
        5.1.2 URL 分類
    5.2 新聞博客類抽取
        5.2.1 通用行塊分布函數(shù)實現(xiàn)
        5.2.2 其他數(shù)據(jù)項抽取
            5.2.2.1 發(fā)布時間
            5.2.2.2 標題
    5.3 論壇類抽取
        5.3.1 論壇抽取整體流程
        5.3.2 模板優(yōu)化
    5.4 微博類抽取
        5.4.1 微博抽取整體流程
        5.4.2 微博模擬自動登錄
        5.4.3 微博數(shù)據(jù)項抽取
    5.5 數(shù)據(jù)庫實現(xiàn)
    5.6 本章小結(jié)
第六章測試與分析
    6.1 網(wǎng)頁聚類測試
    6.2 Web 信息抽取實驗結(jié)果
    6.3 Web 信息抽取評價標準
    6.4 本章小結(jié)
第七章總結(jié)與展望
    7.1 總結(jié)
    7.2 展望
致謝
參考文獻
攻碩期間取得的研究成果

【參考文獻】：
期刊論文
[1]新浪微博數(shù)據(jù)挖掘方案[J]. 廉捷,周欣,曹偉,劉云.  清華大學學報(自然科學版). 2011(10)
[2]基于網(wǎng)頁聚類的Web信息自動抽取[J]. 邱韜奮,楊天奇,曾洪波.  微型機與應(yīng)用. 2011(04)
[3]網(wǎng)頁信息自動抽取技術(shù)的研究[J]. 胡少榮,孟嗣儀,劉云,張彥超,丁飛.  鐵路計算機應(yīng)用. 2010(09)
[4]基于自動生成模板的Web信息抽取技術(shù)[J]. 張彥超,劉云,李勇,沈波.  北京交通大學學報. 2009(05)
[5]基于統(tǒng)計與正文特征的中文網(wǎng)頁正文抽取研究[J]. 周佳穎,朱珍民,高曉芳.  中文信息學報. 2009(05)
[6]一種基于模板的快速網(wǎng)頁文本自動抽取算法[J]. 陳治昂,周知予,李大學.  計算機應(yīng)用研究. 2009(07)
[7]基于網(wǎng)頁格式信息量的博客文章和評論抽取模型[J]. 曹冬林,廖祥文,許洪波,白碩.  軟件學報. 2009(05)
[8]基于模板的Web信息自動提取方法[J]. 鄭長松,傅彥,佘莉.  計算機應(yīng)用研究. 2009(02)
[9]有效HTML文本信息抽取方法的研究[J]. 韓忠明,李文正,莫倩.  計算機應(yīng)用研究. 2008(12)
[10]基于XML的自動學習Web信息抽取[J]. 冀高峰,湯庸,道煒,吳桂賓,黃帆,王鵬.  計算機科學. 2008(03)

碩士論文
[1]基于聚類算法的Web信息抽取技術(shù)研究[D]. 邱韜奮.暨南大學 2011
[2]Web信息自動抽取技術(shù)研究[D]. 賴春波.浙江大學 2008
[3]基于XML的Web信息抽取研究[D]. 盧睿.大連海事大學 2005
[4]半結(jié)構(gòu)化Web信息抽取技術(shù)及其應(yīng)用研究[D]. 董樹明.東南大學 2004

本文編號：3357419

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/guanlilunwen/ydhl/3357419.html

上一篇：網(wǎng)絡(luò)安全技術(shù)在氣象信息系統(tǒng)中的應(yīng)用研究
下一篇：云計算背景下的數(shù)據(jù)安全問題及防范策略探析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

輿情系統(tǒng)中web信息抽取子系統(tǒng)的設(shè)計與實現(xiàn)