Web網(wǎng)頁去噪及信息提取算法的研究與應用
發(fā)布時間:2021-10-08 12:46
隨著互聯(lián)網(wǎng)的發(fā)展與普及,越來越多的人依賴于從網(wǎng)絡上獲取信息,但是為了維護商業(yè)利益和推廣的需要,網(wǎng)絡上充斥著大量的噪音信息,嚴重干擾了人們對信息的獲取,基于此本文提出了一種基于DOM (Document Object Model)樹的網(wǎng)頁信息提取方法。通過對常用的網(wǎng)頁去噪和信息提取方法進行分析發(fā)現(xiàn),某些基于DOM實現(xiàn)的網(wǎng)頁提取方法并不能判斷不含有超級鏈接的網(wǎng)頁噪音,而且不能處理正文分布在DIV標簽中的情況,去噪效果不理想。本文從以下幾個方面解決了上述問題:1.利用VIPS (Vision Based Page Segmentation)實現(xiàn)網(wǎng)頁內(nèi)容分塊,有效的劃分開了與網(wǎng)頁主題相關(guān)的信息塊和噪音信息塊。2.將所劃分得到的塊轉(zhuǎn)化為DOM樹形結(jié)構(gòu)。用VIPS方法劃分出來的每個內(nèi)容塊都是一個樹形結(jié)構(gòu),將網(wǎng)頁進行了更加細粒度的劃分。3.用遞歸方法對DOM樹中存在于標簽中的節(jié)點信息進行提取,有效的解決了主題信息存在于TABLE和DIV標簽中的問題。根據(jù)網(wǎng)頁標題與結(jié)點中詞共現(xiàn)頻率以及文本間的相似度實現(xiàn)網(wǎng)頁正文內(nèi)容的提取。在計算網(wǎng)頁標題與結(jié)點詞共現(xiàn)頻率時,將標題中的詞賦予較大的權(quán)重,文本中的節(jié)點詞賦予...
【文章來源】:安徽理工大學安徽省
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 國內(nèi)外研究現(xiàn)狀
1.3 存在問題
1.4 研究意義
1.5 論文結(jié)構(gòu)
2 常見的網(wǎng)頁去噪及信息提取技術(shù)
2.1 基于網(wǎng)頁分塊的網(wǎng)頁去噪模型
2.2 基于模板的網(wǎng)頁去噪方法
2.3 基于視覺模型的Web頁面信息提取算法
3 相關(guān)知識介紹
3.1 Web
3.2 XML
3.3 CSS
3.4 DOM
3.5 超級文本標記語言
3.6 Web數(shù)據(jù)挖掘技術(shù)
4 結(jié)構(gòu)模型
4.1 整體框架模型
4.1.1 Web信息提取和Web信息檢索
4.1.2 信息提取的整體框架
4.1.3 信息提取的結(jié)構(gòu)
4.2 待提取信息頁面的獲取
4.3 頁面分塊與凈化
4.4 關(guān)聯(lián)規(guī)則經(jīng)典算法分析
5 系統(tǒng)實現(xiàn)與分析
5.1 網(wǎng)頁去噪及信息提取過程
5.1.1 信息選取
5.1.2 網(wǎng)頁塊的劃分去噪
5.2 系統(tǒng)設計
5.2.1 性能評價指標
5.2.2 設計目標
5.2.3 系統(tǒng)運行環(huán)境及實現(xiàn)結(jié)果
6 總結(jié)與展望
參考文獻
致謝
作者簡介及讀研期間主要科研成果
【參考文獻】:
期刊論文
[1]Lanczos雙對角算法在文本挖掘當中的應用[J]. 范偉鵬. 信息技術(shù). 2012(12)
[2]基于社會網(wǎng)絡分析的多屬性關(guān)聯(lián)規(guī)則挖掘方法[J]. 李永立,吳沖,劉一丹,孫紀舟. 情報學報. 2012 (08)
[3]Web數(shù)據(jù)挖掘中數(shù)據(jù)異構(gòu)問題解決方法的研究[J]. 李春梅,李艾丹,薛中玉,韓爽. 中國科技資源導刊. 2012 (04)
[4]面向Web信息檢索的虛核文本分類算法[J]. 李靜,楊小帆,孫啟干. 計算機工程. 2012(10)
[5]一種適用于機器翻譯的漢語分詞方法[J]. 奚寧,李博淵,黃書劍,陳家駿. 中文信息學報. 2012(03)
[6]一種基于海量信息處理的云存儲模型研究[J]. 張桂剛,李超,張勇,邢春曉. 計算機研究與發(fā)展. 2012(S1)
[7]基于DTD/DOM的XML技術(shù)的應用研究[J]. 陳煥英,李冰. 河南城建學院學報. 2012(01)
[8]比較分析XML與HTML[J]. 曹風華. 電腦與信息技術(shù). 2011(04)
[9]基于云模型的文本特征自動提取算法[J]. 代勁,何中市,胡峰. 中南大學學報(自然科學版). 2011(03)
[10]基于模板的網(wǎng)頁主題信息抽取模型[J]. 黃榮. 科技信息. 2011(04)
碩士論文
[1]基于樹形結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)抽取模式研究及應用[D]. 高永勝.大連理工大學 2011
[2]互聯(lián)網(wǎng)中的海量用戶行為挖掘算法研究[D]. 周津.中國科學技術(shù)大學 2011
[3]基于JAVA/XML的分布式數(shù)據(jù)同步系統(tǒng)的設計和實現(xiàn)[D]. 徐瑞雪.大連海事大學 2011
[4]文本自動標引方法研究與實現(xiàn)[D]. 馬娟.西南交通大學 2009
[5]基于DOM的網(wǎng)頁凈化方法研究[D]. 徐超.中國石油大學 2009
[6]垂直搜索引擎中的網(wǎng)頁對象抽取模型及實現(xiàn)技術(shù)研究[D]. 王實.湖南大學 2009
本文編號:3424189
【文章來源】:安徽理工大學安徽省
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 國內(nèi)外研究現(xiàn)狀
1.3 存在問題
1.4 研究意義
1.5 論文結(jié)構(gòu)
2 常見的網(wǎng)頁去噪及信息提取技術(shù)
2.1 基于網(wǎng)頁分塊的網(wǎng)頁去噪模型
2.2 基于模板的網(wǎng)頁去噪方法
2.3 基于視覺模型的Web頁面信息提取算法
3 相關(guān)知識介紹
3.1 Web
3.2 XML
3.3 CSS
3.4 DOM
3.5 超級文本標記語言
3.6 Web數(shù)據(jù)挖掘技術(shù)
4 結(jié)構(gòu)模型
4.1 整體框架模型
4.1.1 Web信息提取和Web信息檢索
4.1.2 信息提取的整體框架
4.1.3 信息提取的結(jié)構(gòu)
4.2 待提取信息頁面的獲取
4.3 頁面分塊與凈化
4.4 關(guān)聯(lián)規(guī)則經(jīng)典算法分析
5 系統(tǒng)實現(xiàn)與分析
5.1 網(wǎng)頁去噪及信息提取過程
5.1.1 信息選取
5.1.2 網(wǎng)頁塊的劃分去噪
5.2 系統(tǒng)設計
5.2.1 性能評價指標
5.2.2 設計目標
5.2.3 系統(tǒng)運行環(huán)境及實現(xiàn)結(jié)果
6 總結(jié)與展望
參考文獻
致謝
作者簡介及讀研期間主要科研成果
【參考文獻】:
期刊論文
[1]Lanczos雙對角算法在文本挖掘當中的應用[J]. 范偉鵬. 信息技術(shù). 2012(12)
[2]基于社會網(wǎng)絡分析的多屬性關(guān)聯(lián)規(guī)則挖掘方法[J]. 李永立,吳沖,劉一丹,孫紀舟. 情報學報. 2012 (08)
[3]Web數(shù)據(jù)挖掘中數(shù)據(jù)異構(gòu)問題解決方法的研究[J]. 李春梅,李艾丹,薛中玉,韓爽. 中國科技資源導刊. 2012 (04)
[4]面向Web信息檢索的虛核文本分類算法[J]. 李靜,楊小帆,孫啟干. 計算機工程. 2012(10)
[5]一種適用于機器翻譯的漢語分詞方法[J]. 奚寧,李博淵,黃書劍,陳家駿. 中文信息學報. 2012(03)
[6]一種基于海量信息處理的云存儲模型研究[J]. 張桂剛,李超,張勇,邢春曉. 計算機研究與發(fā)展. 2012(S1)
[7]基于DTD/DOM的XML技術(shù)的應用研究[J]. 陳煥英,李冰. 河南城建學院學報. 2012(01)
[8]比較分析XML與HTML[J]. 曹風華. 電腦與信息技術(shù). 2011(04)
[9]基于云模型的文本特征自動提取算法[J]. 代勁,何中市,胡峰. 中南大學學報(自然科學版). 2011(03)
[10]基于模板的網(wǎng)頁主題信息抽取模型[J]. 黃榮. 科技信息. 2011(04)
碩士論文
[1]基于樹形結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)抽取模式研究及應用[D]. 高永勝.大連理工大學 2011
[2]互聯(lián)網(wǎng)中的海量用戶行為挖掘算法研究[D]. 周津.中國科學技術(shù)大學 2011
[3]基于JAVA/XML的分布式數(shù)據(jù)同步系統(tǒng)的設計和實現(xiàn)[D]. 徐瑞雪.大連海事大學 2011
[4]文本自動標引方法研究與實現(xiàn)[D]. 馬娟.西南交通大學 2009
[5]基于DOM的網(wǎng)頁凈化方法研究[D]. 徐超.中國石油大學 2009
[6]垂直搜索引擎中的網(wǎng)頁對象抽取模型及實現(xiàn)技術(shù)研究[D]. 王實.湖南大學 2009
本文編號:3424189
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3424189.html
最近更新
教材專著