基于模式匹配的網頁凈化方法
發(fā)布時間:2017-08-06 16:05
本文關鍵詞:基于模式匹配的網頁凈化方法
【摘要】:新聞網頁主要由大量文字描述構成,相比網頁其他區(qū)域的噪音內容,其主題內容含有大段連貫的文字。根據這一特點提出一種基于模式匹配的網頁凈化方法,即在網頁源代碼中匹配最長文字字符串,從而準確定位主題內容源代碼在網頁源代碼中位置,實現(xiàn)網頁凈化。本方法可去除來自不同網站網頁的噪音內容,無需事先訓練數據集來生成模板,不需要生成網頁DOM樹。對同構、異構和不符合XML規(guī)范的網頁凈化,試驗證明效果理想且性能穩(wěn)定。
【作者單位】: 重慶師范大學傳媒學院/新媒體學院;重慶師范大學計算機與信息科學學院;
【關鍵詞】: 網頁噪音 網頁凈化 信息提取
【基金】:重慶市教育委員會高等教育教學改革項目(No.143031)
【分類號】:TP393.092;TP391.1
【正文快照】: 網絡資源大部分都是以網頁形式存在。搜索引擎、Web挖掘、知識發(fā)現(xiàn)等各種以網頁作為數據源的Web應用越來越多,這些Web應用關注的主要對象是網頁中的主題內容。但是網頁中還有很多與主題無關的內容,如導航欄、廣告連接、版權信息等,稱之為噪音內容。噪音內容給基于主題內容的We
【相似文獻】
中國重要會議論文全文數據庫 前2條
1 張子騫;石正坤;;用磷酸鈾酰氫(HUP)消除空氣中的氚[A];中國工程物理研究院科技年報(1998)[C];1998年
2 李月生;夏祥翔;羅平;李小定;;氯氣的危害及其凈化方法[A];第六屆全國工業(yè)催化技術及應用年會論文集[C];2009年
,本文編號:630486
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/630486.html
最近更新
教材專著