基于節(jié)點類型標注的網(wǎng)頁主題信息提取技術(shù)研究
本文關(guān)鍵詞:基于節(jié)點類型標注的網(wǎng)頁主題信息提取技術(shù)研究
更多相關(guān)文章: DOM 節(jié)點類型標注 主題信息抽取
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)頁數(shù)量呈爆炸性增長。網(wǎng)頁中包含著豐富的內(nèi)容,既有用戶想要瀏覽的主題信息,也有對用戶形成干擾與主題無關(guān)的信息,如頁面導(dǎo)航條、推薦鏈接、廣告條、版權(quán)聲明等,后者通常被稱為網(wǎng)頁噪聲。網(wǎng)頁噪聲的存在給Web信息檢索帶來很大的難題,也對諸如網(wǎng)頁分類和聚類、知識挖掘、話題檢測、個性化信息推薦、數(shù)據(jù)挖掘等任務(wù)造成很大的影響。如果不將噪聲去除的話,信息檢索系統(tǒng)必然會得出很糟糕的檢索結(jié)果。因此,去除網(wǎng)頁噪聲,從網(wǎng)頁中抽取主題信息是Web信息檢索的一個重要的基礎(chǔ)性工作。在Web信息抽取領(lǐng)域,按照網(wǎng)頁主題信息抽取算法按照處理方式的不同,可以信息抽取方法分為三類:一、基于模板匹配的方法。這種方法主要基于網(wǎng)站中的頁面共享相同的模板,通過將網(wǎng)站的模板識別出來,然后利用模板對頁面進行匹配以識別網(wǎng)頁主題信息。二、基于機器學習的方法。這種方法主要適用于大規(guī)模網(wǎng)頁數(shù)據(jù)集的處理,首先利用人工標注的網(wǎng)頁數(shù)據(jù)訓練出網(wǎng)頁主題信息分類模型,然后利用分類器來識別網(wǎng)頁中的主題和非主題信息。三、基于啟發(fā)式規(guī)則的方法。這類方法,基于頁面中的一些視覺特征或結(jié)構(gòu)特征或內(nèi)容特征來構(gòu)建啟發(fā)式規(guī)則集合?紤]到基于啟發(fā)式規(guī)則的信息抽取方法具有較高的算法效率,以及考慮VIPS算法存在的不足,本文結(jié)合對網(wǎng)頁噪聲特點以及網(wǎng)頁性質(zhì)的觀察和統(tǒng)計,提出了一種基于DOM節(jié)點類型標注(Node Type Annotation)的主題信息抽取算法——NTA算法。首先依據(jù)網(wǎng)頁中噪聲存在的形式,定義了4種節(jié)點類型:文本型節(jié)點、鏈接型節(jié)點、圖片型節(jié)點和可忽略型節(jié)點,并且定義了節(jié)點的內(nèi)聚度(Do C)用于反映節(jié)點內(nèi)容的一致性。通過計算DOM結(jié)構(gòu)中每個節(jié)點的內(nèi)容特征來確定節(jié)點類型以及節(jié)點的內(nèi)聚度,并給每個節(jié)點添加類型和內(nèi)聚度兩個屬性。在主題信息抽取階段,借助閾值以及節(jié)點文本密度來識別節(jié)點類型以及比較內(nèi)聚度來獲取所需的正文節(jié)點,并針對圖片和鏈接的篩選問題作出相應(yīng)的特殊處理,最后整合得到網(wǎng)頁的主題信息。本文方法彌補了VIPS不能抽取網(wǎng)頁主題信息的不足并且具有較好的算法效率,方法不依賴特定標簽因而也具有更好的通用性。最后,基于本文NTA算法開發(fā)了一款網(wǎng)頁正文提取工具Web Clipper,從7大門戶網(wǎng)站選取了100多個新聞類網(wǎng)頁進行了測試,并且也與目前市面上的三款同類工具有道云剪報、印象筆記悅讀以及國外的Readability做了對比實驗。初步實驗結(jié)果顯示,本文所提出的算法的平均查全率為98.15%,平均查準率為92.41%,NTA方法在F1指標上為95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%,這在一定程度上證實了本文方法的有效性和實用性。
【關(guān)鍵詞】:DOM 節(jié)點類型標注 主題信息抽取
【學位授予單位】:中國農(nóng)業(yè)科學院
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP393.092;TP391.3
【目錄】:
- 摘要6-7
- Abstract7-11
- 英文縮略表11-12
- 第一章 引言12-16
- 1.1 研究背景與研究意義12
- 1.2 國內(nèi)外研究現(xiàn)狀12-14
- 1.3 論文研究內(nèi)容14
- 1.4 論文技術(shù)路線14-15
- 1.5 論文組織結(jié)構(gòu)15-16
- 第二章 網(wǎng)頁主題信息抽取16-23
- 2.1 網(wǎng)頁主題信息抽取算法介紹16-20
- 2.1.1 基于模板匹配的方法16-17
- 2.1.2 基于機器學習的方法17-18
- 2.1.3 基于啟發(fā)式規(guī)則的方法18-19
- 2.1.4 其他方法19-20
- 2.2 網(wǎng)頁主題信息抽取評價方法20-21
- 2.2.1 直接評價法20-21
- 2.2.2 間接評價法21
- 2.3 網(wǎng)頁主題信息抽取應(yīng)用21-22
- 2.3.1 網(wǎng)頁語料處理21
- 2.3.2 網(wǎng)頁內(nèi)容轉(zhuǎn)換21-22
- 2.3.3 網(wǎng)頁數(shù)據(jù)挖掘22
- 2.4 本章小結(jié)22-23
- 第三章 節(jié)點類型及內(nèi)聚度23-33
- 3.1 節(jié)點類型24-28
- 3.1.1 標準DOM節(jié)點類型24-26
- 3.1.2 本文DOM節(jié)點類型26-28
- 3.2 節(jié)點內(nèi)聚度28-32
- 3.2.1 VIPS方法中的內(nèi)聚度29
- 3.2.2 本文方法中的內(nèi)聚度29-32
- 3.3 本章小結(jié)32-33
- 第四章 基于節(jié)點類型標注的方法33-40
- 4.1 網(wǎng)頁預(yù)處理33-34
- 4.1.1 HTML語法的格式化33
- 4.1.2 特定標簽的處理33-34
- 4.2 節(jié)點類型標注34-35
- 4.3 主題信息抽取35-39
- 4.3.1 選取最佳剪枝文本節(jié)點35-36
- 4.3.2 DOM剪枝36-38
- 4.3.3 圖片與鏈接問題38-39
- 4.4 本章小結(jié)39-40
- 第五章 網(wǎng)頁主題信息抽取實驗40-46
- 5.1 實驗環(huán)境設(shè)定40
- 5.2 實驗操作流程40-42
- 5.2.1 選取主題型網(wǎng)頁41
- 5.2.2 WClipper提取網(wǎng)頁正文41
- 5.2.3 選取網(wǎng)頁主題內(nèi)容41
- 5.2.4 選取正確內(nèi)容41
- 5.2.5 計算F1及記錄41-42
- 5.3 實驗測試數(shù)據(jù)集42
- 5.4 對比實驗方法42-43
- 5.4.1 有道網(wǎng)頁剪報工具42
- 5.4.2 印象筆記悅讀工具42-43
- 5.4.3 Readability工具43
- 5.5 實驗結(jié)果及分析43-45
- 5.6 本章小結(jié)45-46
- 第六章 總結(jié)與展望46-48
- 6.1 論文工作總結(jié)46-47
- 6.2 存在的問題及未來的方向47-48
- 參考文獻48-54
- 在學期間的研究成果54-55
- 致謝55
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李建華,王志國,馬曉云,韓建國;網(wǎng)頁發(fā)布常用方法及遇到問題[J];電腦開發(fā)與應(yīng)用;2001年11期
2 王崢;穿梭網(wǎng)絡(luò)看設(shè)計——小議網(wǎng)頁設(shè)計[J];蘇州絲綢工學院學報;1999年06期
3 李亞文;網(wǎng)頁設(shè)計系列講座(一) 信息世界的新時尚——用網(wǎng)頁展示自己[J];多媒體世界;1999年02期
4 張?zhí)锪?網(wǎng)頁設(shè)計系列講座(四) 在世界面前展示你的風采——網(wǎng)頁發(fā)布[J];多媒體世界;1999年05期
5 高渭文;馬敏峰;;科技期刊網(wǎng)頁的規(guī)劃設(shè)計與制作維護[J];學報編輯論叢;2000年00期
6 康軍;出版社網(wǎng)頁的設(shè)計與開發(fā)[J];科技與出版;2000年05期
7 郭再新,常征旗;查詢網(wǎng)頁與網(wǎng)頁發(fā)布[J];南京廣播電視大學學報;2000年04期
8 付斌 ,韓松;網(wǎng)頁沙龍之發(fā)布我的網(wǎng)頁[J];網(wǎng)絡(luò)與信息;2001年10期
9 顧綺芳;韓斌;;《網(wǎng)頁設(shè)計》教學探索[J];職業(yè)圈;2007年14期
10 彭菊萍;李俊青;;基于網(wǎng)絡(luò)教學環(huán)境下的網(wǎng)頁設(shè)計課程教學的探索與實踐[J];科技信息(科學教研);2007年28期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 高渭文;馬敏峰;;科技期刊網(wǎng)頁的規(guī)劃設(shè)計與制作維護[A];學報編輯論叢(第九集)[C];2000年
2 孫周軍;肖文名;;基于組合策略網(wǎng)頁防篡改系統(tǒng)實現(xiàn)方法研究[A];2011年中國氣象學會氣象通信與信息技術(shù)委員會暨國家氣象信息中心科技年會論文摘要[C];2011年
中國重要報紙全文數(shù)據(jù)庫 前7條
1 本報記者 王兵 通訊員 韋煒;小網(wǎng)頁 大名片 長鏈條[N];中國氣象報;2012年
2 林欣欣;Micromedia家族新寵 contribute[N];中國電腦教育報;2003年
3 愛上一條魚;傻瓜網(wǎng)站管理工具[N];電腦報;2004年
4 湖南省株洲縣教育局教育技術(shù)裝備站 許賽蘇;做個合格的信息管理員[N];中國電腦教育報;2004年
5 ;書山有路勤為徑[N];中國電腦教育報;2004年
6 王兆和;到秘密花園里“摘”煙花[N];中國電腦教育報;2004年
7 通訊員 郝金榮 記者 曾居仁;萬村千鄉(xiāng)網(wǎng)頁工程建成入選貴州“三農(nóng)”十大新聞[N];中國氣象報;2013年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 林盛;時間感知的Web搜索研究[D];中國科學技術(shù)大學;2015年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 謝方立;基于節(jié)點類型標注的網(wǎng)頁主題信息提取技術(shù)研究[D];中國農(nóng)業(yè)科學院;2016年
2 馮勝;基于正文結(jié)構(gòu)和長句提取的網(wǎng)頁去重研究[D];重慶大學;2010年
3 王海潮;基于網(wǎng)頁結(jié)構(gòu)的信息抽取關(guān)鍵技術(shù)研究[D];華南理工大學;2011年
4 譚慶華;贛縣中學博客網(wǎng)頁建設(shè)初探[D];江西師范大學;2005年
5 王ZMr,
本文編號:937952
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/937952.html