天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于分類技術(shù)的網(wǎng)頁去噪方法的研究

發(fā)布時間:2017-05-28 15:14

  本文關(guān)鍵詞:基于分類技術(shù)的網(wǎng)頁去噪方法的研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:互聯(lián)網(wǎng)的快速發(fā)展使網(wǎng)絡(luò)上的各種信息呈現(xiàn)出快速增長的趨勢。如何從浩瀚的互聯(lián)網(wǎng)文本中獲取有效信息、分析網(wǎng)頁數(shù)據(jù)之間的關(guān)聯(lián)性等,是自然語言處理領(lǐng)域的一項挑戰(zhàn)。網(wǎng)頁導(dǎo)航、主題信息、超鏈接信息、版權(quán)信息等構(gòu)成一個網(wǎng)頁,其中除了網(wǎng)頁正文信息外,其他的信息對于研究人員來說都屬于噪音信息,這些噪音信息會對Web信息檢索,網(wǎng)頁分類等研究產(chǎn)生了不利的影響。為了使自然語言處理技術(shù)更好地應(yīng)用到網(wǎng)頁信息的研究中,提高對網(wǎng)頁正文的處理能力,同時降低網(wǎng)頁去噪領(lǐng)域?qū)τ诰W(wǎng)頁模板的依賴性,本文提出了一種基于網(wǎng)頁標(biāo)簽位置特征與文本特征相結(jié)合的網(wǎng)頁去噪方法。該方法將HTML網(wǎng)頁映射為相應(yīng)的DOM樹,在分析DOM樹結(jié)構(gòu)的基礎(chǔ)上,抽取其中每一個標(biāo)簽節(jié)點的位置特征以及文本特征,同時考慮正文與標(biāo)題的語義相似性,將這些DOM樹節(jié)點在網(wǎng)頁中所屬的塊分為正文節(jié)點和噪音節(jié)點,最后將它們表示為樣本數(shù)據(jù),運用機(jī)器學(xué)習(xí)中的分類方法進(jìn)行分類實驗。該方法實現(xiàn)簡單且對于網(wǎng)頁的模板依賴較小,具有一定的通用性。實驗選取了決策樹、樸素貝葉斯和支持向量機(jī)三種分類方法,通過對比實驗驗證了方法的有效性,同時實驗還獲得了較高的準(zhǔn)確度,表明該方法能夠較為精確地抽取出正文信息,去除網(wǎng)頁噪音信息。最后,對實驗結(jié)果進(jìn)行了詳細(xì)分析與討論,總結(jié)導(dǎo)致誤分類的原因。同時,通過特征選擇實驗將所選特征對于結(jié)果的貢獻(xiàn)度及該特征的時間復(fù)雜度進(jìn)行對比分析,論證特征選擇對于模型訓(xùn)練精度和效率的重要性。
【關(guān)鍵詞】:自然語言處理 網(wǎng)頁去噪 正文 噪音 機(jī)器學(xué)習(xí)
【學(xué)位授予單位】:貴州師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 摘要2-3
  • ABSTRACT3-7
  • 1 緒論7-11
  • 1.1 課題研究的背景與意義7
  • 1.2 國內(nèi)外研究現(xiàn)狀7-9
  • 1.3 本文的研究內(nèi)容9-10
  • 1.4 論文的組織結(jié)構(gòu)10-11
  • 2 網(wǎng)頁結(jié)構(gòu)特點與網(wǎng)頁去噪技術(shù)11-15
  • 2.1 網(wǎng)頁DOM樹11
  • 2.2 網(wǎng)頁DOM樹的解析11-13
  • 2.3 網(wǎng)頁去噪技術(shù)13-14
  • 2.4 本章小結(jié)14-15
  • 3 基于分類方法的網(wǎng)頁去噪15-21
  • 3.1 常用分類方法15-19
  • 3.2 分類方法的對比19
  • 3.3 網(wǎng)頁去噪分類模型19-20
  • 3.4 本章小結(jié)20-21
  • 4 網(wǎng)頁特征的提取與表示21-27
  • 4.1 文本與標(biāo)題相似度21-23
  • 4.2 文本長度比23
  • 4.3 鏈接文字比23-24
  • 4.4 網(wǎng)頁的標(biāo)簽特征24-26
  • 4.5 本章小結(jié)26-27
  • 5 實驗過程及評價27-38
  • 5.1 數(shù)據(jù)獲取與解析工具27-28
  • 5.2 實驗數(shù)據(jù)集28
  • 5.3 實驗及評價準(zhǔn)則28-30
  • 5.4 結(jié)果及其分析30-32
  • 5.5 特征選擇32-37
  • 5.6 本章小結(jié)37-38
  • 6 總結(jié)與展望38-39
  • 參考文獻(xiàn)39-42
  • 攻讀碩士學(xué)位期間完成論文42-43
  • 致謝43-44

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前3條

1 毛先領(lǐng);何靖;閆宏飛;;網(wǎng)頁去噪:研究綜述[J];計算機(jī)研究與發(fā)展;2010年12期

2 張奇,黃萱菁,吳立德;一種新的句子相似度度量及其在文本自動摘要中的應(yīng)用[J];中文信息學(xué)報;2005年02期

3 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年S1期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 熊浩勇;基于SVM的中文文本分類算法研究與實現(xiàn)[D];武漢理工大學(xué);2008年

2 楊茂;基于句子相似度的文本比對算法研究[D];電子科技大學(xué);2010年


  本文關(guān)鍵詞:基于分類技術(shù)的網(wǎng)頁去噪方法的研究,由筆耕文化傳播整理發(fā)布。



本文編號:402921

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/402921.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0d783***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com