天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

網(wǎng)頁核心語義數(shù)據(jù)提取算法研究

發(fā)布時間:2021-03-22 10:23
  在網(wǎng)絡信息爆炸式增長的背景下,網(wǎng)頁語義的描述及其提取方法的研究正受到越來越廣泛的關注。網(wǎng)頁語義的研究在語義網(wǎng)絡構建、網(wǎng)絡挖掘和其它商業(yè)應用中具有重要的理論意義和應用價值。而現(xiàn)有的語義提取方法或者需要耗費大量的人力、或者只限用于某個特定領域,都難以適應當今普遍且頻繁的應用需求。在本文中,我們提出一種通過識別和劃分網(wǎng)頁邏輯結構來獲取網(wǎng)頁語義的提取方法。運用網(wǎng)絡挖掘和網(wǎng)頁內(nèi)容抽取技術,只需要將少量的標注頁面作為訓練數(shù)據(jù),并僅使用從單個頁面中提取的網(wǎng)頁結構特征,就能夠自動化地將網(wǎng)頁內(nèi)容從由標簽和文本組成的字符流轉化為一組邏輯上相對獨立的功能區(qū)域。通過各個區(qū)域在網(wǎng)頁中的位置分布等信息,識別出每一個區(qū)域在網(wǎng)頁中承擔的具體功能。我們的方法將重復結構這一種重要的網(wǎng)頁結構作為分析問題的切入點,首先,使用機器學習的方法,將決策樹和SVM組合構成的分類器用于網(wǎng)頁中重復結構的識別和定位;然后,識別出有意義的重復結構并以之為分割點將網(wǎng)頁內(nèi)容分為若干語義區(qū)域;最后,標定網(wǎng)頁中每個語義區(qū)域的語義功能,并抽取出各個區(qū)域中有價值的數(shù)據(jù)內(nèi)容。我們將網(wǎng)頁邏輯結構劃分的結果和語義區(qū)域的功能標定的結果作為本文研究的兩類主要語義... 

【文章來源】:華東師范大學上海市 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:53 頁

【學位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
第一章 緒論
    1.1 研究背景和意義
    1.2 網(wǎng)頁語義描述和提取
    1.3 本文工作和主要貢獻
    1.4 本文結構
第二章 相關技術和研究現(xiàn)狀
    2.1 網(wǎng)絡挖掘技術
        2.1.1 網(wǎng)頁抽取
        2.1.2 網(wǎng)頁分類
    2.2 網(wǎng)頁語義研究
        2.2.1 語義網(wǎng)絡和網(wǎng)絡挖掘
        2.2.2 網(wǎng)頁語義挖掘技術
第三章 方法設計
    3.1 概念定義
        3.1.1 重復結構和重復單元
        3.1.2 網(wǎng)頁生成模型
    3.2 重復結構定位方法
        3.2.1 分組算法
        3.2.2 合并規(guī)則
        3.2.3 特征選擇
    3.3 結構化和表格提取
        3.3.1 序列化算法
        3.3.2 MSA算法在重復結構結構化中的應用
        3.3.3 結構化效果分析
    3.4 語義標定與網(wǎng)頁邏輯結構劃分
        3.4.1 重復結構語義標定
        3.4.2 非重復結構區(qū)域提取算法
        3.4.3 非重復結構區(qū)域語義標定
        3.4.4 特征選擇
    3.5 本章小結
第四章 實驗分析
    4.1 實驗環(huán)境
    4.2 數(shù)據(jù)集準備
    4.3 數(shù)據(jù)預處理
    4.4 分類型設計
        4.4.1 失衡樣本上的分類器設計
        4.4.2 過濾效果的評價
        4.4.3 性能評價標準
    4.5 實驗過程和分析
第五章 總結和展望
    5.1 總結
    5.2 展望
附錄
參考文獻
后記



本文編號:3094002

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3094002.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶dc94b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com