天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的高效網(wǎng)頁分類技術(shù)的研究與分析

發(fā)布時(shí)間:2021-02-23 02:49
  近年來,隨著網(wǎng)絡(luò)通信技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)逐步融入到日常生活的各個(gè)方面,網(wǎng)頁數(shù)量更是呈現(xiàn)指數(shù)式增長(zhǎng)趨勢(shì)。面對(duì)海量且復(fù)雜的網(wǎng)頁信息,如何高效地組織和管理這些信息日趨成為一個(gè)棘手的問題。網(wǎng)頁分類作為互聯(lián)網(wǎng)信息組織和管理的一個(gè)基礎(chǔ)步驟,在搜索引擎、主題爬蟲、惡意網(wǎng)頁識(shí)別和維護(hù)目錄式網(wǎng)站等許多應(yīng)用中發(fā)揮著至關(guān)重要的作用。傳統(tǒng)Web挖掘通常利用網(wǎng)頁特征工程結(jié)合機(jī)器學(xué)習(xí)算法進(jìn)行網(wǎng)頁分類,然而隨著網(wǎng)頁結(jié)構(gòu)的復(fù)雜化,網(wǎng)頁的有效特征提取越來越困難,從而導(dǎo)致傳統(tǒng)機(jī)器學(xué)習(xí)方法在網(wǎng)頁自動(dòng)分類上效果一般。因此,本文提出了基于深度學(xué)習(xí)的高效網(wǎng)頁分類算法,針對(duì)網(wǎng)頁的文本內(nèi)容、標(biāo)題等信息,利用深度神經(jīng)網(wǎng)絡(luò),搭建一種多通道輸入,復(fù)合特征抽取結(jié)構(gòu)的分類模型。該模型能有效地提高網(wǎng)頁分類的準(zhǔn)確率,滿足特定領(lǐng)域內(nèi)網(wǎng)頁的高效自動(dòng)分類需求。本文的主要工作如下:1、分析了傳統(tǒng)機(jī)器學(xué)習(xí)方法在網(wǎng)頁挖掘中的優(yōu)缺點(diǎn)并介紹了深度學(xué)習(xí)在網(wǎng)頁分類中的特點(diǎn)和優(yōu)勢(shì);闡述了網(wǎng)頁數(shù)據(jù)的采集和存儲(chǔ)技術(shù);研究并分析了詞向量技術(shù);分析了注意力機(jī)制在網(wǎng)頁分類問題上的可行之處;研究了卷積神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)的核心算法原理及科學(xué)應(yīng)用。2、設(shè)計(jì)了基于深度學(xué)習(xí)的高效網(wǎng)... 

【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:73 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的高效網(wǎng)頁分類技術(shù)的研究與分析


污之側(cè)時(shí)dZ,e‘算法示禽圖

示意圖,元算法,示意圖


對(duì)于一個(gè)單獨(dú)神經(jīng)元而言,如上圖(2-3)所示,假設(shè)輸入l=al,輸入2=a2,輸??入3=a3;權(quán)值l=wl,權(quán)值2=w2,權(quán)值3=w3;輸出=z。則神經(jīng)元模型可簡(jiǎn)單理??解為Z=g(al*wl+a2*w2+a3*w3)。其中函數(shù)g稱之為激活函數(shù),常見激活函數(shù)有??Sigmoid,?tanh,?ReLU。??多個(gè)神經(jīng)元構(gòu)成了神經(jīng)網(wǎng)絡(luò),而神經(jīng)網(wǎng)絡(luò)構(gòu)成了深度學(xué)習(xí)任務(wù)的主體,多層??神經(jīng)網(wǎng)絡(luò)構(gòu)成深度網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行“高級(jí)特征”的提取,最終數(shù)據(jù)依然會(huì)流入神??經(jīng)網(wǎng)絡(luò)(一般為全連接網(wǎng)絡(luò))并通過激活函數(shù)獲得類別或者類別概率。??我們分析網(wǎng)頁數(shù)據(jù)的特點(diǎn),首先網(wǎng)頁不同于傳統(tǒng)文本結(jié)構(gòu)化的創(chuàng)作方式,網(wǎng)??頁的信息分布是無規(guī)律的,文本開頭可能是導(dǎo)航欄而不是標(biāo)題,占網(wǎng)頁文字信息??篇幅最大的也可能不是網(wǎng)頁主題內(nèi)容而是廣告推薦。抽取與類別最大關(guān)聯(lián)的特征??是網(wǎng)頁分類算法的基礎(chǔ)。卷積神經(jīng)網(wǎng)絡(luò)可以設(shè)定不同大小的卷積核,不同尺度的??卷積核用來提取文本的關(guān)鍵信息,在原理上類似于多窗口大小的n-gram。卷積提??取出的特征會(huì)更多地關(guān)注局部,最后將信息綜合起來就得到了全局的信息。對(duì)于??信息量較大的網(wǎng)頁,希望神經(jīng)網(wǎng)絡(luò)能夠“理解”前后語義,在提取特征時(shí)考慮到??上下文的信息,這就需要用到循環(huán)神經(jīng)網(wǎng)絡(luò)。搭配使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)??

特征圖,卷積,一維


特征映射結(jié)構(gòu)一般采用Sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),Sigmoid的??輸出會(huì)使得特征映射具有位移不變性。此外,由于一個(gè)特征圖上的神經(jīng)元共享權(quán)??值,因此減少了卷積網(wǎng)絡(luò)中自由參數(shù)的個(gè)數(shù),減少了計(jì)算量。卷積神經(jīng)網(wǎng)絡(luò)中的??每一個(gè)卷積層都會(huì)連接一個(gè)用來求局部最值或平均值,進(jìn)行二次特征提取的計(jì)算??層,這種特有的兩次特征提取結(jié)構(gòu)可以減小特征分辨率。??卷積神經(jīng)網(wǎng)絡(luò)在圖像領(lǐng)域獲得過巨大成功,著名的LeNet-5,?ResNet,AlexNet??都是以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建的。然而網(wǎng)頁數(shù)據(jù)和圖像數(shù)據(jù)不同,網(wǎng)頁數(shù)據(jù)可??以歸結(jié)為文本數(shù)據(jù)。眾所周知,圖像數(shù)據(jù)的輸入是二維的,雖然文本經(jīng)過詞向量??表達(dá)后是二維數(shù)據(jù),但是在詞向量維度上即Embedding-Level上的二維卷積是沒??有意義的,因?yàn)橹挥型暾脑~向量維度才表征了一個(gè)完整的單詞,所以文本是一??維數(shù)據(jù)。因此,本文算法中的卷積神經(jīng)網(wǎng)絡(luò)都采用一維卷積。一維卷積帶來的問??題是需要通過設(shè)計(jì)不同尺寸(Kernel_Size)的卷積核(Filter)獲取不同寬度的視野,??在下一章算法設(shè)計(jì)與實(shí)現(xiàn)中將詳細(xì)闡述。??一維卷積網(wǎng)絡(luò)[19]的工作方式不同于傳統(tǒng)二維卷積,其工作方式如下圖2-4所??

【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合TFIDF方法與Skip-gram模型的文本分類方法研究[J]. 鄔明強(qiáng),張奎.  電子技術(shù)與軟件工程. 2018(06)
[2]Scrapy分布式爬蟲原理分析與概述[J]. 米碩,孫瑞彬,李欣,明曉,趙汝程.  中國(guó)新通信. 2018(04)
[3]分布式爬蟲任務(wù)調(diào)度策略的優(yōu)化[J]. 王霓虹,張露露.  黑龍江大學(xué)自然科學(xué)學(xué)報(bào). 2016(05)
[4]基于深度學(xué)習(xí)的網(wǎng)頁分類算法研究[J]. 陳芊希,范磊.  微型電腦應(yīng)用. 2016(02)
[5]一種基于N-Gram改進(jìn)的文本特征提取算法[J]. 于津凱,王映雪,陳懷楚.  圖書情報(bào)工作. 2004(08)
[6]用Naive Bayes方法協(xié)調(diào)分類Web網(wǎng)頁[J]. 范焱,鄭誠(chéng),王清毅,蔡慶生,劉潔.  軟件學(xué)報(bào). 2001(09)

碩士論文
[1]基于URL+文本的網(wǎng)頁主題分類模型研究[D]. 程元堃.武漢郵電科學(xué)研究院 2018
[2]基于GPU的深度學(xué)習(xí)算法并行化研究[D]. 晉雅茹.東南大學(xué) 2017
[3]基于深度卷積神經(jīng)網(wǎng)絡(luò)的語義圖像檢索研究[D]. 陳修遠(yuǎn).電子科技大學(xué) 2017
[4]基于深度學(xué)習(xí)的釣魚網(wǎng)站檢測(cè)技術(shù)的研究[D]. 許瓏于.電子科技大學(xué) 2017
[5]基于文本分析的推薦系統(tǒng)研究與實(shí)現(xiàn)[D]. 張婷.電子科技大學(xué) 2017
[6]基于多標(biāo)簽的海量文本的分類算法的研究與設(shè)計(jì)[D]. 方澤陽.北京郵電大學(xué) 2017
[7]基于URL模式的網(wǎng)頁分類算法研究[D]. 楊鎰銘.中國(guó)科學(xué)技術(shù)大學(xué) 2016



本文編號(hào):3046902

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3046902.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9533f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com