基于深度學(xué)習(xí)的網(wǎng)絡(luò)文本情緒分類研究
發(fā)布時間:2020-12-13 01:07
隨著網(wǎng)絡(luò)的普及與發(fā)展,越來越多的使用者通過網(wǎng)絡(luò)發(fā)表信息和交換個人意見,造成了網(wǎng)絡(luò)中信息數(shù)據(jù)的爆炸式增長。由于網(wǎng)絡(luò)的開放性和包容性,大量的信息充斥在網(wǎng)絡(luò)環(huán)境中,實(shí)時監(jiān)測網(wǎng)絡(luò)環(huán)境,分析網(wǎng)絡(luò)信息的情緒傾向,對維護(hù)網(wǎng)絡(luò)的內(nèi)容安全具有重大的意義。但通過人工的方式對如此龐大的數(shù)量級的信息進(jìn)行處理分析是完全不可能實(shí)現(xiàn)的,而一般的數(shù)據(jù)處理及分類技術(shù)如關(guān)鍵詞過濾等,雖然可以解決樣本處理的效率問題,但由于語言表達(dá)方式的復(fù)雜性,并不能保證樣本分類的精度。本文結(jié)合了安全和智能這兩個當(dāng)前計(jì)算機(jī)領(lǐng)域的重要研究方向,針對處理網(wǎng)絡(luò)大量數(shù)據(jù)的內(nèi)容安全問題,利用自然語言處理的相關(guān)技術(shù),采用深度學(xué)習(xí)模型,通過利用神經(jīng)網(wǎng)絡(luò)模型對文本樣本進(jìn)行訓(xùn)練學(xué)習(xí),根據(jù)樣本的情緒傾向進(jìn)行分類,實(shí)現(xiàn)對大量網(wǎng)絡(luò)文本信息的高效處理。由于長短期記憶網(wǎng)絡(luò)(LSTM,Long Short-Term Memory)在處理時間序列和延遲相對較長的任務(wù)方面所具有的優(yōu)勢,使得它在許多深度學(xué)習(xí)的相關(guān)領(lǐng)域得到了充分的應(yīng)用。針對當(dāng)前網(wǎng)絡(luò)環(huán)境中越來越多樣化的意見表達(dá)方式以及爆炸式的信息增長速率,本文提出了一種基于多維度LSTM的網(wǎng)絡(luò)內(nèi)容安全文本分類模型。該模型可以充分...
【文章來源】:中國石油大學(xué)(華東)山東省 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
Sigmoid和Tanh函數(shù)圖像
第三章基于多維度LSTM模型的文本分類研究26xxxxeeeexf(3-15)xsigmoidxtanh122(3-16)圖3-6為Sigmoid激活函數(shù)和Tanh激活函數(shù)的函數(shù)圖像,從圖像中可以直觀的表現(xiàn)出兩種激活函數(shù)的區(qū)別與聯(lián)系。由Tanh函數(shù)的定義公式可以看出Tanh函數(shù)是Sigmoid函數(shù)的一種變型,因此Tanh函數(shù)的求導(dǎo)結(jié)果也可以用自身表示的變形。Tanh函數(shù)與Sigmoid函數(shù)的不同點(diǎn)在于,它將輸入值的映射輸出值范圍壓縮到[-1,1]的范圍內(nèi),因此它的輸出結(jié)果基本上來說是0均值的。雖然Tanh函數(shù)解決了Sigmoid函數(shù)所尊在的的0均值問題,但它仍然存在梯度飽和的問題。(3)ReLU激活函數(shù)。在模型訓(xùn)練過程中,在其優(yōu)化過程中會出現(xiàn)非凸現(xiàn)象,影響深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,為了優(yōu)化這個問題,引入了ReLU函數(shù)。ReLU函數(shù)全稱為RectifiedLinearUnit,也就是線性矯正單元,常用于隱含層的輸出。其數(shù)學(xué)表達(dá)式為:x,maxxf0(3-17)ReLU函數(shù)的函數(shù)圖像如圖3-7所示。圖3-7ReLU函數(shù)圖像Fig3-7FunctionimageofReLU當(dāng)ReLU函數(shù)的輸入值小于0時,對應(yīng)的輸出值為0;當(dāng)函數(shù)輸入值大于0時,對于的輸出值與輸入值相等。Krizhevsky等人[56]研究發(fā)現(xiàn)在使用ReLU函數(shù)時,在計(jì)算梯度下降時模型的的收斂速度比使用Sigmoid函數(shù)或Tanh函數(shù)的模型要快很多。使用
第四章多維度LSTM文本情緒分類模型設(shè)計(jì)與實(shí)現(xiàn)324.2多維度LSTM模型主要模塊設(shè)計(jì)與實(shí)現(xiàn)本課題中的深度學(xué)習(xí)文本分類模型主要是針對社交網(wǎng)絡(luò)中逐漸膨脹的文本信息,根據(jù)其情緒傾向進(jìn)行分類。結(jié)合對現(xiàn)有深度學(xué)習(xí)分類模型的分析和研究,改進(jìn)和提出了一種新的模型,以提高文本情緒分類的準(zhǔn)確率。主要思想是采用LSTM作為模型的基本單元,采用多層LSTM作為一個特征提取通道,多個特征通道組成深度學(xué)習(xí)的訓(xùn)練模型,來處理文本分類的問題。以多通道的特征提取方式來處理文本情緒傾向的分類問題,提高分類的精確程度。接下來將對本文所設(shè)計(jì)多維度LSTM模型的主要模塊的實(shí)現(xiàn)進(jìn)行詳細(xì)的闡述。4.2.1數(shù)據(jù)集建立基于深度學(xué)習(xí)的文本情緒分類模型的中心思想是利用數(shù)據(jù)集進(jìn)行模型的訓(xùn)練,模型參數(shù)在迭代收斂后取得最優(yōu)值,從而獲得具有高精度分類效果的文本分類模型。由于目前并不存在適合本模型的通用數(shù)據(jù)集,因此針對本文所設(shè)計(jì)多維度LSTM模型,需要建立符合模型訓(xùn)練要求的數(shù)據(jù)集。圖4-2emoji表情圖片F(xiàn)ig4-2Emojiexpressionimage由于本模型是采用有監(jiān)督的訓(xùn)練方法的二分類模型,所以本文分采用的數(shù)據(jù)集改造后的IMDB[57]數(shù)據(jù)集。IMDB是斯坦福大學(xué)人工智能實(shí)驗(yàn)室所收集建立的一個影評數(shù)據(jù)
本文編號:2913600
【文章來源】:中國石油大學(xué)(華東)山東省 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
Sigmoid和Tanh函數(shù)圖像
第三章基于多維度LSTM模型的文本分類研究26xxxxeeeexf(3-15)xsigmoidxtanh122(3-16)圖3-6為Sigmoid激活函數(shù)和Tanh激活函數(shù)的函數(shù)圖像,從圖像中可以直觀的表現(xiàn)出兩種激活函數(shù)的區(qū)別與聯(lián)系。由Tanh函數(shù)的定義公式可以看出Tanh函數(shù)是Sigmoid函數(shù)的一種變型,因此Tanh函數(shù)的求導(dǎo)結(jié)果也可以用自身表示的變形。Tanh函數(shù)與Sigmoid函數(shù)的不同點(diǎn)在于,它將輸入值的映射輸出值范圍壓縮到[-1,1]的范圍內(nèi),因此它的輸出結(jié)果基本上來說是0均值的。雖然Tanh函數(shù)解決了Sigmoid函數(shù)所尊在的的0均值問題,但它仍然存在梯度飽和的問題。(3)ReLU激活函數(shù)。在模型訓(xùn)練過程中,在其優(yōu)化過程中會出現(xiàn)非凸現(xiàn)象,影響深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,為了優(yōu)化這個問題,引入了ReLU函數(shù)。ReLU函數(shù)全稱為RectifiedLinearUnit,也就是線性矯正單元,常用于隱含層的輸出。其數(shù)學(xué)表達(dá)式為:x,maxxf0(3-17)ReLU函數(shù)的函數(shù)圖像如圖3-7所示。圖3-7ReLU函數(shù)圖像Fig3-7FunctionimageofReLU當(dāng)ReLU函數(shù)的輸入值小于0時,對應(yīng)的輸出值為0;當(dāng)函數(shù)輸入值大于0時,對于的輸出值與輸入值相等。Krizhevsky等人[56]研究發(fā)現(xiàn)在使用ReLU函數(shù)時,在計(jì)算梯度下降時模型的的收斂速度比使用Sigmoid函數(shù)或Tanh函數(shù)的模型要快很多。使用
第四章多維度LSTM文本情緒分類模型設(shè)計(jì)與實(shí)現(xiàn)324.2多維度LSTM模型主要模塊設(shè)計(jì)與實(shí)現(xiàn)本課題中的深度學(xué)習(xí)文本分類模型主要是針對社交網(wǎng)絡(luò)中逐漸膨脹的文本信息,根據(jù)其情緒傾向進(jìn)行分類。結(jié)合對現(xiàn)有深度學(xué)習(xí)分類模型的分析和研究,改進(jìn)和提出了一種新的模型,以提高文本情緒分類的準(zhǔn)確率。主要思想是采用LSTM作為模型的基本單元,采用多層LSTM作為一個特征提取通道,多個特征通道組成深度學(xué)習(xí)的訓(xùn)練模型,來處理文本分類的問題。以多通道的特征提取方式來處理文本情緒傾向的分類問題,提高分類的精確程度。接下來將對本文所設(shè)計(jì)多維度LSTM模型的主要模塊的實(shí)現(xiàn)進(jìn)行詳細(xì)的闡述。4.2.1數(shù)據(jù)集建立基于深度學(xué)習(xí)的文本情緒分類模型的中心思想是利用數(shù)據(jù)集進(jìn)行模型的訓(xùn)練,模型參數(shù)在迭代收斂后取得最優(yōu)值,從而獲得具有高精度分類效果的文本分類模型。由于目前并不存在適合本模型的通用數(shù)據(jù)集,因此針對本文所設(shè)計(jì)多維度LSTM模型,需要建立符合模型訓(xùn)練要求的數(shù)據(jù)集。圖4-2emoji表情圖片F(xiàn)ig4-2Emojiexpressionimage由于本模型是采用有監(jiān)督的訓(xùn)練方法的二分類模型,所以本文分采用的數(shù)據(jù)集改造后的IMDB[57]數(shù)據(jù)集。IMDB是斯坦福大學(xué)人工智能實(shí)驗(yàn)室所收集建立的一個影評數(shù)據(jù)
本文編號:2913600
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2913600.html
最近更新
教材專著