基于深度學(xué)習(xí)的微博立場(chǎng)檢測(cè)方法
發(fā)布時(shí)間:2021-08-05 13:57
在最近二十年間,世界進(jìn)入互聯(lián)網(wǎng)時(shí)代,人們的線上社交活動(dòng)與線下生活文化完全交織在一起,人們接受信息的方式也從被動(dòng)轉(zhuǎn)換為主動(dòng),每個(gè)人都成為了信息的挖掘者與傳播者,各種社交媒體應(yīng)運(yùn)而生。微博作為國(guó)內(nèi)主流網(wǎng)絡(luò)社交媒體聚積了數(shù)億用戶,在上面用戶可以對(duì)網(wǎng)絡(luò)上新發(fā)布的政策、工業(yè)產(chǎn)品、時(shí)事熱點(diǎn)等發(fā)表自己的觀點(diǎn)立場(chǎng),如何在特定目標(biāo)話題下有效的對(duì)用戶立場(chǎng)進(jìn)行判斷成為網(wǎng)絡(luò)輿情分析的重要課題。微博文本具有網(wǎng)絡(luò)化、噪音多樣化、口語(yǔ)化、關(guān)系多樣化等特點(diǎn),極大程度上降低了立場(chǎng)檢測(cè)的準(zhǔn)確率。如何結(jié)合中文語(yǔ)法特點(diǎn)有效地捕獲文本特征,是提升立場(chǎng)檢測(cè)任務(wù)準(zhǔn)確率的關(guān)鍵。在對(duì)微博文本進(jìn)行立場(chǎng)檢測(cè)時(shí),往往根據(jù)部分有依賴關(guān)系的詞語(yǔ)組進(jìn)行判斷。基于卷積神經(jīng)網(wǎng)絡(luò)的模型通過(guò)單詞序列進(jìn)行卷積操作將多個(gè)單詞特征感知為連續(xù)文本進(jìn)行表示,但不能夠很好利用詞間的依賴關(guān)系指導(dǎo)立場(chǎng)分類。本文針對(duì)中文語(yǔ)言環(huán)境及微博文本語(yǔ)言特點(diǎn),提出了一種基于深度學(xué)習(xí)的立場(chǎng)檢測(cè)方法,不僅結(jié)合了中文語(yǔ)言特點(diǎn),還有效的捕獲了文本中不同距離詞語(yǔ)間的依賴特征。論文的主要工作如下:(1)本文將文本中詞語(yǔ)及其之間的依存關(guān)系視為圖結(jié)構(gòu)數(shù)據(jù),提出了一種微博文本圖結(jié)構(gòu)構(gòu)建方法。首先,基于...
【文章來(lái)源】:重慶理工大學(xué)重慶市
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
人腦機(jī)理流程圖
2相關(guān)工作7表2.1one-hot形式詞嵌入表單詞one-hot形式嵌入開(kāi)心[1,0,0,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0,0,0]愉悅[0,1,0,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0,0,0]高興[0,0,1,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0,0,0]詞向量分布式形式最早在1986年被Hinton[29],這種嵌入方式很好的解決了one-hot形式下的維數(shù)災(zāi)難,是一種結(jié)合詞語(yǔ)間的相似關(guān)系獲得單詞稠密向量表示的方法。具體的,分布式詞向量表示先自定義向量維度d,取值通常在200~400之間,然后對(duì)初始化的詞表矩陣(其取值格式為浮點(diǎn)小數(shù))VVKR進(jìn)行反向傳播訓(xùn)練,在特定的訓(xùn)練過(guò)程中每個(gè)單詞的權(quán)重表示得以更新。訓(xùn)練出來(lái)的單詞表均由浮點(diǎn)型小數(shù)表示,其蘊(yùn)含了詞義信息。每個(gè)詞存在于詞表庫(kù)約束的向量空間中,單詞可當(dāng)做空間中的一個(gè)點(diǎn),單詞之間語(yǔ)法、語(yǔ)義上的相似性就可表示為空間中兩點(diǎn)的余弦距離或歐式距離。2.2.1神經(jīng)概率語(yǔ)言模型詞向量分布式表示模型需要精心設(shè)計(jì)統(tǒng)籌方法,以解決數(shù)據(jù)稀疏等相關(guān)問(wèn)題,Bengio等[30]在2003年提出用神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建語(yǔ)言模型,神經(jīng)網(wǎng)絡(luò)通過(guò)分析得到一個(gè)出現(xiàn)詞的條件概率。通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)言模型,能夠方便得到詞向量的分布式表示。詞的相似度可以通過(guò)詞向量的距離來(lái)衡量,對(duì)于語(yǔ)料庫(kù)中未見(jiàn)詞語(yǔ)序列的概率可以用相似詞進(jìn)行估計(jì),這就避免了數(shù)據(jù)稀疏的問(wèn)題。Bengio將用神經(jīng)網(wǎng)絡(luò)構(gòu)建N-Gram模型的任務(wù)轉(zhuǎn)換成給定前N-1個(gè)詞然后預(yù)測(cè)下一個(gè)詞的任務(wù),以無(wú)監(jiān)督學(xué)習(xí)的方式在沒(méi)有標(biāo)注的語(yǔ)料上構(gòu)建語(yǔ)言模型。其結(jié)構(gòu)如圖2.2所示:圖2.2神經(jīng)概率語(yǔ)言模型結(jié)構(gòu)
重慶理工大學(xué)碩士學(xué)位論文8它包括四個(gè)網(wǎng)絡(luò)層:輸入(Input)層、投影(Projection)層、隱藏(Hidden)層和輸出(Output)層。其中W,U為中間層權(quán)重矩陣。p,q為中間層偏置向量。具體的,對(duì)于語(yǔ)料庫(kù)C中任意詞匯w,取其前N-1個(gè)詞對(duì)應(yīng)的詞向量wContext)(作為神經(jīng)網(wǎng)絡(luò)的輸入,一個(gè))),((wwContext為一個(gè)訓(xùn)練樣本。語(yǔ)言模型可以對(duì)隨意設(shè)定詞嵌入維度,避免了維度爆炸問(wèn)題。投影層向量mX為輸入層N-1個(gè)詞按順序拼起來(lái)的長(zhǎng)向量,其規(guī)模為(N-1)m。隱藏層實(shí)質(zhì)為一個(gè)全連接層,中我們對(duì)mX進(jìn)行計(jì)算,計(jì)算公式如式2.1所示:ZpWX)tanh(wwqUyZww(2.1)其中激活函數(shù)為雙曲正切函數(shù),W,U,p,q為模型的訓(xùn)練參數(shù)。計(jì)算得到的),,,(w21wwNwyyyy進(jìn)入輸出層通過(guò)Softmax,則wy的分量wiy表示為當(dāng)上下文為wContext)(時(shí)下個(gè)詞為語(yǔ)料庫(kù)C中第i個(gè)詞的概率。最終目標(biāo)函數(shù)wwContextp))((計(jì)算公式如式2.2所示:NiyycwiwcweewContextp1))(((2.2)神經(jīng)語(yǔ)言概率模型基于相似詞語(yǔ)概率及文本間條件概率進(jìn)行統(tǒng)計(jì)計(jì)算,解決數(shù)據(jù)稀疏的問(wèn)題,并能有效的訓(xùn)練出分布式詞向量。2.2.2Word2VecMikolov[31]等結(jié)合神經(jīng)概率語(yǔ)言模型思想,在2013年提出了word2vec詞向量訓(xùn)練模型,相比較傳統(tǒng)NLP的高維度、特征稀疏等表示特點(diǎn),Word2Vec訓(xùn)練出的詞向量是稠密低維度的。Word2vec利用詞的上下文信息調(diào)整權(quán)重,使詞向量自身表達(dá)的語(yǔ)義信息更加豐富。Google公司開(kāi)源推出了此工具包,并被廣大研究者運(yùn)用在情感分析、問(wèn)答系統(tǒng)、文本翻譯等任務(wù)網(wǎng)絡(luò)中的輸入層。圖2.3CBOW與Skip-gram模型結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]基于亮度與色度信息的深度學(xué)習(xí)圖像風(fēng)格遷移算法研究[J]. 楊慧炯,韓燕麗,郭蕓俊. 重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)). 2019(07)
[2]基于深度學(xué)習(xí)的語(yǔ)音識(shí)別方法研究[J]. 邵娜,李曉坤,劉磊,陳虹旭,鄭永亮,楊磊. 智能計(jì)算機(jī)與應(yīng)用. 2019(02)
[3]基于兩階段注意力機(jī)制的立場(chǎng)檢測(cè)方法[J]. 岳天馳,張紹武,楊亮,林鴻飛,于凱. 廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[4]基于詞向量技術(shù)與主題詞特征的微博立場(chǎng)檢測(cè)[J]. 鄭海洋,高俊波,邱杰,焦鳳. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(09)
[5]基于Dopout與ADAM優(yōu)化器的改進(jìn)CNN算法[J]. 楊觀賜,楊靜,李少波,胡建軍. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(07)
[6]關(guān)于微博評(píng)論研究的文獻(xiàn)綜述[J]. 張正梅,楊娜. 傳播力研究. 2018(07)
[7]自然語(yǔ)言處理中的深度學(xué)習(xí):方法及應(yīng)用[J]. 林奕歐,雷航,李曉瑜,吳佳. 電子科技大學(xué)學(xué)報(bào). 2017(06)
[8]基于多文本特征融合的中文微博的立場(chǎng)檢測(cè)[J]. 奠雨潔,金琴,吳慧敏. 計(jì)算機(jī)工程與應(yīng)用. 2017(21)
[9]中文微博的立場(chǎng)判別研究[J]. 劉勘,田寧夢(mèng),王宏宇,林榮蓉,王德民. 知識(shí)管理論壇. 2017(03)
[10]深度學(xué)習(xí)在語(yǔ)音識(shí)別中的研究進(jìn)展綜述[J]. 侯一民,周慧瓊,王政一. 計(jì)算機(jī)應(yīng)用研究. 2017(08)
碩士論文
[1]基于深度學(xué)習(xí)的漫畫(huà)風(fēng)格遷移方法研究[D]. 武筱琪.西安理工大學(xué) 2019
本文編號(hào):3323872
【文章來(lái)源】:重慶理工大學(xué)重慶市
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
人腦機(jī)理流程圖
2相關(guān)工作7表2.1one-hot形式詞嵌入表單詞one-hot形式嵌入開(kāi)心[1,0,0,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0,0,0]愉悅[0,1,0,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0,0,0]高興[0,0,1,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0,0,0]詞向量分布式形式最早在1986年被Hinton[29],這種嵌入方式很好的解決了one-hot形式下的維數(shù)災(zāi)難,是一種結(jié)合詞語(yǔ)間的相似關(guān)系獲得單詞稠密向量表示的方法。具體的,分布式詞向量表示先自定義向量維度d,取值通常在200~400之間,然后對(duì)初始化的詞表矩陣(其取值格式為浮點(diǎn)小數(shù))VVKR進(jìn)行反向傳播訓(xùn)練,在特定的訓(xùn)練過(guò)程中每個(gè)單詞的權(quán)重表示得以更新。訓(xùn)練出來(lái)的單詞表均由浮點(diǎn)型小數(shù)表示,其蘊(yùn)含了詞義信息。每個(gè)詞存在于詞表庫(kù)約束的向量空間中,單詞可當(dāng)做空間中的一個(gè)點(diǎn),單詞之間語(yǔ)法、語(yǔ)義上的相似性就可表示為空間中兩點(diǎn)的余弦距離或歐式距離。2.2.1神經(jīng)概率語(yǔ)言模型詞向量分布式表示模型需要精心設(shè)計(jì)統(tǒng)籌方法,以解決數(shù)據(jù)稀疏等相關(guān)問(wèn)題,Bengio等[30]在2003年提出用神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建語(yǔ)言模型,神經(jīng)網(wǎng)絡(luò)通過(guò)分析得到一個(gè)出現(xiàn)詞的條件概率。通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)言模型,能夠方便得到詞向量的分布式表示。詞的相似度可以通過(guò)詞向量的距離來(lái)衡量,對(duì)于語(yǔ)料庫(kù)中未見(jiàn)詞語(yǔ)序列的概率可以用相似詞進(jìn)行估計(jì),這就避免了數(shù)據(jù)稀疏的問(wèn)題。Bengio將用神經(jīng)網(wǎng)絡(luò)構(gòu)建N-Gram模型的任務(wù)轉(zhuǎn)換成給定前N-1個(gè)詞然后預(yù)測(cè)下一個(gè)詞的任務(wù),以無(wú)監(jiān)督學(xué)習(xí)的方式在沒(méi)有標(biāo)注的語(yǔ)料上構(gòu)建語(yǔ)言模型。其結(jié)構(gòu)如圖2.2所示:圖2.2神經(jīng)概率語(yǔ)言模型結(jié)構(gòu)
重慶理工大學(xué)碩士學(xué)位論文8它包括四個(gè)網(wǎng)絡(luò)層:輸入(Input)層、投影(Projection)層、隱藏(Hidden)層和輸出(Output)層。其中W,U為中間層權(quán)重矩陣。p,q為中間層偏置向量。具體的,對(duì)于語(yǔ)料庫(kù)C中任意詞匯w,取其前N-1個(gè)詞對(duì)應(yīng)的詞向量wContext)(作為神經(jīng)網(wǎng)絡(luò)的輸入,一個(gè))),((wwContext為一個(gè)訓(xùn)練樣本。語(yǔ)言模型可以對(duì)隨意設(shè)定詞嵌入維度,避免了維度爆炸問(wèn)題。投影層向量mX為輸入層N-1個(gè)詞按順序拼起來(lái)的長(zhǎng)向量,其規(guī)模為(N-1)m。隱藏層實(shí)質(zhì)為一個(gè)全連接層,中我們對(duì)mX進(jìn)行計(jì)算,計(jì)算公式如式2.1所示:ZpWX)tanh(wwqUyZww(2.1)其中激活函數(shù)為雙曲正切函數(shù),W,U,p,q為模型的訓(xùn)練參數(shù)。計(jì)算得到的),,,(w21wwNwyyyy進(jìn)入輸出層通過(guò)Softmax,則wy的分量wiy表示為當(dāng)上下文為wContext)(時(shí)下個(gè)詞為語(yǔ)料庫(kù)C中第i個(gè)詞的概率。最終目標(biāo)函數(shù)wwContextp))((計(jì)算公式如式2.2所示:NiyycwiwcweewContextp1))(((2.2)神經(jīng)語(yǔ)言概率模型基于相似詞語(yǔ)概率及文本間條件概率進(jìn)行統(tǒng)計(jì)計(jì)算,解決數(shù)據(jù)稀疏的問(wèn)題,并能有效的訓(xùn)練出分布式詞向量。2.2.2Word2VecMikolov[31]等結(jié)合神經(jīng)概率語(yǔ)言模型思想,在2013年提出了word2vec詞向量訓(xùn)練模型,相比較傳統(tǒng)NLP的高維度、特征稀疏等表示特點(diǎn),Word2Vec訓(xùn)練出的詞向量是稠密低維度的。Word2vec利用詞的上下文信息調(diào)整權(quán)重,使詞向量自身表達(dá)的語(yǔ)義信息更加豐富。Google公司開(kāi)源推出了此工具包,并被廣大研究者運(yùn)用在情感分析、問(wèn)答系統(tǒng)、文本翻譯等任務(wù)網(wǎng)絡(luò)中的輸入層。圖2.3CBOW與Skip-gram模型結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]基于亮度與色度信息的深度學(xué)習(xí)圖像風(fēng)格遷移算法研究[J]. 楊慧炯,韓燕麗,郭蕓俊. 重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)). 2019(07)
[2]基于深度學(xué)習(xí)的語(yǔ)音識(shí)別方法研究[J]. 邵娜,李曉坤,劉磊,陳虹旭,鄭永亮,楊磊. 智能計(jì)算機(jī)與應(yīng)用. 2019(02)
[3]基于兩階段注意力機(jī)制的立場(chǎng)檢測(cè)方法[J]. 岳天馳,張紹武,楊亮,林鴻飛,于凱. 廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[4]基于詞向量技術(shù)與主題詞特征的微博立場(chǎng)檢測(cè)[J]. 鄭海洋,高俊波,邱杰,焦鳳. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(09)
[5]基于Dopout與ADAM優(yōu)化器的改進(jìn)CNN算法[J]. 楊觀賜,楊靜,李少波,胡建軍. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(07)
[6]關(guān)于微博評(píng)論研究的文獻(xiàn)綜述[J]. 張正梅,楊娜. 傳播力研究. 2018(07)
[7]自然語(yǔ)言處理中的深度學(xué)習(xí):方法及應(yīng)用[J]. 林奕歐,雷航,李曉瑜,吳佳. 電子科技大學(xué)學(xué)報(bào). 2017(06)
[8]基于多文本特征融合的中文微博的立場(chǎng)檢測(cè)[J]. 奠雨潔,金琴,吳慧敏. 計(jì)算機(jī)工程與應(yīng)用. 2017(21)
[9]中文微博的立場(chǎng)判別研究[J]. 劉勘,田寧夢(mèng),王宏宇,林榮蓉,王德民. 知識(shí)管理論壇. 2017(03)
[10]深度學(xué)習(xí)在語(yǔ)音識(shí)別中的研究進(jìn)展綜述[J]. 侯一民,周慧瓊,王政一. 計(jì)算機(jī)應(yīng)用研究. 2017(08)
碩士論文
[1]基于深度學(xué)習(xí)的漫畫(huà)風(fēng)格遷移方法研究[D]. 武筱琪.西安理工大學(xué) 2019
本文編號(hào):3323872
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3323872.html
最近更新
教材專著