結(jié)合話題相關(guān)性的微博文本情感分類(lèi)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-06-14 19:20
隨著互聯(lián)網(wǎng)社交的流行,以新浪微博為主的社交平臺(tái)得到了極大的發(fā)展,截止2019年,新浪微博文本數(shù)據(jù)日均發(fā)布量高達(dá)1.5億,是文本數(shù)據(jù)日均發(fā)布量最高的平臺(tái)。這些文本數(shù)據(jù)中包含了大量的主觀信息,如果能夠?qū)@些主觀信息進(jìn)行有效地分析,及時(shí)了解用戶(hù)的情感傾向,并抽取出相應(yīng)的觀點(diǎn),就可以有效把握輿論趨勢(shì),繼而惠及政府和民眾。故許多研究人員展開(kāi)了對(duì)微博文本進(jìn)行情感分析的研究。對(duì)于微博文本情感分類(lèi),以前的方法大多是用人工特征進(jìn)行粗粒度二分類(lèi),會(huì)耗費(fèi)大量人力資源且分類(lèi)結(jié)果較為簡(jiǎn)單,同時(shí)沒(méi)有對(duì)用戶(hù)的觀點(diǎn)做進(jìn)一步的抽取及可視化,使得用戶(hù)對(duì)情感分類(lèi)結(jié)果較難理解。此外,微博文本是話題與正文結(jié)合在一起的形式,很多情況下二者并不相關(guān),若直接對(duì)其進(jìn)行情感分類(lèi)則會(huì)額外耗費(fèi)資源且對(duì)分類(lèi)器造成干擾。針對(duì)以上不足,本文結(jié)合話題相關(guān)性研究并實(shí)現(xiàn)了微博文本情感分類(lèi)系統(tǒng),本文主要包含以下幾方面的工作:1.構(gòu)建結(jié)合話題相關(guān)性的微博文本情感分類(lèi)模型。該模型包括數(shù)據(jù)獲取模塊、數(shù)據(jù)預(yù)處理模塊、話題相關(guān)性分析模塊、微博文本細(xì)粒度情感分類(lèi)模塊、觀點(diǎn)詞抽取情感分析模塊共五個(gè)模塊。2.給出一種不觸發(fā)反爬蟲(chóng)機(jī)制的微博文本批量獲取方法以及包含分詞、去...
【文章來(lái)源】:西南大學(xué)重慶市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:90 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
帶話題的微博文本示例
西南大學(xué)工程碩士學(xué)位論文2上圖中,“#翟天臨涉學(xué)術(shù)論文造假#”“#昆山燃爆#”引發(fā)了網(wǎng)友們的激烈討論,在微博中跟蹤這些熱點(diǎn)事件的討論話題,通過(guò)對(duì)該話題下的微博文本的情感傾向判斷與總結(jié),可以發(fā)現(xiàn)大眾對(duì)具體的國(guó)家政策、時(shí)事的關(guān)注程度以及是否支持,從而為相關(guān)的輿論,政策制定提供參考信息。所以,聯(lián)合話題對(duì)微博文本進(jìn)行分析[2-3]可以為情感分析提供一個(gè)更具體的視角,從而更有利于輔助政府進(jìn)行網(wǎng)絡(luò)輿情監(jiān)測(cè),維持社會(huì)穩(wěn)定。對(duì)于微博上出現(xiàn)的這些用戶(hù)原創(chuàng)內(nèi)容數(shù)據(jù)(UserGeneratedContent),其中包含了大量的觀點(diǎn)以及情緒傾向信息,如何將這些信息通過(guò)合理地可視化呈現(xiàn)給用戶(hù),也是一項(xiàng)有意義的工作。例如騰訊AI平臺(tái)情感傾向分析模塊中,就可以將用戶(hù)輸入的任何文本以一個(gè)狀態(tài)條的形式表達(dá)出情感極性及其強(qiáng)弱,使得用戶(hù)能直觀地得到情感信息。騰訊AI平臺(tái)情感傾向分析模塊如圖1.2所示。圖1.2騰訊AI平臺(tái)情感傾向分析模塊作者在北京艾漫數(shù)據(jù)科技股份有限公司實(shí)習(xí)期間,擔(dān)任微博情感分類(lèi)工具的研發(fā)工作,其成果的一部分轉(zhuǎn)化為了百度數(shù)說(shuō)中的紅黑榜模塊。其中紅黑粉比例是指對(duì)于某個(gè)明星而言,其在某一時(shí)間段內(nèi),微博粉絲對(duì)該明星的態(tài)度是喜歡(紅),還是討厭(黑)占整個(gè)粉絲群體的比例。利用該工具,可以迅速發(fā)現(xiàn)某個(gè)明星在大眾口碑中的大體情況。艾漫數(shù)據(jù)紅黑榜如圖1.3所示。圖1.3艾漫數(shù)據(jù)紅黑榜
西南大學(xué)工程碩士學(xué)位論文2上圖中,“#翟天臨涉學(xué)術(shù)論文造假#”“#昆山燃爆#”引發(fā)了網(wǎng)友們的激烈討論,在微博中跟蹤這些熱點(diǎn)事件的討論話題,通過(guò)對(duì)該話題下的微博文本的情感傾向判斷與總結(jié),可以發(fā)現(xiàn)大眾對(duì)具體的國(guó)家政策、時(shí)事的關(guān)注程度以及是否支持,從而為相關(guān)的輿論,政策制定提供參考信息。所以,聯(lián)合話題對(duì)微博文本進(jìn)行分析[2-3]可以為情感分析提供一個(gè)更具體的視角,從而更有利于輔助政府進(jìn)行網(wǎng)絡(luò)輿情監(jiān)測(cè),維持社會(huì)穩(wěn)定。對(duì)于微博上出現(xiàn)的這些用戶(hù)原創(chuàng)內(nèi)容數(shù)據(jù)(UserGeneratedContent),其中包含了大量的觀點(diǎn)以及情緒傾向信息,如何將這些信息通過(guò)合理地可視化呈現(xiàn)給用戶(hù),也是一項(xiàng)有意義的工作。例如騰訊AI平臺(tái)情感傾向分析模塊中,就可以將用戶(hù)輸入的任何文本以一個(gè)狀態(tài)條的形式表達(dá)出情感極性及其強(qiáng)弱,使得用戶(hù)能直觀地得到情感信息。騰訊AI平臺(tái)情感傾向分析模塊如圖1.2所示。圖1.2騰訊AI平臺(tái)情感傾向分析模塊作者在北京艾漫數(shù)據(jù)科技股份有限公司實(shí)習(xí)期間,擔(dān)任微博情感分類(lèi)工具的研發(fā)工作,其成果的一部分轉(zhuǎn)化為了百度數(shù)說(shuō)中的紅黑榜模塊。其中紅黑粉比例是指對(duì)于某個(gè)明星而言,其在某一時(shí)間段內(nèi),微博粉絲對(duì)該明星的態(tài)度是喜歡(紅),還是討厭(黑)占整個(gè)粉絲群體的比例。利用該工具,可以迅速發(fā)現(xiàn)某個(gè)明星在大眾口碑中的大體情況。艾漫數(shù)據(jù)紅黑榜如圖1.3所示。圖1.3艾漫數(shù)據(jù)紅黑榜
【參考文獻(xiàn)】:
期刊論文
[1]邏輯公式間的Jaccard距離及其應(yīng)用[J]. 于鵬. 計(jì)算機(jī)科學(xué)與探索. 2020(11)
[2]基于雙重注意力模型的微博情感傾向性分析[J]. 羅春春,郝曉燕. 南京大學(xué)學(xué)報(bào)(自然科學(xué)). 2020(02)
[3]CNNIC發(fā)布第44次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[J]. 于朝暉. 網(wǎng)信軍民融合. 2019(09)
[4]基于文本聚類(lèi)的網(wǎng)絡(luò)微博輿情話題識(shí)別與追蹤技術(shù)研究[J]. 閆俊伢,馬尚才. 重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)). 2019(09)
[5]基于HowNet的語(yǔ)義表示學(xué)習(xí)[J]. 朱靖雯,楊玉基,許斌,李涓子. 中文信息學(xué)報(bào). 2019(03)
[6]基于話題標(biāo)簽的微博熱點(diǎn)話題演化研究[J]. 李慧,王麗婷. 情報(bào)科學(xué). 2019(01)
[7]面向微博短文本分類(lèi)的文本向量化方法比較研究[J]. 李心蕾,王昊,劉小敏,鄧三鴻. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2018(08)
[8]中文微博情感分析研究與實(shí)現(xiàn)[J]. 李勇敢,周學(xué)廣,孫艷,張煥國(guó). 軟件學(xué)報(bào). 2017 (12)
[9]結(jié)合話題相關(guān)性的熱點(diǎn)話題情感傾向研究[J]. 何躍,肖敏,張?jiān)? 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(03)
[10]用于微博情感分析的一種情感語(yǔ)義增強(qiáng)的深度學(xué)習(xí)模型[J]. 何炎祥,孫松濤,牛菲菲,李飛. 計(jì)算機(jī)學(xué)報(bào). 2017(04)
碩士論文
[1]基于LDA模型的微博情感分析技術(shù)研究[D]. 毛龍龍.西北師范大學(xué) 2015
本文編號(hào):3230176
【文章來(lái)源】:西南大學(xué)重慶市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:90 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
帶話題的微博文本示例
西南大學(xué)工程碩士學(xué)位論文2上圖中,“#翟天臨涉學(xué)術(shù)論文造假#”“#昆山燃爆#”引發(fā)了網(wǎng)友們的激烈討論,在微博中跟蹤這些熱點(diǎn)事件的討論話題,通過(guò)對(duì)該話題下的微博文本的情感傾向判斷與總結(jié),可以發(fā)現(xiàn)大眾對(duì)具體的國(guó)家政策、時(shí)事的關(guān)注程度以及是否支持,從而為相關(guān)的輿論,政策制定提供參考信息。所以,聯(lián)合話題對(duì)微博文本進(jìn)行分析[2-3]可以為情感分析提供一個(gè)更具體的視角,從而更有利于輔助政府進(jìn)行網(wǎng)絡(luò)輿情監(jiān)測(cè),維持社會(huì)穩(wěn)定。對(duì)于微博上出現(xiàn)的這些用戶(hù)原創(chuàng)內(nèi)容數(shù)據(jù)(UserGeneratedContent),其中包含了大量的觀點(diǎn)以及情緒傾向信息,如何將這些信息通過(guò)合理地可視化呈現(xiàn)給用戶(hù),也是一項(xiàng)有意義的工作。例如騰訊AI平臺(tái)情感傾向分析模塊中,就可以將用戶(hù)輸入的任何文本以一個(gè)狀態(tài)條的形式表達(dá)出情感極性及其強(qiáng)弱,使得用戶(hù)能直觀地得到情感信息。騰訊AI平臺(tái)情感傾向分析模塊如圖1.2所示。圖1.2騰訊AI平臺(tái)情感傾向分析模塊作者在北京艾漫數(shù)據(jù)科技股份有限公司實(shí)習(xí)期間,擔(dān)任微博情感分類(lèi)工具的研發(fā)工作,其成果的一部分轉(zhuǎn)化為了百度數(shù)說(shuō)中的紅黑榜模塊。其中紅黑粉比例是指對(duì)于某個(gè)明星而言,其在某一時(shí)間段內(nèi),微博粉絲對(duì)該明星的態(tài)度是喜歡(紅),還是討厭(黑)占整個(gè)粉絲群體的比例。利用該工具,可以迅速發(fā)現(xiàn)某個(gè)明星在大眾口碑中的大體情況。艾漫數(shù)據(jù)紅黑榜如圖1.3所示。圖1.3艾漫數(shù)據(jù)紅黑榜
西南大學(xué)工程碩士學(xué)位論文2上圖中,“#翟天臨涉學(xué)術(shù)論文造假#”“#昆山燃爆#”引發(fā)了網(wǎng)友們的激烈討論,在微博中跟蹤這些熱點(diǎn)事件的討論話題,通過(guò)對(duì)該話題下的微博文本的情感傾向判斷與總結(jié),可以發(fā)現(xiàn)大眾對(duì)具體的國(guó)家政策、時(shí)事的關(guān)注程度以及是否支持,從而為相關(guān)的輿論,政策制定提供參考信息。所以,聯(lián)合話題對(duì)微博文本進(jìn)行分析[2-3]可以為情感分析提供一個(gè)更具體的視角,從而更有利于輔助政府進(jìn)行網(wǎng)絡(luò)輿情監(jiān)測(cè),維持社會(huì)穩(wěn)定。對(duì)于微博上出現(xiàn)的這些用戶(hù)原創(chuàng)內(nèi)容數(shù)據(jù)(UserGeneratedContent),其中包含了大量的觀點(diǎn)以及情緒傾向信息,如何將這些信息通過(guò)合理地可視化呈現(xiàn)給用戶(hù),也是一項(xiàng)有意義的工作。例如騰訊AI平臺(tái)情感傾向分析模塊中,就可以將用戶(hù)輸入的任何文本以一個(gè)狀態(tài)條的形式表達(dá)出情感極性及其強(qiáng)弱,使得用戶(hù)能直觀地得到情感信息。騰訊AI平臺(tái)情感傾向分析模塊如圖1.2所示。圖1.2騰訊AI平臺(tái)情感傾向分析模塊作者在北京艾漫數(shù)據(jù)科技股份有限公司實(shí)習(xí)期間,擔(dān)任微博情感分類(lèi)工具的研發(fā)工作,其成果的一部分轉(zhuǎn)化為了百度數(shù)說(shuō)中的紅黑榜模塊。其中紅黑粉比例是指對(duì)于某個(gè)明星而言,其在某一時(shí)間段內(nèi),微博粉絲對(duì)該明星的態(tài)度是喜歡(紅),還是討厭(黑)占整個(gè)粉絲群體的比例。利用該工具,可以迅速發(fā)現(xiàn)某個(gè)明星在大眾口碑中的大體情況。艾漫數(shù)據(jù)紅黑榜如圖1.3所示。圖1.3艾漫數(shù)據(jù)紅黑榜
【參考文獻(xiàn)】:
期刊論文
[1]邏輯公式間的Jaccard距離及其應(yīng)用[J]. 于鵬. 計(jì)算機(jī)科學(xué)與探索. 2020(11)
[2]基于雙重注意力模型的微博情感傾向性分析[J]. 羅春春,郝曉燕. 南京大學(xué)學(xué)報(bào)(自然科學(xué)). 2020(02)
[3]CNNIC發(fā)布第44次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[J]. 于朝暉. 網(wǎng)信軍民融合. 2019(09)
[4]基于文本聚類(lèi)的網(wǎng)絡(luò)微博輿情話題識(shí)別與追蹤技術(shù)研究[J]. 閆俊伢,馬尚才. 重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)). 2019(09)
[5]基于HowNet的語(yǔ)義表示學(xué)習(xí)[J]. 朱靖雯,楊玉基,許斌,李涓子. 中文信息學(xué)報(bào). 2019(03)
[6]基于話題標(biāo)簽的微博熱點(diǎn)話題演化研究[J]. 李慧,王麗婷. 情報(bào)科學(xué). 2019(01)
[7]面向微博短文本分類(lèi)的文本向量化方法比較研究[J]. 李心蕾,王昊,劉小敏,鄧三鴻. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2018(08)
[8]中文微博情感分析研究與實(shí)現(xiàn)[J]. 李勇敢,周學(xué)廣,孫艷,張煥國(guó). 軟件學(xué)報(bào). 2017 (12)
[9]結(jié)合話題相關(guān)性的熱點(diǎn)話題情感傾向研究[J]. 何躍,肖敏,張?jiān)? 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(03)
[10]用于微博情感分析的一種情感語(yǔ)義增強(qiáng)的深度學(xué)習(xí)模型[J]. 何炎祥,孫松濤,牛菲菲,李飛. 計(jì)算機(jī)學(xué)報(bào). 2017(04)
碩士論文
[1]基于LDA模型的微博情感分析技術(shù)研究[D]. 毛龍龍.西北師范大學(xué) 2015
本文編號(hào):3230176
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3230176.html
最近更新
教材專(zhuān)著