面向網(wǎng)絡(luò)輿情的文本語義傾向性分類算法研究
本文關(guān)鍵詞: 網(wǎng)絡(luò)輿情 傾向性分析 情感詞典 特征詞選取 隱馬爾可夫模型 出處:《河北工程大學(xué)》2016年碩士論文 論文類型:學(xué)位論文
【摘要】:輿情指的是作為社會主體的民眾,在一定范圍的社會空間內(nèi),圍繞各種類型社會事件或問題的發(fā)生、發(fā)展與變化對于社會管理者所產(chǎn)生和持有的情感及態(tài)度。近年來,網(wǎng)頁已成為反映社會輿情的主要載體之一,又由于互聯(lián)網(wǎng)網(wǎng)頁呈指數(shù)級方式的增長,網(wǎng)絡(luò)輿情在已逐漸成為政府與企業(yè)重點關(guān)注的強大輿論平臺。抓住網(wǎng)絡(luò)輿情的導(dǎo)向則可以及時地了解民眾對于某條政策或某個事件的傾向性態(tài)度,及時需求做出改進。因此分析網(wǎng)絡(luò)輿情傾向性是現(xiàn)今自然語言處理的熱點問題。網(wǎng)絡(luò)輿情的傾向性分析需要借助計算機自然語言處理技術(shù)高效、準(zhǔn)確地甄別網(wǎng)頁所涵蓋的信息,并快速有效地對輿情進行分析與分類。傳統(tǒng)的語義傾向性分析算法需要依靠網(wǎng)絡(luò)用戶選擇贊同、反對等簡單的投票形式來體現(xiàn)對事件或產(chǎn)品的態(tài)度與傾向性。然而,這對于如今的網(wǎng)絡(luò)媒體已經(jīng)遠遠不夠,民眾的評論等以微博等形式呈現(xiàn),其語義間細微差別與上下文的信息內(nèi)容分析成為一個判斷傾向性的關(guān)鍵問題。本文試圖面向網(wǎng)絡(luò)輿情建立文本語義傾向性分析模型,以提高語義傾向性分類的準(zhǔn)確性。主要研究成果如下:(1)構(gòu)建了基于HowNet與中文情感詞匯本體庫的情感詞詞典。該詞典采用了HowNet情感詞典的正負情感詞匯庫,并借鑒了中文情感詞匯本體的極性標(biāo)注方式,再經(jīng)過人工添加網(wǎng)絡(luò)常用詞匯,形成了小型的情感詞典用于文本的預(yù)處理。(2)提出了一種面向網(wǎng)絡(luò)輿情的特征詞權(quán)重計算方法。該方法由傳統(tǒng)的TF-IDF(Term Frequency-Inverse Document Frequency)權(quán)重算法添加位置權(quán)重、情感權(quán)重以及均衡性變量,使權(quán)重更適用于情感傾向性分析。在本文實驗中,改進的計算方法取得了良好的分類效果。(3)應(yīng)用了一種基于隱含馬爾科夫(Hidden Markov Model,HMM)模型的輿情傾向性分析算法。通過將文本特征詞序列作為HMM模型的觀察序列,利用其解碼算法得到該觀察序列所對應(yīng)的最優(yōu)狀態(tài)序列,從而計算出最終的情感傾向性。該方法相較于經(jīng)典的Naive Byes和SVM分類算法在性能上有一定的提高。
[Abstract]:Public opinion refers to people as the main body of society, in a certain range of social space, around the occurrence of various types of social events or problems. In recent years, web pages have become one of the main carriers reflecting social public opinion, and because of the exponential growth of Internet pages. Network public opinion has gradually become a powerful platform for government and enterprises to focus on. Grasping the guidance of network public opinion can timely understand the public attitude towards a certain policy or an event. Therefore, analyzing the tendency of network public opinion is a hot issue in natural language processing nowadays. The tendency analysis of network public opinion needs to be highly efficient with the help of computer natural language processing technology. The traditional semantic orientation analysis algorithm needs to rely on the network users to choose and approve the information contained in the web pages accurately, and to analyze and classify the public opinion quickly and effectively. Opposition and other simple forms of voting to reflect the attitude to events or products and preferences. However, this for today's online media is far from enough, people's comments and other forms such as Weibo. The analysis of semantic nuance and context has become a key problem in judging tendency. This paper attempts to establish a text semantic orientation analysis model for network public opinion. In order to improve the accuracy of semantic preference classification, the main research results are as follows: 1). An affective lexicon based on HowNet and Chinese affective lexicon is constructed, which adopts the positive and negative affective lexicon of HowNet emotion dictionary. The polarity tagging method of Chinese affective vocabulary ontology is used for reference, and then the commonly used online vocabulary is added manually. In this paper, a small emotion dictionary is formed for text preprocessing. (2) A method for calculating the weight of feature words for network public opinion is proposed, which is based on the traditional TF-IDF (TF-IDF). The Term Frequency-Inverse Document Frequency algorithm adds position weights. Emotional weight and equilibrium variables make the weight more suitable for emotional orientation analysis. The improved method achieves a good classification effect. (3) A Hidden Markov Model based on hidden Markov is applied. By taking the text word sequence as the observation sequence of the HMM model and using its decoding algorithm to get the optimal state sequence of the observation sequence. Finally, the final affective tendency is calculated. Compared with the classical Naive Byes and SVM classification algorithms, the performance of this method is improved to a certain extent.
【學(xué)位授予單位】:河北工程大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 姜芳;李國和;岳翔;吳衛(wèi)江;洪云峰;劉智淵;程遠;;基于粗分和詞性標(biāo)注的中文分詞方法[J];計算機工程與應(yīng)用;2015年06期
2 周詠梅;楊佳能;陽愛民;;面向文本情感分析的中文情感詞典構(gòu)建方法[J];山東大學(xué)學(xué)報(工學(xué)版);2013年06期
3 馮時;付永陳;陽鋒;王大玲;張一飛;;基于依存句法的博文情感傾向分析研究[J];計算機研究與發(fā)展;2012年11期
4 李開榮;孔照昆;陳桂香;朱俊武;;基于改進隱馬爾可夫模型的文本分類研究[J];微電子學(xué)與計算機;2012年11期
5 李明濤;羅軍勇;尹美娟;路林;;結(jié)合詞義的文本特征詞權(quán)重計算方法[J];計算機應(yīng)用;2012年05期
6 章棟兵;姚寒冰;顏昕;;基于隱馬爾科夫模型的語義傾向性研究[J];微型機與應(yīng)用;2010年17期
7 張增銀;元昌安;胡建軍;蔡宏果;王文棟;楊立志;;基于GEP和Baum-Welch算法訓(xùn)練HMM模型的研究[J];計算機工程與設(shè)計;2010年09期
8 徐軍;丁宇新;王曉龍;;使用機器學(xué)習(xí)方法進行新聞的情感自動分類[J];中文信息學(xué)報;2007年06期
9 唐慧豐;譚松波;程學(xué)旗;;基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J];中文信息學(xué)報;2007年06期
10 羅雙虎;歐陽為民;;基于隱Markov模型的文本分類[J];計算機工程與應(yīng)用;2007年30期
相關(guān)博士學(xué)位論文 前2條
1 萬源;基于語義統(tǒng)計分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D];武漢理工大學(xué);2012年
2 楊卉;Web文本觀點挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年
相關(guān)碩士學(xué)位論文 前5條
1 楊東強;情感增強詞向量構(gòu)建方法及應(yīng)用[D];華東師范大學(xué);2015年
2 張宏東;EM算法及其應(yīng)用[D];山東大學(xué);2014年
3 張鵬星;基于文本傾向性分析的網(wǎng)絡(luò)輿情分析及其趨勢預(yù)測[D];云南財經(jīng)大學(xué);2014年
4 羅引;互聯(lián)網(wǎng)輿情發(fā)現(xiàn)與觀點挖掘技術(shù)研究[D];電子科技大學(xué);2010年
5 范琳琳;網(wǎng)絡(luò)輿情發(fā)現(xiàn)與角色分析研究[D];西南交通大學(xué);2009年
,本文編號:1450632
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1450632.html