基于神經網絡的文本傾向性分類研究
本文關鍵詞: 傾向性分類 文本預處理 特征抽取 BP神經網絡 出處:《內蒙古大學》2017年碩士論文 論文類型:學位論文
【摘要】:互聯網是隨著時代發(fā)展產生的新型信息交流工具,如今已經進入了我們學習生活中的方方面面。與此同時網絡上可交流的平臺越來越多,在這些平臺中各種各樣的評論性文本也呈爆發(fā)式增長,對這些文本進行傾向分類,挖掘文本中潛在的價值具有十分重要的意義。各種平臺的評論性文本包含著對時事、物品的正負評論等,對此類文本進行傾向性分類主要是以情感、輿論導向為主線進行分類。如今,這項工作越來越被關注同時吸引了大批學者。關于對文本進行傾向性分類主要有兩類方法,一是借助于詞典、語料庫的方法。此方法在文本分類方面具有良好的效果,但是此方法過多依賴詞典等外部元素,分類結果的好壞與詞典等外部元素有直接關系,同時計算量較大。第二種方法是機器學習方法,該方法結合特征抽取技術,對文本用特殊的方式進行表示進而使用機器學習方法分類。不同的機器學習方法分類效果不同,且容易受到文本好壞的影響。本文以論壇評論性文本和電子商務網站評論性文本為載體,對文本進行傾向性分類。結合不同文本的特點,本文中人工采集了一組含噪聲較多的論壇數據同時在網站采集了一組規(guī)范的電商評論數據。評論性文本結構復雜、語言風格多樣,針對此類現象,首先對文本進行了處理,將文本格式等進行規(guī)范化,然后專門構造了分詞詞典并應用到了分詞過程中去。結合文本向量表示方法及X 2統(tǒng)計量特征抽取方法構造了文本的向量矩陣。由于論壇和電商網站評論性文本存在噪聲較多且特征多變,結合文本傾向分類的方式,本文選擇利用文本預處理結合機器學習進行文本傾向性分類。在眾多機器學習方法中,本文選用BP神經網絡模型作為文本傾向性分類模型。本文中在文本分類模型訓練過程中,構造了一層到兩層的神經網絡分類模型然后在不同的訓練集上進行了比對實驗,選出了最優(yōu)模型進而對測試文本進行了測試實驗。通過不同數據集對該模型的實驗結果的分析,驗證了 BP神經網絡分類模型對含有噪聲的文本的容錯能力,分類效果較好。
[Abstract]:With the development of the times, the Internet is a new information exchange tool, and now it has entered all aspects of our study and life. At the same time, there are more and more communication platforms on the network. In these platforms, a variety of critical text is also explosive growth, these texts tend to classify. It is very important to excavate the potential value in the text. The critical texts of various platforms contain positive and negative comments on current affairs and articles, and the classification of this kind of text is mainly based on emotion. Public opinion is the main line of classification. Nowadays, this work has attracted more and more attention and attracted a large number of scholars. There are two main methods of text classification, one is the use of dictionaries. Corpus method. This method has a good effect in text classification, but this method relies too much on external elements such as dictionaries, and the classification results are directly related to external elements such as dictionaries. The second method is machine learning, which combines feature extraction technology. Text is represented in a special way and then classified by machine learning. Different machine learning methods have different classification effects. And it is easy to be influenced by the text. This paper takes the critical text of forum and the critical text of e-commerce website as the carrier to classify the text tendentiously and combine the characteristics of different texts. In this paper, a group of noisy forum data is collected manually and a set of standard ecommerce review data is collected on the website. The structure of the critical text is complex and the language style is diverse, aiming at this kind of phenomenon. Firstly, the text is processed and the text format is standardized. Then the lexicon of participle is constructed and applied to the process of word segmentation. Combining with the representation of text vector and X. (2) the statistical feature extraction method constructs the vector matrix of the text. Because of the frequent noise and the changeable feature of the critical text in the forum and the e-commerce website. Combined with text tendency classification, this paper chooses text preprocessing combined with machine learning to classify text tendentiousness. In many machine learning methods. In this paper, BP neural network model is selected as the text orientation classification model. In this paper, the text classification model training process. A neural network classification model with one to two layers is constructed and the comparison experiments are carried out on different training sets. The optimal model is selected and the test text is tested. The fault tolerance ability of BP neural network classification model for noisy text is verified by analyzing the experimental results of the model in different data sets. The classification effect is better.
【學位授予單位】:內蒙古大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1;TP183
【相似文獻】
相關期刊論文 前10條
1 楊曉帥 ,付玫;神經網絡技術讓管理更輕松[J];軟件世界;2000年11期
2 云中客;新的神經網絡來自于仿生學[J];物理;2001年10期
3 唐春明,高協平;進化神經網絡的研究進展[J];系統(tǒng)工程與電子技術;2001年10期
4 李智;一種基于神經網絡的煤炭調運優(yōu)化方法[J];長沙鐵道學院學報;2003年02期
5 程科,王士同,楊靜宇;新型模糊形態(tài)神經網絡及其應用研究[J];計算機工程與應用;2004年21期
6 王凡,孟立凡;關于使用神經網絡推定操作者疲勞的研究[J];人類工效學;2004年03期
7 周麗暉;從統(tǒng)計角度看神經網絡[J];統(tǒng)計教育;2005年06期
8 趙奇 ,劉開第 ,龐彥軍;灰色補償神經網絡及其應用研究[J];微計算機信息;2005年14期
9 袁婷;;神經網絡在股票市場預測中的應用[J];軟件導刊;2006年05期
10 尚晉;楊有;;從神經網絡的過去談科學發(fā)展觀[J];重慶三峽學院學報;2006年03期
相關會議論文 前10條
1 徐春玉;;基于泛集的神經網絡的混沌性[A];1996中國控制與決策學術年會論文集[C];1996年
2 周樹德;王巖;孫增圻;孫富春;;量子神經網絡[A];2003年中國智能自動化會議論文集(上冊)[C];2003年
3 羅山;張琳;范文新;;基于神經網絡和簡單規(guī)劃的識別融合算法[A];2009系統(tǒng)仿真技術及其應用學術會議論文集[C];2009年
4 郭愛克;馬盡文;丁康;;序言(二)[A];1999年中國神經網絡與信號處理學術會議論文集[C];1999年
5 鐘義信;;知識論:神經網絡的新機遇——紀念中國神經網絡10周年[A];1999年中國神經網絡與信號處理學術會議論文集[C];1999年
6 許進;保錚;;神經網絡與圖論[A];1999年中國神經網絡與信號處理學術會議論文集[C];1999年
7 金龍;朱詩武;趙成志;陳寧;;數值預報產品的神經網絡釋用預報應用[A];1999年中國神經網絡與信號處理學術會議論文集[C];1999年
8 田金亭;;神經網絡在中學生創(chuàng)造力評估中的應用[A];第十二屆全國心理學學術大會論文摘要集[C];2009年
9 唐墨;王科俊;;自發(fā)展神經網絡的混沌特性研究[A];2009年中國智能自動化會議論文集(第七分冊)[南京理工大學學報(增刊)][C];2009年
10 張廣遠;萬強;曹海源;田方濤;;基于遺傳算法優(yōu)化神經網絡的故障診斷方法研究[A];第十二屆全國設備故障診斷學術會議論文集[C];2010年
相關重要報紙文章 前10條
1 美國明尼蘇達大學社會學博士 密西西比州立大學國家戰(zhàn)略規(guī)劃與分析研究中心資深助理研究員 陳心想;維護好創(chuàng)新的“神經網絡硬件”[N];中國教師報;2014年
2 盧業(yè)忠;腦控電腦 驚世駭俗[N];計算機世界;2001年
3 葛一鳴 路邊文;人工神經網絡將大顯身手[N];中國紡織報;2003年
4 中國科技大學計算機系 邢方亮;神經網絡挑戰(zhàn)人類大腦[N];計算機世界;2003年
5 記者 孫剛;“神經網絡”:打開復雜工藝“黑箱”[N];解放日報;2007年
6 本報記者 劉霞;美用DNA制造出首個人造神經網絡[N];科技日報;2011年
7 健康時報特約記者 張獻懷;干細胞移植:修復受損的神經網絡[N];健康時報;2006年
8 劉力;我半導體神經網絡技術及應用研究達國際先進水平[N];中國電子報;2001年
9 ;神經網絡和模糊邏輯[N];世界金屬導報;2002年
10 鄒麗梅 陳耀群;江蘇科大神經網絡應用研究通過鑒定[N];中國船舶報;2006年
相關博士學位論文 前10條
1 楊旭華;神經網絡及其在控制中的應用研究[D];浙江大學;2004年
2 李素芳;基于神經網絡的無線通信算法研究[D];山東大學;2015年
3 石艷超;憶阻神經網絡的混沌性及幾類時滯神經網絡的同步研究[D];電子科技大學;2014年
4 王新迎;基于隨機映射神經網絡的多元時間序列預測方法研究[D];大連理工大學;2015年
5 付愛民;極速學習機的訓練殘差、穩(wěn)定性及泛化能力研究[D];中國農業(yè)大學;2015年
6 李輝;基于粒計算的神經網絡及集成方法研究[D];中國礦業(yè)大學;2015年
7 王衛(wèi)蘋;復雜網絡幾類同步控制策略研究及穩(wěn)定性分析[D];北京郵電大學;2015年
8 張海軍;基于云計算的神經網絡并行實現及其學習方法研究[D];華南理工大學;2015年
9 李艷晴;風速時間序列預測算法研究[D];北京科技大學;2016年
10 陳輝;多維超精密定位系統(tǒng)建模與控制關鍵技術研究[D];東南大學;2015年
相關碩士學位論文 前10條
1 章穎;混合不確定性模塊化神經網絡與高校效益預測的研究[D];華南理工大學;2015年
2 賈文靜;基于改進型神經網絡的風力發(fā)電系統(tǒng)預測及控制研究[D];燕山大學;2015年
3 李慧芳;基于憶阻器的渦卷混沌系統(tǒng)及其電路仿真[D];西南大學;2015年
4 陳彥至;神經網絡降維算法研究與應用[D];華南理工大學;2015年
5 董哲康;基于憶阻器的組合電路及神經網絡研究[D];西南大學;2015年
6 武創(chuàng)舉;基于神經網絡的遙感圖像分類研究[D];昆明理工大學;2015年
7 李志杰;基于神經網絡的上證指數預測研究[D];華南理工大學;2015年
8 陳少吉;基于神經網絡血壓預測研究與系統(tǒng)實現[D];華南理工大學;2015年
9 張韜;幾類時滯神經網絡穩(wěn)定性分析[D];渤海大學;2015年
10 邵雪瑩;幾類時滯不確定神經網絡的穩(wěn)定性分析[D];渤海大學;2015年
,本文編號:1470836
本文鏈接:http://www.sikaile.net/jingjilunwen/dianzishangwulunwen/1470836.html