基于深度學習混合模型的文本分類研究
本文關鍵詞:基于深度學習混合模型的文本分類研究
更多相關文章: 文本分類 深度學習 稀疏自動編碼器 深度置信網(wǎng)絡 Softmax
【摘要】:互聯(lián)網(wǎng)的飛速發(fā)展使得文本分類成為大數(shù)據(jù)時代下的一種關鍵技術。文本信息中包含著大量的有價值信息,如何有效的管理這些文本信息并且有效的獲取有價值的信息成為信息科學面臨的挑戰(zhàn)。文本分類是文本信息處理當中的關鍵點,在文本信息處理中有著重要地位。目前深度學習已廣泛應用與手寫體識別、圖像識別以及語音識別等各種領域,但是應用于文本分類方面的研究仍然比較少。本文充分利用了深度學習良好的學習特征能力,提出了一種基于深度學習的混合模型,并且設計出一種基于該混合模型的文本分類器。該混合模型使用了稀疏自動編碼器和深度置信網(wǎng)絡兩種常見的深度學習模型進行混合;旌夏P椭饕扇糠纸M成,前兩層使用稀疏自動編碼器來構造,中間使用一個三層的深度置信網(wǎng)絡,最后用Softmax回歸作為分類層。為了測試本文基于深度學習混合模型的分類器的分類性能,分別在英文數(shù)據(jù)集20Newsgroup和中文數(shù)據(jù)集復旦大學中文語料庫上進行了相關實驗。在英文文本分類實驗中,使用基于深度學習混合模型的分類器進行分類,得到了比較高的分類正確率。為進一步驗證其性能的優(yōu)越性,與樸素貝葉斯分類器、KNN分類器、支持向量機分類器進行對比實驗,基于深度學習混合模型的分類器的分類效果要好于樸素貝葉斯分類器、KNN分類器和支持向量機分類器的分類效果。在中文文本分類實驗中,對復旦大學中文語料庫進行了實驗,得到很好的分類效果,并且討論了不同的參數(shù)設置對分類正確率的影響。
【關鍵詞】:文本分類 深度學習 稀疏自動編碼器 深度置信網(wǎng)絡 Softmax
【學位授予單位】:蘭州大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 中文摘要3-4
- Abstract4-8
- 第一章 緒論8-15
- 1.1 數(shù)據(jù)挖掘領域相關介紹8-10
- 1.1.1 數(shù)據(jù)挖掘的技術分類8-9
- 1.1.2 數(shù)據(jù)挖掘的挖掘過程9
- 1.1.3 數(shù)據(jù)挖掘的研究熱點問題9-10
- 1.2 文本分類研究背景及意義10-11
- 1.3 文本分類的研究現(xiàn)狀11-13
- 1.4 論文的主要工作及組織結構13-15
- 第二章 文本分類中的相關技術15-24
- 2.1 文本分類概述15-16
- 2.2 文本預處理16
- 2.3 文本表示16-17
- 2.4 文本特征選擇17-19
- 2.5 文本分類算法19-22
- 2.5.1 樸素貝葉斯19-20
- 2.5.2 決策樹20-21
- 2.5.3 KNN21
- 2.5.4 支持向量機21-22
- 2.6 本章小結22-24
- 第三章 深度學習24-33
- 3.1 深度學習簡介24-27
- 3.1.1 深度學習基本思想25-26
- 3.1.2 深度學習的訓練過程26-27
- 3.2 深度學習的常用模型27-28
- 3.2.1 自動編碼器27
- 3.2.2 卷積神經(jīng)網(wǎng)絡27-28
- 3.3 受限玻爾茲曼機28-32
- 3.3.1 受限玻爾茲曼機原理28-30
- 3.3.2 受限玻爾茲曼機的能量模型30-31
- 3.3.3 受限玻爾茲曼機的訓練算法31-32
- 3.4 本章小結32-33
- 第四章 基于深度學習混合模型的文本分類33-44
- 4.1 混合模型的設計33-34
- 4.2 文本分類器的設計34-43
- 4.2.1 文本預處理模塊35-37
- 4.2.2 特征學習模塊37-42
- 4.2.3 分類識別模塊42-43
- 4.3 本章小結43-44
- 第五章 實驗及結果分析44-50
- 5.1 分類的評價標準44
- 5.2 實驗數(shù)據(jù)集44-45
- 5.3 實驗的軟硬件環(huán)境45
- 5.4 英文文本分類實驗45-47
- 5.5 中文文本分類實驗47-50
- 第六章 總結與展望50-52
- 6.1 研究工作總結50-51
- 6.2 展望51-52
- 參考文獻52-54
- 在學期間的研究成果54-55
- 致謝55
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊春德;張磊;;基于自適應深度置信網(wǎng)絡的圖像分類方法[J];計算機工程與設計;2015年10期
2 陳翠平;;基于深度信念網(wǎng)絡的文本分類算法[J];計算機系統(tǒng)應用;2015年02期
3 劉勘;袁蘊英;;基于自動編碼器的短文本特征提取及聚類研究[J];北京大學學報(自然科學版);2015年02期
4 雷成;葉小勇;李小波;;深度學習技術及其在腫瘤分類中的應用[J];智能計算機與應用;2014年06期
5 曲建嶺;杜辰飛;邸亞洲;高峰;郭超然;;深度自動編碼器的研究與展望[J];計算機與現(xiàn)代化;2014年08期
6 張開旭;周昌樂;;基于自動編碼器的中文詞匯特征無監(jiān)督學習[J];中文信息學報;2013年05期
7 戚孝銘;施亮;;基于模擬退火及蜂群算法的優(yōu)化特征選擇算法[J];計算機工程與設計;2013年08期
8 張培穎;王雷全;;基于語義距離的文本分類方法[J];計算機技術與發(fā)展;2013年01期
9 孫志軍;薛磊;許陽明;王正;;深度學習研究綜述[J];計算機應用研究;2012年08期
10 郭亞維;劉曉霞;;文本分類中信息增益特征選擇方法的研究[J];計算機工程與應用;2012年27期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 陸璐;張旭東;趙瑩;高雋;;基于卷積神經(jīng)網(wǎng)絡的車牌照字符識別研究[A];第十二屆全國圖象圖形學學術會議論文集[C];2005年
中國碩士學位論文全文數(shù)據(jù)庫 前3條
1 馬冬梅;基于深度學習的圖像檢索研究[D];內蒙古大學;2014年
2 王海麟;通過信息幾何方法挖掘玻爾茲曼機的不變性[D];天津大學;2014年
3 姜鶴;SVM文本分類中基于法向量的特征選擇算法研究[D];上海交通大學;2010年
,本文編號:768478
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/768478.html