遷移與集成學習在文本分類中的應用研究
發(fā)布時間:2017-04-17 06:20
本文關鍵詞:遷移與集成學習在文本分類中的應用研究,由筆耕文化傳播整理發(fā)布。
【摘要】:遷移學習是解決數(shù)據(jù)跨領域問題的一種有效方式,它從過期數(shù)據(jù)中學習知識來幫助認知新任務,由于其打破了傳統(tǒng)機器學習“獨立同分布”的假設,被成功應用于很多領域。集成學習通過組建多個有差異的分類器建立預測模型,由于其突出的穩(wěn)定性和泛化性,成為機器學習研究的熱點之一。本文以新聞文本分類為背景,對遷移學習和集成Bagging算法進行了研究,并得出一種改進的組合算法,為在少量目標訓練集的情況下進行分類提供了一種適用的框架。首先闡述了集成學習的概念、發(fā)展現(xiàn)狀,遷移學習的概念、對比分類、應用領域。之后,對新聞文本數(shù)據(jù)集的預處理過程進行詳細的描述,討論確認了參數(shù)和特征選擇算法,使預測分類模型的訓練數(shù)據(jù)輸入更精準合適。最后,本文針對目標域的訓練樣本數(shù)量較少,無法建立優(yōu)質分類模型的問題,探討了一種在遷移框架下基于集成Bagging算法的跨領域分類模型。該模型引入源域的數(shù)據(jù)并對其進行篩選,學習混合數(shù)據(jù)集,從而建立基于集成Bagging算法的分類模型,最終投票得出預測結果。通過仿真實驗的對比,采用基于貝葉斯基分類器的集成Bagging算法能使源域的遷移和目標域的分類準確率、泛化性能最好。同時,本文分析了源域中的噪音數(shù)據(jù)的數(shù)量對分類模型的影響,實驗結果表明基于遷移集成Bagging算法的模型可以部分地規(guī)避負遷移。綜上所述,本文針對不同的特征選擇算法,研究了文本預處理過程中特征選擇算法的差異。針對國內搜索引擎中很少能找到完整的英文預處理流程,本文改進了中文文本處理程序,整理出一套完整的圖形化的英文文本預處理方式。將遷移學習與集成學習結合起來,綜合探討了跨領域的數(shù)據(jù)和不平衡數(shù)據(jù)的解決方式,給出了一種基于選擇遷移的集成Bagging算法的分類模型,實驗表明該模型整體性能較好,并且能規(guī)避一定的負遷移。
【關鍵詞】:文本分類 遷移學習 集成Bagging 預處理 負遷移
【學位授予單位】:江蘇科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要6-7
- Abstract7-13
- 第1章 緒論13-17
- 1.1 研究背景13-14
- 1.2 國內外研究現(xiàn)狀14-15
- 1.3 本文工作15-16
- 1.4 組織結構16-17
- 第2章 集成學習與遷移學習的相關理論17-25
- 2.1 集成學習17-20
- 2.1.1 集成學習概念17
- 2.1.2 現(xiàn)狀與發(fā)展17-18
- 2.1.3 Bagging與Boosting算法簇18-20
- 2.2 遷移學習20-24
- 2.2.1 遷移學習概念20-21
- 2.2.2 遷移學習的分類21-23
- 2.2.3 遷移學習的對比23
- 2.2.4 遷移學習的應用23-24
- 2.3 本章小結24-25
- 第3章 文本數(shù)據(jù)預處理25-41
- 3.1 引言25
- 3.2 建立數(shù)據(jù)集25-27
- 3.3 文本表示27-28
- 3.4 特征選擇28-31
- 3.5 仿真實驗31-37
- 3.5.1 短文本處理實驗31-34
- 3.5.2 特征選擇算法對比實驗34-37
- 3.6 文本預處理系統(tǒng)設計37-40
- 3.7 本章小結40-41
- 第4章 基于選擇遷移的Bagging文本分類算法41-47
- 4.1 引言41-42
- 4.2 問題描述42-43
- 4.3 基于分類的選擇遷移算法(ADS)43-45
- 4.3.1 相關分類器43-44
- 4.3.2 基于分類的選擇遷移算法描述(ADS)44-45
- 4.4 基于選擇遷移的Bagging算法描述(A-TTB)45-46
- 4.4.1 相關Transfer Bagging算法45
- 4.4.2 基于選擇遷移的Bagging算法(A-TTB)45-46
- 4.5 本章小結46-47
- 第5章 實驗與分析47-63
- 5.1 數(shù)據(jù)集介紹47-49
- 5.2 實驗環(huán)境與工具49-50
- 5.3 實驗過程50-55
- 5.4 實驗結果與分析55-62
- 5.4.1 ADS實驗結果與分析55-57
- 5.4.2 A-TTB實驗結果與分析57-62
- 5.5 本章小結62-63
- 結論與展望63-65
- 參考文獻65-69
- 攻讀學位期間發(fā)表的學術論文69-70
- 致謝70
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 劉偉;張化祥;;數(shù)據(jù)集動態(tài)重構的集成遷移學習[J];計算機工程與應用;2010年12期
本文關鍵詞:遷移與集成學習在文本分類中的應用研究,由筆耕文化傳播整理發(fā)布。
,本文編號:312638
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/312638.html
教材專著