基于支持向量機(jī)的海量文本分類并行化技術(shù)研究
本文關(guān)鍵詞:基于支持向量機(jī)的海量文本分類并行化技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)中的信息數(shù)據(jù)以前所未有的速度快速增加著。文本作為網(wǎng)絡(luò)數(shù)據(jù)的主要表現(xiàn)形式之一,蘊(yùn)含著豐富的信息。文本分類技術(shù)是自然語言處理的重要部分,通過文本分類能挖掘到文本數(shù)據(jù)很多潛在的價值;ヂ(lián)網(wǎng)上的數(shù)據(jù)挖掘技術(shù)往往伴隨著海量規(guī)模的數(shù)據(jù)集。計算速度是這類問題重點(diǎn)優(yōu)化的因素之一。通過算法并行化可以提高計算速度。使用計算機(jī)集群或圖形處理器等硬件環(huán)境則可以提高算法的并行計算能力。本論文目的是提高海量文本分類的精度與速度,分析了文本分類技術(shù)與并行化技術(shù)。介紹了中文文本處理的分詞、去停用詞、文本向量表示、特征選擇、權(quán)重計算過程,對比了不同分類算法的特點(diǎn),并介紹了人工智能優(yōu)化算法。本文選擇了GPU、Hadoop以及Spark的并行計算平臺進(jìn)行介紹與分析。對文本分類精度的提高,本文提出了文本特征空間迭代優(yōu)化算法。算法針對每次生成的特征空間存在的如類別混淆等不足進(jìn)行修正,以生成新的特征空間提高分類精度。此外,引入粒子群優(yōu)化算法用于徑向基核函數(shù)支持向量機(jī)的參數(shù)調(diào)優(yōu),以找到具有更高精度的徑向基核參數(shù)。對分類速度的提高,是通過算法并行化達(dá)到的。本文對文本的預(yù)處理、線性核與徑向基核函數(shù)的支持向量機(jī)均進(jìn)行了并行實(shí)現(xiàn),通過將算法中迭代部分進(jìn)行高并發(fā)計算、將算法中適合拆分的部分使用Map/Reduce進(jìn)行計算等方式提高算法的并行化程度。使用GPU、Hadoop以及Spark提高了計算速度,擴(kuò)展了算法處理的數(shù)據(jù)規(guī)模。在實(shí)驗(yàn)的設(shè)計與實(shí)施上,本文進(jìn)行了新聞文本分類與微博情感分類兩組實(shí)驗(yàn)。兩組數(shù)據(jù)集具有各自的特點(diǎn),分別代表了兩種文本分類的實(shí)際應(yīng)用。文本特征空間迭代優(yōu)化算法對新聞分類效果顯著,妥善處理了類別之間的混淆情況。微博正文附加評論的方法擴(kuò)展了文本內(nèi)容,加上粒子群調(diào)優(yōu)的徑向基核支持向量機(jī),微博情感分類也有較高的精度。數(shù)據(jù)集的規(guī)模從小到大,使用串行算法耗費(fèi)很長時間的數(shù)據(jù)集,通過并行實(shí)現(xiàn)能夠達(dá)到生產(chǎn)環(huán)境中可以接受的較短時間。
【關(guān)鍵詞】:文本分類 支持向量機(jī) 并行計算 特征空間
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第1章 緒論10-15
- 1.1 研究背景與意義10
- 1.2 國內(nèi)外研究發(fā)展現(xiàn)狀10-14
- 1.2.1 文本分類10-12
- 1.2.2 文本分類并行化12-13
- 1.2.3 情感分類13-14
- 1.3 研究的主要內(nèi)容14
- 1.4 本文的內(nèi)容組織14-15
- 第2章 中文文本分類研究15-29
- 2.1 中文文本分類框架15-16
- 2.2 中文文本處理流程16-22
- 2.2.1 中文分詞16-17
- 2.2.2 去停用詞17-18
- 2.2.3 文本向量表示18
- 2.2.4 特征選擇18-21
- 2.2.5 權(quán)重計算21-22
- 2.3 文本分類算法22-26
- 2.3.1 K最近鄰分類算法22-23
- 2.3.2 樸素貝葉斯分類算法23-25
- 2.3.3 支持向量機(jī)分類算法25-26
- 2.4 優(yōu)化算法26-29
- 2.4.1 人工智能優(yōu)化算法26-27
- 2.4.2 粒子群優(yōu)化算法27-29
- 第3章 并行化技術(shù)研究29-33
- 3.1 GPU并行計算框架29
- 3.2 Hadoop分布式計算系統(tǒng)29-31
- 3.2.1 HDFS分布式文件系統(tǒng)30
- 3.2.2 Map/Reduce計算模型30
- 3.2.3 Hive數(shù)據(jù)倉庫30-31
- 3.3 Spark分布式計算系統(tǒng)31-33
- 3.3.1 彈性分布式數(shù)據(jù)集31
- 3.3.2 Spark工作原理31-33
- 第4章 改進(jìn)的文本分類及并行化方法33-46
- 4.1 文本特征空間迭代算法33-37
- 4.1.1 特征空間優(yōu)化33-34
- 4.1.2 擴(kuò)充詞典34
- 4.1.3 過濾混淆詞34-35
- 4.1.4 迭代優(yōu)化35-37
- 4.2 粒子群優(yōu)化的徑向基核SVM37-38
- 4.3 文本預(yù)處理的并行實(shí)現(xiàn)38-40
- 4.4 SVM的GPU并行實(shí)現(xiàn)40-43
- 4.4.1 數(shù)據(jù)加載40-41
- 4.4.2 GPU并行化的線性核支持向量機(jī)41-42
- 4.4.3 GPU并行化的徑向基核支持向量機(jī)42-43
- 4.5 Hadoop并行化的SVM43-44
- 4.6 Spark并行化的SVM44-46
- 第5章 數(shù)據(jù)與實(shí)驗(yàn)設(shè)計46-52
- 5.1 實(shí)驗(yàn)設(shè)計46
- 5.2 數(shù)據(jù)采集46-49
- 5.2.1 新聞數(shù)據(jù)46-48
- 5.2.2 微博數(shù)據(jù)48-49
- 5.3 頁面凈化49-50
- 5.4 數(shù)據(jù)存取50
- 5.5 評價指標(biāo)50-52
- 5.5.1 并行化加速比50-51
- 5.5.2 準(zhǔn)確率和召回率51
- 5.5.3 F1分?jǐn)?shù)51-52
- 第6章 實(shí)驗(yàn)部署與結(jié)果分析52-64
- 6.1 系統(tǒng)環(huán)境部署52
- 6.2 新聞文本分類52-60
- 6.2.1 新聞文本特征52-53
- 6.2.2 新聞文本預(yù)處理53-54
- 6.2.3 并行實(shí)驗(yàn)部署54
- 6.2.4 分類精度效果54-58
- 6.2.5 運(yùn)行性能對比58-60
- 6.3 微博情感分類60-64
- 6.3.1 微博文本特征60
- 6.3.2 微博文本預(yù)處理60-61
- 6.3.3 并行實(shí)驗(yàn)部署61
- 6.3.4 分類精度效果61-62
- 6.3.5 運(yùn)行性能對比62-64
- 結(jié)論64-66
- 參考文獻(xiàn)66-69
- 攻讀學(xué)位期間發(fā)表論文與研究成果清單69-70
- 致謝70
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李盛瑜;何文;;一種對聊天文本進(jìn)行特征選取的方法研究[J];計算機(jī)科學(xué);2007年05期
2 蔣志方;祝翠玲;吳強(qiáng);;一個對不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計算機(jī)工程;2007年12期
3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計;2007年18期
4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機(jī)科學(xué);2002年08期
5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報;2004年09期
6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期
7 諶志群;;文本趨勢挖掘綜述[J];情報科學(xué);2010年02期
8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期
9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計算機(jī)技術(shù)與發(fā)展;2013年10期
10 陳福海;C++中用>>和<<重載實(shí)現(xiàn)文本文件的方便存取[J];現(xiàn)代計算機(jī);1997年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會議論文集[C];2001年
10 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年
3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年
4 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年
5 孫曉華;基于聚類的文本機(jī)會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年
6 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
7 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學(xué);2010年
8 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年
9 李自強(qiáng);大規(guī)模文本分類的若干問題研究[D];電子科技大學(xué);2013年
10 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年
2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年
3 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年
4 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年
5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評估及推薦應(yīng)用[D];華南理工大學(xué);2015年
6 黃晨;基于新詞識別和時間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年
7 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年
8 王s
本文編號:449207
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/449207.html