基于支持向量機(jī)的海量文本分類并行化技術(shù)研究

發(fā)布時間：2017-06-14 10:13

本文關(guān)鍵詞：基于支持向量機(jī)的海量文本分類并行化技術(shù)研究，，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)中的信息數(shù)據(jù)以前所未有的速度快速增加著。文本作為網(wǎng)絡(luò)數(shù)據(jù)的主要表現(xiàn)形式之一,蘊(yùn)含著豐富的信息。文本分類技術(shù)是自然語言處理的重要部分,通過文本分類能挖掘到文本數(shù)據(jù)很多潛在的價值�；ヂ�(lián)網(wǎng)上的數(shù)據(jù)挖掘技術(shù)往往伴隨著海量規(guī)模的數(shù)據(jù)集。計算速度是這類問題重點(diǎn)優(yōu)化的因素之一。通過算法并行化可以提高計算速度。使用計算機(jī)集群或圖形處理器等硬件環(huán)境則可以提高算法的并行計算能力。本論文目的是提高海量文本分類的精度與速度,分析了文本分類技術(shù)與并行化技術(shù)。介紹了中文文本處理的分詞、去停用詞、文本向量表示、特征選擇、權(quán)重計算過程,對比了不同分類算法的特點(diǎn),并介紹了人工智能優(yōu)化算法。本文選擇了GPU、Hadoop以及Spark的并行計算平臺進(jìn)行介紹與分析。對文本分類精度的提高,本文提出了文本特征空間迭代優(yōu)化算法。算法針對每次生成的特征空間存在的如類別混淆等不足進(jìn)行修正,以生成新的特征空間提高分類精度。此外,引入粒子群優(yōu)化算法用于徑向基核函數(shù)支持向量機(jī)的參數(shù)調(diào)優(yōu),以找到具有更高精度的徑向基核參數(shù)。對分類速度的提高,是通過算法并行化達(dá)到的。本文對文本的預(yù)處理、線性核與徑向基核函數(shù)的支持向量機(jī)均進(jìn)行了并行實(shí)現(xiàn),通過將算法中迭代部分進(jìn)行高并發(fā)計算、將算法中適合拆分的部分使用Map/Reduce進(jìn)行計算等方式提高算法的并行化程度。使用GPU、Hadoop以及Spark提高了計算速度,擴(kuò)展了算法處理的數(shù)據(jù)規(guī)模。在實(shí)驗(yàn)的設(shè)計與實(shí)施上,本文進(jìn)行了新聞文本分類與微博情感分類兩組實(shí)驗(yàn)。兩組數(shù)據(jù)集具有各自的特點(diǎn),分別代表了兩種文本分類的實(shí)際應(yīng)用。文本特征空間迭代優(yōu)化算法對新聞分類效果顯著,妥善處理了類別之間的混淆情況。微博正文附加評論的方法擴(kuò)展了文本內(nèi)容,加上粒子群調(diào)優(yōu)的徑向基核支持向量機(jī),微博情感分類也有較高的精度。數(shù)據(jù)集的規(guī)模從小到大,使用串行算法耗費(fèi)很長時間的數(shù)據(jù)集,通過并行實(shí)現(xiàn)能夠達(dá)到生產(chǎn)環(huán)境中可以接受的較短時間。
【關(guān)鍵詞】：文本分類 支持向量機(jī) 并行計算 特征空間
【學(xué)位授予單位】：北京理工大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TP391.1
【目錄】：

摘要5-6
ABSTRACT6-10
第1章緒論10-15
1.1 研究背景與意義10
1.2 國內(nèi)外研究發(fā)展現(xiàn)狀10-14
1.2.1 文本分類10-12
1.2.2 文本分類并行化12-13
1.2.3 情感分類13-14
1.3 研究的主要內(nèi)容14
1.4 本文的內(nèi)容組織14-15
第2章中文文本分類研究15-29
2.1 中文文本分類框架15-16
2.2 中文文本處理流程16-22
2.2.1 中文分詞16-17
2.2.2 去停用詞17-18
2.2.3 文本向量表示18
2.2.4 特征選擇18-21
2.2.5 權(quán)重計算21-22
2.3 文本分類算法22-26
2.3.1 K最近鄰分類算法22-23
2.3.2 樸素貝葉斯分類算法23-25
2.3.3 支持向量機(jī)分類算法25-26
2.4 優(yōu)化算法26-29
2.4.1 人工智能優(yōu)化算法26-27
2.4.2 粒子群優(yōu)化算法27-29
第3章并行化技術(shù)研究29-33
3.1 GPU并行計算框架29
3.2 Hadoop分布式計算系統(tǒng)29-31
3.2.1 HDFS分布式文件系統(tǒng)30
3.2.2 Map/Reduce計算模型30
3.2.3 Hive數(shù)據(jù)倉庫30-31
3.3 Spark分布式計算系統(tǒng)31-33
3.3.1 彈性分布式數(shù)據(jù)集31
3.3.2 Spark工作原理31-33
第4章改進(jìn)的文本分類及并行化方法33-46
4.1 文本特征空間迭代算法33-37
4.1.1 特征空間優(yōu)化33-34
4.1.2 擴(kuò)充詞典34
4.1.3 過濾混淆詞34-35
4.1.4 迭代優(yōu)化35-37
4.2 粒子群優(yōu)化的徑向基核SVM37-38
4.3 文本預(yù)處理的并行實(shí)現(xiàn)38-40
4.4 SVM的GPU并行實(shí)現(xiàn)40-43
4.4.1 數(shù)據(jù)加載40-41
4.4.2 GPU并行化的線性核支持向量機(jī)41-42
4.4.3 GPU并行化的徑向基核支持向量機(jī)42-43
4.5 Hadoop并行化的SVM43-44
4.6 Spark并行化的SVM44-46
第5章數(shù)據(jù)與實(shí)驗(yàn)設(shè)計46-52
5.1 實(shí)驗(yàn)設(shè)計46
5.2 數(shù)據(jù)采集46-49
5.2.1 新聞數(shù)據(jù)46-48
5.2.2 微博數(shù)據(jù)48-49
5.3 頁面凈化49-50
5.4 數(shù)據(jù)存取50
5.5 評價指標(biāo)50-52
5.5.1 并行化加速比50-51
5.5.2 準(zhǔn)確率和召回率51
5.5.3 F1分?jǐn)?shù)51-52
第6章實(shí)驗(yàn)部署與結(jié)果分析52-64
6.1 系統(tǒng)環(huán)境部署52
6.2 新聞文本分類52-60
6.2.1 新聞文本特征52-53
6.2.2 新聞文本預(yù)處理53-54
6.2.3 并行實(shí)驗(yàn)部署54
6.2.4 分類精度效果54-58
6.2.5 運(yùn)行性能對比58-60
6.3 微博情感分類60-64
6.3.1 微博文本特征60
6.3.2 微博文本預(yù)處理60-61
6.3.3 并行實(shí)驗(yàn)部署61
6.3.4 分類精度效果61-62
6.3.5 運(yùn)行性能對比62-64
結(jié)論64-66
參考文獻(xiàn)66-69
攻讀學(xué)位期間發(fā)表論文與研究成果清單69-70
致謝70

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 李盛瑜;何文;;一種對聊天文本進(jìn)行特征選取的方法研究[J];計算機(jī)科學(xué);2007年05期

2 蔣志方;祝翠玲;吳強(qiáng);;一個對不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計算機(jī)工程;2007年12期

3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計;2007年18期

4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機(jī)科學(xué);2002年08期

5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報;2004年09期

6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期

7 諶志群;;文本趨勢挖掘綜述[J];情報科學(xué);2010年02期

8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期

9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計算機(jī)技術(shù)與發(fā)展;2013年10期

10 陳福海;C++中用>>和<<重載實(shí)現(xiàn)文本文件的方便存取[J];現(xiàn)代計算機(jī);1997年05期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集（B輯）（NDBC2012）[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集（研究報告篇）[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集（上）[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集（技術(shù)報告篇）[C];2004年

9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

中國重要報紙全文數(shù)據(jù)庫前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年

中國博士學(xué)位論文全文數(shù)據(jù)庫前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年

2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年

3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年

4 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué)　;2009年

5 孫曉華;基于聚類的文本機(jī)會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年

6 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年

7 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學(xué);2010年

8 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年

9 李自強(qiáng);大規(guī)模文本分類的若干問題研究[D];電子科技大學(xué);2013年

10 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年

2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年

3 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年

4 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年

5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評估及推薦應(yīng)用[D];華南理工大學(xué);2015年

6 黃晨;基于新詞識別和時間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年

7 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年

8 王s

本文編號：449207

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/449207.html

上一篇：基于視覺的目標(biāo)檢測與跟蹤綜述
下一篇：智慧云制造——一種互聯(lián)網(wǎng)與制造業(yè)深度融合的新模式深度融合的新模式、新手段和新業(yè)態(tài)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于支持向量機(jī)的海量文本分類并行化技術(shù)研究