基于MapReduce的網(wǎng)絡(luò)書寫紋識別關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:基于MapReduce的網(wǎng)絡(luò)書寫紋識別關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:網(wǎng)絡(luò)書寫紋是指用戶在網(wǎng)絡(luò)文字中留下的具有獨特寫作風(fēng)格(如用詞習(xí)慣、語法結(jié)構(gòu)等)的特征集合。網(wǎng)絡(luò)書寫紋就像人的指紋一樣,是可以標(biāo)記作者寫作特征的獨一無二的標(biāo)識符。隨著研究的深入,作者數(shù)量增加,需要處理的總體數(shù)據(jù)規(guī)模也相應(yīng)增加,另外,研究中還發(fā)現(xiàn),在程序運行過程中,計算機(jī)的內(nèi)存、CPU等資源并沒有得到充分的利用。本文嘗試對網(wǎng)絡(luò)書寫紋識別研究中的數(shù)據(jù)處理關(guān)鍵算法并行化,以期能夠充分利用計算機(jī)資源,提高數(shù)據(jù)處理的效率。 Ngram是指給定一個序列的文本,根據(jù)N值選擇等長或變長的連續(xù)子序列。研究證明,基于Ngram特征的抽取是構(gòu)建網(wǎng)絡(luò)書寫紋個體特征集的重要技術(shù),提高數(shù)據(jù)處理效率是Ngram特征抽取過程需要解決的重要內(nèi)容。本文設(shè)計Hadoop-Ngram算法,并在Hadoop集群上實現(xiàn),實驗結(jié)果表明,相對未并行化的Ngram特征抽取,Hadoop-Ngram在文本數(shù)據(jù)的處理效率上有所提升,同時,CPU、內(nèi)存等資源的利用率也有所提高,計算機(jī)資源得到較充分的使用。在實驗中,還通過配置Hadoop通用參數(shù)選項來比較數(shù)據(jù)的處理效率,實驗證明,根據(jù)處理任務(wù)的規(guī)模和特點靈活的配置Hadoop通用參數(shù),可以使算法的運行效率進(jìn)一步提高。 基于特征選擇的集成學(xué)習(xí)(簡稱集成特征選擇),是構(gòu)建網(wǎng)絡(luò)書寫紋分類模型的重要技術(shù),它首先對特征集合進(jìn)行選擇,去除冗余和無效特征,然后按照一定的劃分算法對特征集進(jìn)行劃分,將劃分好的特征子集分配到個體分類器,由個體分類器處理特征子集,最后將各個體分類器的結(jié)果匯總得到分類模型或分類結(jié)果。在利用集成特征選擇構(gòu)建分類模型的過程中也面臨數(shù)據(jù)量增加,數(shù)據(jù)處理效率不理想的問題;诖,本文設(shè)計基于MapReduce的集成特征選擇算法Hadoop_F_Ensemble。實驗結(jié)果表明,Hadoop_F_Ensemble執(zhí)行時分類模型的構(gòu)建效率也有所提高,系統(tǒng)資源也能得到較充分的利用,通過Hadoop通用參數(shù)選項的調(diào)整,實現(xiàn)的效果會更加良好。這說明,將MapReduce應(yīng)用于網(wǎng)絡(luò)書寫紋識別研究是有意義的。
【關(guān)鍵詞】:網(wǎng)絡(luò)書寫紋 Ngram MapReduce 集成學(xué)習(xí)
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:G40-057
【目錄】:
- 摘要5-6
- Abstract6-10
- 第1章 緒論10-15
- 1.1 研究背景10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-12
- 1.3 研究意義12-13
- 1.4 研究內(nèi)容與組織結(jié)構(gòu)13-15
- 第2章 MapReduce及相關(guān)技術(shù)介紹15-22
- 2.1 MapReduce相關(guān)技術(shù)介紹15-17
- 2.1.1 MapReduce編程模型15-16
- 2.1.2 MapReduce數(shù)據(jù)類型與控制節(jié)點數(shù)據(jù)結(jié)構(gòu)16-17
- 2.1.3 容錯機(jī)制17
- 2.2 Hadoop分布式并行計算平臺17-21
- 2.2.1 Hadoop分布式文件系統(tǒng)17-19
- 2.2.2 Hadoop調(diào)度器19-20
- 2.2.3 Hadoop通用參數(shù)選項20-21
- 2.3 本章小結(jié)21-22
- 第3章 基于MapReduce的Ngram特征抽取22-40
- 3.1 網(wǎng)絡(luò)書寫紋特征抽取22-25
- 3.1.1 網(wǎng)絡(luò)書寫紋風(fēng)格特征簡介22-23
- 3.1.2 網(wǎng)絡(luò)書寫紋特征集23-24
- 3.1.3 基于Ngram的特征抽取24-25
- 3.2 基于MapReduce的Ngram特征抽取25-34
- 3.2.1 Hadoop-Ngram設(shè)計思想與簡單實現(xiàn)26-29
- 3.2.2 Hadoop-Ngram工程的UML類圖29-30
- 3.2.3 Hadoop-Ngram具體實現(xiàn)30-34
- 3.3 實驗設(shè)計與結(jié)果分析34-39
- 3.3.1 實驗設(shè)計與性能指標(biāo)34-36
- 3.3.2 實驗步驟與結(jié)果分析36-39
- 3.4 本章小結(jié)39-40
- 第4章 基于MapReduce的網(wǎng)絡(luò)書寫紋識別模型構(gòu)建研究40-57
- 4.1 網(wǎng)絡(luò)書寫紋識別分類模型關(guān)鍵技術(shù)概述40-42
- 4.2 基于MapReduce的集成特征選擇42-51
- 4.2.1 基于MapReduce的集成特征選擇并行化設(shè)計42-45
- 4.2.2 基于MapReduce的Hadoop_F_Ensemble設(shè)計思想與簡單實現(xiàn)45-46
- 4.2.3 基于MapReduce的Ensemble核心實現(xiàn)46-51
- 4.3 實驗設(shè)計與結(jié)果分析51-56
- 4.3.1 實驗設(shè)計51-52
- 4.3.2 實驗步驟與結(jié)果分析52-56
- 4.4 本章小結(jié)56-57
- 第5章 總結(jié)和展望57-59
- 5.1 總結(jié)57-58
- 5.2 展望58-59
- 參考文獻(xiàn)59-63
- 在校期間所參與項目和發(fā)表的論文63-64
- 致謝64
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前8條
1 馮峰,逯貴禎,關(guān)亞林;二維FDTD算法的網(wǎng)絡(luò)并行運算實現(xiàn)[J];北京廣播學(xué)院學(xué)報(自然科學(xué)版);2005年02期
2 史曉霖,王菊,曹元大;語音合成服務(wù)器的設(shè)計與實現(xiàn)[J];北京理工大學(xué)學(xué)報;2004年01期
3 楊光億,陳孝威;基于PVM平臺的并行編程技術(shù)及其在圖像處理中的應(yīng)用[J];計算機(jī)工程與科學(xué);2005年09期
4 劉維峰,盧偉,許海燕;基于局域網(wǎng)和MPI的PC集群計算環(huán)境[J];計算機(jī)工程與設(shè)計;2005年05期
5 羅俊,雷詠梅;基于集群SPMD算法及演化計算并行研究[J];計算機(jī)工程與設(shè)計;2005年10期
6 鐘輝;點對點通信接口的并行實現(xiàn)[J];沈陽建筑大學(xué)學(xué)報(自然科學(xué)版);2005年01期
7 李濤,羅瑜;遺傳算法的并行處理分析[J];西南科技大學(xué)學(xué)報;2004年04期
8 伍湘君,黃麗萍;超級計算機(jī)上矩陣乘的并行計算與實現(xiàn)[J];應(yīng)用氣象學(xué)報;2005年01期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 魏洪濤;基于網(wǎng)格計算的仿真任務(wù)管理與調(diào)度方法研究[D];國防科學(xué)技術(shù)大學(xué);2005年
2 葛培明;改進(jìn)的遺傳算法及其在工程優(yōu)化中的應(yīng)用[D];西南交通大學(xué);2006年
3 張傳富;仿真網(wǎng)格資源管理系統(tǒng)關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2006年
4 王學(xué)慧;并行與分布式仿真系統(tǒng)中的時間管理技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉艷;分布式網(wǎng)絡(luò)并行系統(tǒng)在艦載指控系統(tǒng)中的應(yīng)用研究[D];哈爾濱工程大學(xué);2003年
2 彭偉;基于DVM的可視化并行程序開發(fā)平臺設(shè)計[D];西北工業(yè)大學(xué);2004年
3 韓光明;基于機(jī)群計算的熱物性反問題高效分布式并行算法設(shè)計[D];武漢理工大學(xué);2006年
4 姜豪;并行處理技術(shù)在FDTD算法中的應(yīng)用[D];南京理工大學(xué);2006年
5 王菊芬;基于Linux的PC集群系統(tǒng)的研究與實現(xiàn)[D];四川大學(xué);2006年
6 易建波;基于P2P技術(shù)的廣域網(wǎng)電力系統(tǒng)分布式并行計算平臺[D];電子科技大學(xué);2007年
7 楊帆;面向核模擬的三維可視化技術(shù)研究與系統(tǒng)實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2006年
8 陳艷;熱傳導(dǎo)反問題的高效分布式并行算法研究[D];武漢理工大學(xué);2007年
9 楊學(xué)猛;基于匹配濾波原理的衛(wèi)星干擾源定位分析與實現(xiàn)[D];北京郵電大學(xué);2007年
10 黃玉東;合成孔徑雷達(dá)實時并行數(shù)據(jù)處理[D];中國海洋大學(xué);2007年
本文關(guān)鍵詞:基于MapReduce的網(wǎng)絡(luò)書寫紋識別關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:380620
本文鏈接:http://www.sikaile.net/jiaoyulunwen/jiaoyugaigechuangxinlunwen/380620.html