基于Spark的大規(guī)模RNNLM系統(tǒng)

發(fā)布時間：2017-04-20 18:24

本文關鍵詞：基于Spark的大規(guī)模RNNLM系統(tǒng)，由筆耕文化傳播整理發(fā)布。

【摘要】：自然語言處理作為人工智能中的重要問題,一直是研究與開發(fā)的熱點;其中基于遞歸神經網(wǎng)絡的語言模型(RNNLM)具有非常強大的功能和魯棒性,但由于傳統(tǒng)計算技術和計算系統(tǒng)的限制,難以構建大規(guī)模的RNNLM系統(tǒng),制約了RNNLM的準確性等。本文在分析現(xiàn)有串行和基于GPU的RNNLM系統(tǒng)的基礎上,針對影響RNNLM中計算量的因素,在Spark平臺上,設計了面向大規(guī)模RNNLM的結構。改變了通過提高矩陣計算速度提高RNNLM系統(tǒng)性能的方式,模擬生物神經網(wǎng)絡的并行特性,設計了基于并行神經元的RNNLM,以邏輯神經元為單位,實現(xiàn)RNNLM的分布式并發(fā),從而將龐大的矩陣運算轉變?yōu)榉植际竭壿嬌窠浽囊浑A運算,極大的提高了RNNLM的效率,為構建大規(guī)模RNNLM奠定了基礎。經過測試,利用Spark計算框架優(yōu)化RNNLM系統(tǒng),將N x M的矩陣拆分到各個節(jié)點中計算,每個神經元只需要計算某一行數(shù)據(jù),將龐大的計算量遷移到計算節(jié)點中這會大大降低時間開銷,系統(tǒng)計算速率提升將近20倍,將語料擴大之后仍然適用。接著分析了分布式平臺Spark和RNNLM中制約計算性能的因素,設計了基于參數(shù)合并的廣播式傳輸策略、基于NVM的容錯機制和面向分布式RNNLM的內存優(yōu)化機制,從提高分布式RNNLM中參數(shù)通信效率和針對RNNLM提高Spark性能兩方面進行了改進,系統(tǒng)計算速率提升7-15倍。最后在Spark平臺上,實現(xiàn)了大規(guī)模分布式RNNLM的原型系統(tǒng),分別使用微軟語料和RNNLM Toolkit語料,對傳統(tǒng)的RNNLM系統(tǒng)和基于Spark的RNNLM系統(tǒng)進行了性能測試,測試結果表明基于Spark的RNNLM系統(tǒng)經過結構的優(yōu)化后,打破了神經元個數(shù)方面和大規(guī)模語料方面的瓶頸,經過測試,基于Spark的大規(guī)模RNNLM原型系統(tǒng)性能比傳統(tǒng)的RNNLM系統(tǒng)計算速率提升10倍以上,并沒有因為語料成倍擴大導致系統(tǒng)運行時間呈線性成倍上升,極大的提升了RNNLM系統(tǒng)的可用性。
【關鍵詞】：遞歸神經網(wǎng)絡 自然語言處理 分布式計算 Spark
【學位授予單位】：江蘇大學
【學位級別】：碩士
【學位授予年份】：2016
【分類號】：TP183;TP391.1
【目錄】：

摘要4-6
Abstract6-11
第一章緒論11-24
1.1 研究背景及意義11-22
1.1.1 基于神經網(wǎng)絡語言模型的相關研究12-17
1.1.2 分布式計算框架的相關研究17-22
1.2 本文的主要工作和組織結構22-24
1.2.1 本文的主要工作22-23
1.2.2 本文的組織結構23-24
第二章面向大規(guī)模RNNLM的結構分析24-34
2.1 現(xiàn)有RNNLM算法的分析24-27
2.2 基于Spark大規(guī)模RNNLM的相關定義27-28
2.3 基于Spark大規(guī)模RNNLM的結構28-32
2.4 本章小結32-34
第三章基于并行神經元的RNNLM34-43
3.1 分布式神經元自主訓練策略34-36
3.1.1 單個神經元ac值的計算34-35
3.1.2 單個神經元與輸出層之間權重的更新35
3.1.3 單個神經元與上次隱藏層之間權重的更新35-36
3.1.4 單個神經元與輸入層之間權重的更新36
3.2 神經元的協(xié)調策略36-38
3.3 原型系統(tǒng)測試與分析38-42
3.3.1 原型系統(tǒng)與測試環(huán)境38-39
3.3.2 使用大規(guī)模語料的測試與分析39-40
3.3.3 使用小規(guī)模語料的測試與分析40-41
3.3.4 非對稱Spark集群中的測試與分析41-42
3.4 本章小結42-43
第四章大規(guī)模分布式RNNLM的性能優(yōu)化43-59
4.1 制約大規(guī)模分布式RNNLM性能的因素43-45
4.2 面向分布式神經元的高效傳輸機制45-53
4.2.1 數(shù)據(jù)共享方式45-46
4.2.2 基于遠程直接數(shù)據(jù)存取的傳輸策略46-51
4.2.3 基于參數(shù)合并的廣播式傳輸策略51-53
4.3 基于NVM的容錯機制53-54
4.4 面向分布式RNNLM的內存優(yōu)化54-55
4.5 原型系統(tǒng)測試與分析55-58
4.5.1 原型系統(tǒng)與測試環(huán)境55-56
4.5.2 使用大規(guī)模RNNLM Toolkit語料的測試與分析56-57
4.5.3 優(yōu)化前后的測試與分析57-58
4.6 本章小結58-59
第五章原型系統(tǒng)的測試與分析59-65
5.1 基于Spark的大規(guī)模RNNLM原型系統(tǒng)的實現(xiàn)59-61
5.1.1 數(shù)據(jù)分布模塊59
5.1.2 數(shù)據(jù)收集模塊59
5.1.3 匯聚計算模塊59-60
5.1.4 分布計算模塊60
5.1.5 權重更新模塊60
5.1.6 容錯機制優(yōu)化模塊60
5.1.7 內存優(yōu)化模塊60-61
5.1.8 基于數(shù)據(jù)聚合的通信模塊61
5.2 原型系統(tǒng)的測試與分析61-64
5.2.1 改變神經元數(shù)量的測試與分析62
5.2.2 改變語料規(guī)模的測試與分析62-64
5.3 本章小結64-65
第六章總結65-67
6.1 工作總結65-66
6.2 工作展望66-67
參考文獻67-71
致謝71-72
在學期間發(fā)表的學術論文及其他科研成果72

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 金仁貴;;帶有偏差單元的遞歸神經網(wǎng)絡在故障診斷方面的應用[J];電腦知識與技術;2006年29期

2 陳鋼;王占山;;連續(xù)時間遞歸神經網(wǎng)絡的穩(wěn)定性分析[J];沈陽理工大學學報;2007年02期

3 汪曉夢;;帶有偏差單元的遞歸神經網(wǎng)絡在故障診斷方面的應用優(yōu)化[J];甘肅聯(lián)合大學學報(自然科學版);2010年05期

4 杜艷可;徐瑞;;具有時滯的遞歸神經網(wǎng)絡動力學研究進展[J];北華大學學報(自然科學版);2012年01期

5 蔣洪睿,莫瑋,李麗;遞歸神經網(wǎng)絡自適應均衡抗突發(fā)干擾研究[J];電訊技術;2000年01期

6 宋軼民,余躍慶,張策,馬文貴;動態(tài)遞歸神經網(wǎng)絡及其在機敏機構辨識中的應用[J];機械科學與技術;2001年04期

7 張奇志,賈永樂,周雅莉;噪聲有源控制的遞歸神經網(wǎng)絡方法[J];控制與決策;2001年03期

8 李峰,李樹榮;基于動態(tài)遞歸神經網(wǎng)絡的動態(tài)矩陣控制[J];石油大學學報(自然科學版);2001年03期

9 唐普英,李紹榮,黃順吉;一種新的復值遞歸神經網(wǎng)絡訓練方法及其應用[J];信號處理;2001年06期

10 文敦偉,蔡自興;遞歸神經網(wǎng)絡的模糊隨機學習算法[J];高技術通訊;2002年01期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 房毅憲;王寶文;王永茂;;基于偏差遞歸神經網(wǎng)絡的股價預測(英文)[A];計算機技術與應用進展——全國第17屆計算機科學與技術應用（CACIS）學術會議論文集（上冊）[C];2006年

2 劉勇;沈毅;胡恒章;;遞歸神經網(wǎng)絡自適應濾波器[A];1998年中國智能自動化學術會議論文集（上冊）[C];1998年

3 趙英凱;蔡寧;;基于對角遞歸神經網(wǎng)絡的肟化投酮量在線預估[A];1998年中國智能自動化學術會議論文集（上冊）[C];1998年

4 李樹榮;李峰;;基于動態(tài)遞歸神經網(wǎng)絡的非線性系統(tǒng)重構[A];1998年中國控制會議論文集[C];1998年

5 史志偉;韓敏;;應用遞歸神經網(wǎng)絡建立非線性結構系統(tǒng)模型[A];第二十三屆中國控制會議論文集（下冊）[C];2004年

6 叢爽;戴誼;;遞歸神經網(wǎng)絡逼近性能的研究[A];'2006系統(tǒng)仿真技術及其應用學術交流會論文集[C];2006年

7 呂進;郭晨;劉雨;;基于不完全遞歸神經網(wǎng)絡的二階導數(shù)多步預測模糊控制及應用[A];2007年中國智能自動化會議論文集[C];2007年

8 蒲興成;;時變時滯不確定遞歸神經網(wǎng)絡漸近穩(wěn)定的一個充分條件[A];2008’“先進集成技術”院士論壇暨第二屆儀表、自動化與先進集成技術大會論文集[C];2008年

9 仉寶玉;吳志敏;;基于對角遞歸神經網(wǎng)絡的智能PID控制[A];'2003系統(tǒng)仿真技術及其應用學術交流會論文集[C];2003年

10 沈艷;謝美萍;;基于遞歸神經網(wǎng)絡的船舶運動極短期建模預報[A];第二屆全國信息獲取與處理學術會議論文集[C];2004年

中國博士學位論文全文數(shù)據(jù)庫前10條

1 趙永昌;一類時滯靜態(tài)遞歸神經網(wǎng)絡的動力學行為研究[D];中國海洋大學;2010年

2 高海賓;擾動作用下遞歸神經網(wǎng)絡穩(wěn)定性研究[D];燕山大學;2006年

3 黃玉嬌;具有廣義分段線性激活函數(shù)的遞歸神經網(wǎng)絡的多穩(wěn)定性分析[D];東北大學;2014年

4 徐東坡;遞歸神經網(wǎng)絡梯度學習算法的收斂性[D];大連理工大學;2009年

5 于佳麗;遞歸神經網(wǎng)絡的連續(xù)吸引子與模糊控制[D];電子科技大學;2009年

6 王芬;遞歸神經網(wǎng)絡的動力學行為分析[D];武漢科技大學;2011年

7 季策;時滯遞歸神經網(wǎng)絡的動態(tài)特性研究[D];東北大學;2005年

8 徐軍;遞歸神經網(wǎng)絡穩(wěn)定性分析[D];浙江大學;2007年

9 張銳;幾類遞歸神經網(wǎng)絡的穩(wěn)定性及其應用研究[D];東北大學;2010年

10 張益軍;時滯遞歸神經網(wǎng)絡穩(wěn)定性分析及網(wǎng)絡化同步控制[D];東華大學;2008年

中國碩士學位論文全文數(shù)據(jù)庫前10條

1 柳玉華;一種遞歸神經網(wǎng)絡方法研究及其在非線性系統(tǒng)跟蹤控制中的應用[D];江西理工大學;2015年

2 羅威威;全局指數(shù)穩(wěn)定的遞歸神經網(wǎng)絡的魯棒性分析[D];中國礦業(yè)大學;2015年

3 楊渺渺;具有時滯的遞歸神經網(wǎng)絡穩(wěn)定性分析[D];電子科技大學;2015年

4 崔志超;基于產品特征的中文評論情感分析系統(tǒng)設計與實現(xiàn)[D];河北科技大學;2015年

5 余仕敏;基于遞歸神經網(wǎng)絡的廣告點擊率預估[D];浙江理工大學;2016年

6 宛立達;基于振動信號分析的故障診斷理論與應用[D];東北石油大學;2010年

7 李克強;基于Spark的大規(guī)模RNNLM系統(tǒng)[D];江蘇大學;2016年

8 葛洋;多時滯遞歸神經網(wǎng)絡的指數(shù)穩(wěn)定性研究[D];曲阜師范大學;2010年

9 張欣;遞歸神經網(wǎng)絡的研究及在非線性動態(tài)系統(tǒng)辨識中的應用[D];太原理工大學;2005年

10 曾智;遞歸神經網(wǎng)絡的動力學行為研究[D];重慶大學;2006年

本文關鍵詞：基于Spark的大規(guī)模RNNLM系統(tǒng)，，由筆耕文化傳播整理發(fā)布。

本文編號：319297

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/319297.html

上一篇：激光傳感器三維靶標檢測系統(tǒng)的設計與研究
下一篇：SCARA機器人的結構設計與運動控制算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Spark的大規(guī)模RNNLM系統(tǒng)