基于Spark的大規(guī)模RNNLM系統(tǒng)
本文關鍵詞:基于Spark的大規(guī)模RNNLM系統(tǒng),由筆耕文化傳播整理發(fā)布。
【摘要】:自然語言處理作為人工智能中的重要問題,一直是研究與開發(fā)的熱點;其中基于遞歸神經網(wǎng)絡的語言模型(RNNLM)具有非常強大的功能和魯棒性,但由于傳統(tǒng)計算技術和計算系統(tǒng)的限制,難以構建大規(guī)模的RNNLM系統(tǒng),制約了RNNLM的準確性等。本文在分析現(xiàn)有串行和基于GPU的RNNLM系統(tǒng)的基礎上,針對影響RNNLM中計算量的因素,在Spark平臺上,設計了面向大規(guī)模RNNLM的結構。改變了通過提高矩陣計算速度提高RNNLM系統(tǒng)性能的方式,模擬生物神經網(wǎng)絡的并行特性,設計了基于并行神經元的RNNLM,以邏輯神經元為單位,實現(xiàn)RNNLM的分布式并發(fā),從而將龐大的矩陣運算轉變?yōu)榉植际竭壿嬌窠浽囊浑A運算,極大的提高了RNNLM的效率,為構建大規(guī)模RNNLM奠定了基礎。經過測試,利用Spark計算框架優(yōu)化RNNLM系統(tǒng),將N x M的矩陣拆分到各個節(jié)點中計算,每個神經元只需要計算某一行數(shù)據(jù),將龐大的計算量遷移到計算節(jié)點中這會大大降低時間開銷,系統(tǒng)計算速率提升將近20倍,將語料擴大之后仍然適用。接著分析了分布式平臺Spark和RNNLM中制約計算性能的因素,設計了基于參數(shù)合并的廣播式傳輸策略、基于NVM的容錯機制和面向分布式RNNLM的內存優(yōu)化機制,從提高分布式RNNLM中參數(shù)通信效率和針對RNNLM提高Spark性能兩方面進行了改進,系統(tǒng)計算速率提升7-15倍。最后在Spark平臺上,實現(xiàn)了大規(guī)模分布式RNNLM的原型系統(tǒng),分別使用微軟語料和RNNLM Toolkit語料,對傳統(tǒng)的RNNLM系統(tǒng)和基于Spark的RNNLM系統(tǒng)進行了性能測試,測試結果表明基于Spark的RNNLM系統(tǒng)經過結構的優(yōu)化后,打破了神經元個數(shù)方面和大規(guī)模語料方面的瓶頸,經過測試,基于Spark的大規(guī)模RNNLM原型系統(tǒng)性能比傳統(tǒng)的RNNLM系統(tǒng)計算速率提升10倍以上,并沒有因為語料成倍擴大導致系統(tǒng)運行時間呈線性成倍上升,極大的提升了RNNLM系統(tǒng)的可用性。
【關鍵詞】:遞歸神經網(wǎng)絡 自然語言處理 分布式計算 Spark
【學位授予單位】:江蘇大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP183;TP391.1
【目錄】:
- 摘要4-6
- Abstract6-11
- 第一章 緒論11-24
- 1.1 研究背景及意義11-22
- 1.1.1 基于神經網(wǎng)絡語言模型的相關研究12-17
- 1.1.2 分布式計算框架的相關研究17-22
- 1.2 本文的主要工作和組織結構22-24
- 1.2.1 本文的主要工作22-23
- 1.2.2 本文的組織結構23-24
- 第二章 面向大規(guī)模RNNLM的結構分析24-34
- 2.1 現(xiàn)有RNNLM算法的分析24-27
- 2.2 基于Spark大規(guī)模RNNLM的相關定義27-28
- 2.3 基于Spark大規(guī)模RNNLM的結構28-32
- 2.4 本章小結32-34
- 第三章 基于并行神經元的RNNLM34-43
- 3.1 分布式神經元自主訓練策略34-36
- 3.1.1 單個神經元ac值的計算34-35
- 3.1.2 單個神經元與輸出層之間權重的更新35
- 3.1.3 單個神經元與上次隱藏層之間權重的更新35-36
- 3.1.4 單個神經元與輸入層之間權重的更新36
- 3.2 神經元的協(xié)調策略36-38
- 3.3 原型系統(tǒng)測試與分析38-42
- 3.3.1 原型系統(tǒng)與測試環(huán)境38-39
- 3.3.2 使用大規(guī)模語料的測試與分析39-40
- 3.3.3 使用小規(guī)模語料的測試與分析40-41
- 3.3.4 非對稱Spark集群中的測試與分析41-42
- 3.4 本章小結42-43
- 第四章 大規(guī)模分布式RNNLM的性能優(yōu)化43-59
- 4.1 制約大規(guī)模分布式RNNLM性能的因素43-45
- 4.2 面向分布式神經元的高效傳輸機制45-53
- 4.2.1 數(shù)據(jù)共享方式45-46
- 4.2.2 基于遠程直接數(shù)據(jù)存取的傳輸策略46-51
- 4.2.3 基于參數(shù)合并的廣播式傳輸策略51-53
- 4.3 基于NVM的容錯機制53-54
- 4.4 面向分布式RNNLM的內存優(yōu)化54-55
- 4.5 原型系統(tǒng)測試與分析55-58
- 4.5.1 原型系統(tǒng)與測試環(huán)境55-56
- 4.5.2 使用大規(guī)模RNNLM Toolkit語料的測試與分析56-57
- 4.5.3 優(yōu)化前后的測試與分析57-58
- 4.6 本章小結58-59
- 第五章 原型系統(tǒng)的測試與分析59-65
- 5.1 基于Spark的大規(guī)模RNNLM原型系統(tǒng)的實現(xiàn)59-61
- 5.1.1 數(shù)據(jù)分布模塊59
- 5.1.2 數(shù)據(jù)收集模塊59
- 5.1.3 匯聚計算模塊59-60
- 5.1.4 分布計算模塊60
- 5.1.5 權重更新模塊60
- 5.1.6 容錯機制優(yōu)化模塊60
- 5.1.7 內存優(yōu)化模塊60-61
- 5.1.8 基于數(shù)據(jù)聚合的通信模塊61
- 5.2 原型系統(tǒng)的測試與分析61-64
- 5.2.1 改變神經元數(shù)量的測試與分析62
- 5.2.2 改變語料規(guī)模的測試與分析62-64
- 5.3 本章小結64-65
- 第六章 總結65-67
- 6.1 工作總結65-66
- 6.2 工作展望66-67
- 參考文獻67-71
- 致謝71-72
- 在學期間發(fā)表的學術論文及其他科研成果72
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 金仁貴;;帶有偏差單元的遞歸神經網(wǎng)絡在故障診斷方面的應用[J];電腦知識與技術;2006年29期
2 陳鋼;王占山;;連續(xù)時間遞歸神經網(wǎng)絡的穩(wěn)定性分析[J];沈陽理工大學學報;2007年02期
3 汪曉夢;;帶有偏差單元的遞歸神經網(wǎng)絡在故障診斷方面的應用優(yōu)化[J];甘肅聯(lián)合大學學報(自然科學版);2010年05期
4 杜艷可;徐瑞;;具有時滯的遞歸神經網(wǎng)絡動力學研究進展[J];北華大學學報(自然科學版);2012年01期
5 蔣洪睿,莫瑋,李麗;遞歸神經網(wǎng)絡自適應均衡抗突發(fā)干擾研究[J];電訊技術;2000年01期
6 宋軼民,余躍慶,張策,馬文貴;動態(tài)遞歸神經網(wǎng)絡及其在機敏機構辨識中的應用[J];機械科學與技術;2001年04期
7 張奇志,賈永樂,周雅莉;噪聲有源控制的遞歸神經網(wǎng)絡方法[J];控制與決策;2001年03期
8 李峰,李樹榮;基于動態(tài)遞歸神經網(wǎng)絡的動態(tài)矩陣控制[J];石油大學學報(自然科學版);2001年03期
9 唐普英,李紹榮,黃順吉;一種新的復值遞歸神經網(wǎng)絡訓練方法及其應用[J];信號處理;2001年06期
10 文敦偉,蔡自興;遞歸神經網(wǎng)絡的模糊隨機學習算法[J];高技術通訊;2002年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 房毅憲;王寶文;王永茂;;基于偏差遞歸神經網(wǎng)絡的股價預測(英文)[A];計算機技術與應用進展——全國第17屆計算機科學與技術應用(CACIS)學術會議論文集(上冊)[C];2006年
2 劉勇;沈毅;胡恒章;;遞歸神經網(wǎng)絡自適應濾波器[A];1998年中國智能自動化學術會議論文集(上冊)[C];1998年
3 趙英凱;蔡寧;;基于對角遞歸神經網(wǎng)絡的肟化投酮量在線預估[A];1998年中國智能自動化學術會議論文集(上冊)[C];1998年
4 李樹榮;李峰;;基于動態(tài)遞歸神經網(wǎng)絡的非線性系統(tǒng)重構[A];1998年中國控制會議論文集[C];1998年
5 史志偉;韓敏;;應用遞歸神經網(wǎng)絡建立非線性結構系統(tǒng)模型[A];第二十三屆中國控制會議論文集(下冊)[C];2004年
6 叢爽;戴誼;;遞歸神經網(wǎng)絡逼近性能的研究[A];'2006系統(tǒng)仿真技術及其應用學術交流會論文集[C];2006年
7 呂進;郭晨;劉雨;;基于不完全遞歸神經網(wǎng)絡的二階導數(shù)多步預測模糊控制及應用[A];2007年中國智能自動化會議論文集[C];2007年
8 蒲興成;;時變時滯不確定遞歸神經網(wǎng)絡漸近穩(wěn)定的一個充分條件[A];2008’“先進集成技術”院士論壇暨第二屆儀表、自動化與先進集成技術大會論文集[C];2008年
9 仉寶玉;吳志敏;;基于對角遞歸神經網(wǎng)絡的智能PID控制[A];'2003系統(tǒng)仿真技術及其應用學術交流會論文集[C];2003年
10 沈艷;謝美萍;;基于遞歸神經網(wǎng)絡的船舶運動極短期建模預報[A];第二屆全國信息獲取與處理學術會議論文集[C];2004年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 趙永昌;一類時滯靜態(tài)遞歸神經網(wǎng)絡的動力學行為研究[D];中國海洋大學;2010年
2 高海賓;擾動作用下遞歸神經網(wǎng)絡穩(wěn)定性研究[D];燕山大學;2006年
3 黃玉嬌;具有廣義分段線性激活函數(shù)的遞歸神經網(wǎng)絡的多穩(wěn)定性分析[D];東北大學;2014年
4 徐東坡;遞歸神經網(wǎng)絡梯度學習算法的收斂性[D];大連理工大學;2009年
5 于佳麗;遞歸神經網(wǎng)絡的連續(xù)吸引子與模糊控制[D];電子科技大學;2009年
6 王芬;遞歸神經網(wǎng)絡的動力學行為分析[D];武漢科技大學;2011年
7 季策;時滯遞歸神經網(wǎng)絡的動態(tài)特性研究[D];東北大學;2005年
8 徐軍;遞歸神經網(wǎng)絡穩(wěn)定性分析[D];浙江大學;2007年
9 張銳;幾類遞歸神經網(wǎng)絡的穩(wěn)定性及其應用研究[D];東北大學;2010年
10 張益軍;時滯遞歸神經網(wǎng)絡穩(wěn)定性分析及網(wǎng)絡化同步控制[D];東華大學;2008年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 柳玉華;一種遞歸神經網(wǎng)絡方法研究及其在非線性系統(tǒng)跟蹤控制中的應用[D];江西理工大學;2015年
2 羅威威;全局指數(shù)穩(wěn)定的遞歸神經網(wǎng)絡的魯棒性分析[D];中國礦業(yè)大學;2015年
3 楊渺渺;具有時滯的遞歸神經網(wǎng)絡穩(wěn)定性分析[D];電子科技大學;2015年
4 崔志超;基于產品特征的中文評論情感分析系統(tǒng)設計與實現(xiàn)[D];河北科技大學;2015年
5 余仕敏;基于遞歸神經網(wǎng)絡的廣告點擊率預估[D];浙江理工大學;2016年
6 宛立達;基于振動信號分析的故障診斷理論與應用[D];東北石油大學;2010年
7 李克強;基于Spark的大規(guī)模RNNLM系統(tǒng)[D];江蘇大學;2016年
8 葛洋;多時滯遞歸神經網(wǎng)絡的指數(shù)穩(wěn)定性研究[D];曲阜師范大學;2010年
9 張欣;遞歸神經網(wǎng)絡的研究及在非線性動態(tài)系統(tǒng)辨識中的應用[D];太原理工大學;2005年
10 曾智;遞歸神經網(wǎng)絡的動力學行為研究[D];重慶大學;2006年
本文關鍵詞:基于Spark的大規(guī)模RNNLM系統(tǒng),,由筆耕文化傳播整理發(fā)布。
本文編號:319297
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/319297.html