復數(shù)神經(jīng)網(wǎng)絡研究
發(fā)布時間:2020-08-26 08:50
【摘要】:目前大多數(shù)深度學習技術、模塊以及框架都是基于實數(shù)操作和表示,經(jīng)過研究發(fā)現(xiàn)復數(shù)具有實數(shù)不可比擬的優(yōu)勢,比如豐富的表示能力、具有相位信息以及對噪聲具有魯棒性等。盡管復數(shù)網(wǎng)絡具有杰出的優(yōu)勢,但缺乏構建復數(shù)網(wǎng)絡的模塊,因此很少有人研究復數(shù)域神經(jīng)網(wǎng)絡。本文研究了實數(shù)域神經(jīng)網(wǎng)絡的構建方法,并細致分析了復數(shù)域神經(jīng)網(wǎng)絡的構建方法,從而將神經(jīng)網(wǎng)絡擴展到復數(shù)域。本文主要研究了卷積神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡,并將其擴展到復數(shù)域。為了研究復數(shù)神經(jīng)網(wǎng)絡,本文對深度學習中的卷積神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡分別作了深入分析,包括遞歸神經(jīng)網(wǎng)絡為何出現(xiàn)梯度消失與爆炸問題、卷積神經(jīng)網(wǎng)絡中的各個網(wǎng)絡層的實現(xiàn)原理,并基于這些研究內(nèi)容來構建復數(shù)神經(jīng)網(wǎng)絡。主要研究內(nèi)容包括:(1)研究基于酉矩陣的遞歸神經(jīng)網(wǎng)絡實現(xiàn)機理:反向梯度傳播時遞歸神經(jīng)網(wǎng)絡存在的梯度消失或爆炸現(xiàn)象會導致網(wǎng)絡無法繼續(xù)訓練。本研究重點從數(shù)學理論角度對基于酉矩陣的遞歸神經(jīng)網(wǎng)絡解決梯度消失或爆炸問題的原理進行分析,并對比了目前典型的三種參數(shù)化酉矩陣的方法:UERNN、Tunable和FFT。對比分析發(fā)現(xiàn)三種分解方式能夠覆蓋的空間均為酉空間的子空間,但只有Tunable可以通過修改參數(shù)來調(diào)整子空間的大小。(2)研究基于復數(shù)的深度殘差神經(jīng)網(wǎng)絡構建方法:研究分析了復數(shù)在參數(shù)表示和網(wǎng)絡深度方面的優(yōu)勢,以及復數(shù)殘差神經(jīng)網(wǎng)絡的構建方法。為了在深度殘差神經(jīng)網(wǎng)絡基礎上實現(xiàn)復數(shù)域的數(shù)據(jù)處理,構建了復數(shù)卷積、復數(shù)池化、復數(shù)權重初始化、復數(shù)批量歸一化以及復數(shù)激活函數(shù)等5個殘差網(wǎng)絡中的關鍵模塊,并利用這5個模塊構建復數(shù)殘差網(wǎng)絡。為了驗證復數(shù)神經(jīng)網(wǎng)絡的優(yōu)勢,本文設計多組實驗,分別驗證復數(shù)遞歸神經(jīng)網(wǎng)絡和復數(shù)殘差網(wǎng)絡的性能。具體包括:(1)基于酉矩陣的遞歸神經(jīng)網(wǎng)絡的實驗結果與分析:針對復制任務、去噪任務和括號任務,本實驗將UERNN、Tunable、FFT三種參數(shù)化酉矩陣方法分別應用到遞歸神經(jīng)網(wǎng)絡中,在這三個任務上分別測試其與LSTM、GRU和GORU等6個網(wǎng)絡的性能。實驗表明Tunable分解酉矩陣方式構成的遞歸神經(jīng)網(wǎng)絡在復制任務上表現(xiàn)最好,而GORU在去噪任務和括號任務上表現(xiàn)最佳。(2)基于實數(shù)域和復數(shù)域殘差網(wǎng)絡的實驗結果與分析:實驗設計了基于CIFAR-10和CIFAR-100的兩個圖像分類任務以及基于MusicNet的音樂轉錄任務。實驗表明復數(shù)殘差網(wǎng)絡在圖像分類任務上表現(xiàn)不佳;而復數(shù)殘差網(wǎng)絡在音樂轉錄任務上精度超過實數(shù)域殘差網(wǎng)絡3.3%。在圖像分類任務上,經(jīng)過非局部連接網(wǎng)絡優(yōu)化后的復數(shù)殘差網(wǎng)絡性能比未經(jīng)過非局部連接網(wǎng)絡優(yōu)化的復數(shù)殘差網(wǎng)絡也提高了0.1%。
【學位授予單位】:西安電子科技大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP183
【圖文】:
( )in outn n ,因此單參數(shù) 的值為in outn n導,可知在復數(shù)初始化時只需要利用輸入和輸出來指權重滿足均值為 0,方差為 22 。數(shù)批量歸一化是對權重初始化的補充。在訓練神經(jīng)網(wǎng)絡時,若權重改變使后續(xù)輸入的分布也發(fā)生變化,就需要修改網(wǎng)絡分布變化。這樣操作代價太大,因此將每層的輸出做輸入當作下一層的輸入。做歸一化目的是讓輸入數(shù)(0,1)。但是歸一化后會使得網(wǎng)絡表達能力弱化不少,數(shù)時,如果將數(shù)據(jù)進行上述歸一化操作,會使得大部近,這些數(shù)據(jù)在經(jīng)過激活函數(shù)時,只使用了激活函數(shù)激活函數(shù)的飽和部分,使網(wǎng)絡模型的表達能力降低。
=rr riir ii 前同樣需要初始化 和 。為了方便訓練,令批量歸,需將縮放參數(shù) 中的rr ii 和 均初始化為1 2 ,i 均初始化為 0。量歸一化的理論推導完畢,在代碼實現(xiàn)時需要將輸入陣、縮放矩陣以及偏移向量,其余與在實數(shù)域構建批數(shù)激活函數(shù)引入激活函數(shù)目的是為了給網(wǎng)絡引入非線性因子。激,將冗余的數(shù)據(jù)過濾。目前卷積神經(jīng)網(wǎng)絡中使用的激變體居多。校正線性單元(Rectified Linear Unit, Re圖如圖 4.3 所示。
將 UERNN、Tunable、FFT 構成的 RNN 網(wǎng)絡與 GRU、LSTM 以及 GORU 等六個網(wǎng)絡分別在該復制任務上進行性能測試,網(wǎng)絡收斂結果折線對比圖如圖 5.1 所示。圖5.1 復制任務在 5 個網(wǎng)絡上的精度比較折線圖圖 5.1 中縱軸是網(wǎng)絡的損失值,橫軸是迭代次數(shù)。從圖 5.1 可以看出在復制任務中收斂最快的,即損失值下降最快的是 UERNN 構成的 RNN 網(wǎng)絡;最終損失值最低即精度最高的是 Tunable 和 FFT 構成的 RNN 網(wǎng)絡。LSTM、GRU 以及 GORU 相比較前三者而言收斂速度較慢,且最終損失值較高,因此在該任務中 LSTM、GRU 以及GORU 的性能都比較差。下面對本任務的測試結果進行對比和分析。復制任務是一個純記憶性任務,因此記憶型網(wǎng)絡更適合該任務。GRU、LSTM 以及 GORU 具有過濾信息的門控機制,因此在該任務上表現(xiàn)差。UERNN 構成的 RNN 網(wǎng)絡只能夠覆蓋酉空間中固定大小的子空間,因此只能找到該子空間內(nèi)的最優(yōu)解,而非全酉空間的最優(yōu)解。在子空間上修改參數(shù),并通
本文編號:2804967
【學位授予單位】:西安電子科技大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP183
【圖文】:
( )in outn n ,因此單參數(shù) 的值為in outn n導,可知在復數(shù)初始化時只需要利用輸入和輸出來指權重滿足均值為 0,方差為 22 。數(shù)批量歸一化是對權重初始化的補充。在訓練神經(jīng)網(wǎng)絡時,若權重改變使后續(xù)輸入的分布也發(fā)生變化,就需要修改網(wǎng)絡分布變化。這樣操作代價太大,因此將每層的輸出做輸入當作下一層的輸入。做歸一化目的是讓輸入數(shù)(0,1)。但是歸一化后會使得網(wǎng)絡表達能力弱化不少,數(shù)時,如果將數(shù)據(jù)進行上述歸一化操作,會使得大部近,這些數(shù)據(jù)在經(jīng)過激活函數(shù)時,只使用了激活函數(shù)激活函數(shù)的飽和部分,使網(wǎng)絡模型的表達能力降低。
=rr riir ii 前同樣需要初始化 和 。為了方便訓練,令批量歸,需將縮放參數(shù) 中的rr ii 和 均初始化為1 2 ,i 均初始化為 0。量歸一化的理論推導完畢,在代碼實現(xiàn)時需要將輸入陣、縮放矩陣以及偏移向量,其余與在實數(shù)域構建批數(shù)激活函數(shù)引入激活函數(shù)目的是為了給網(wǎng)絡引入非線性因子。激,將冗余的數(shù)據(jù)過濾。目前卷積神經(jīng)網(wǎng)絡中使用的激變體居多。校正線性單元(Rectified Linear Unit, Re圖如圖 4.3 所示。
將 UERNN、Tunable、FFT 構成的 RNN 網(wǎng)絡與 GRU、LSTM 以及 GORU 等六個網(wǎng)絡分別在該復制任務上進行性能測試,網(wǎng)絡收斂結果折線對比圖如圖 5.1 所示。圖5.1 復制任務在 5 個網(wǎng)絡上的精度比較折線圖圖 5.1 中縱軸是網(wǎng)絡的損失值,橫軸是迭代次數(shù)。從圖 5.1 可以看出在復制任務中收斂最快的,即損失值下降最快的是 UERNN 構成的 RNN 網(wǎng)絡;最終損失值最低即精度最高的是 Tunable 和 FFT 構成的 RNN 網(wǎng)絡。LSTM、GRU 以及 GORU 相比較前三者而言收斂速度較慢,且最終損失值較高,因此在該任務中 LSTM、GRU 以及GORU 的性能都比較差。下面對本任務的測試結果進行對比和分析。復制任務是一個純記憶性任務,因此記憶型網(wǎng)絡更適合該任務。GRU、LSTM 以及 GORU 具有過濾信息的門控機制,因此在該任務上表現(xiàn)差。UERNN 構成的 RNN 網(wǎng)絡只能夠覆蓋酉空間中固定大小的子空間,因此只能找到該子空間內(nèi)的最優(yōu)解,而非全酉空間的最優(yōu)解。在子空間上修改參數(shù),并通
【參考文獻】
相關期刊論文 前1條
1 程靜;何承源;;廣義酉矩陣與廣義Hermite矩陣的一些性質[J];重慶師范大學學報(自然科學版);2010年03期
本文編號:2804967
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2804967.html
最近更新
教材專著