基于稀疏分布激活的增量式LSTM研究
發(fā)布時(shí)間:2022-01-05 15:24
近年來(lái),隨著新型人工智能技術(shù)的不斷發(fā)展以及海量數(shù)據(jù)的爆炸式增長(zhǎng),如何借助新技術(shù)高效、準(zhǔn)確地處理并分析不斷增長(zhǎng)的數(shù)據(jù)流是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)通常采用基于批量(batch)數(shù)據(jù)的訓(xùn)練方法,無(wú)法有效處理數(shù)據(jù)的動(dòng)態(tài)增長(zhǎng);保留所有歷史數(shù)據(jù)雖然可以保證學(xué)習(xí)的效果,但會(huì)給存儲(chǔ)及計(jì)算帶來(lái)巨大壓力。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNNs)是一種適合于數(shù)據(jù)流分析與建模的深度學(xué)習(xí)模型,能夠挖掘數(shù)據(jù)流中的時(shí)序關(guān)聯(lián),其變種長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-term Memory,LSTM)已經(jīng)成功應(yīng)用于機(jī)器翻譯、語(yǔ)音識(shí)別等多種流數(shù)據(jù)處理任務(wù)中,是使用最廣泛的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。但現(xiàn)有的LSTM模型無(wú)法有效適應(yīng)數(shù)據(jù)流的動(dòng)態(tài)增長(zhǎng),常規(guī)訓(xùn)練方法會(huì)導(dǎo)致“災(zāi)難性遺忘”(Catastrophic Forgetting,CF)問(wèn)題。為了提高對(duì)不斷增長(zhǎng)的海量數(shù)據(jù)分析、處理能力,增強(qiáng)LSTM模型在真實(shí)場(chǎng)景下的可用性,本文在現(xiàn)有LSTM模型的基礎(chǔ)上,針對(duì)數(shù)據(jù)流增量學(xué)習(xí)中記憶遺忘問(wèn)題,研究了基于稀疏分布激活的增量式LSTM。本文主要研究?jī)?nèi)容如下:(1)首先分析增量學(xué)習(xí)面臨的主...
【文章來(lái)源】:江蘇大學(xué)江蘇省
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【圖文】:
LSTM單元結(jié)構(gòu)
江蘇大學(xué)碩士學(xué)位論文11實(shí)數(shù)據(jù),而是使用生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GANs)在必要時(shí)生成所需的歷史數(shù)據(jù)。雖然達(dá)到相同目的,但是引入了額外的訓(xùn)練開(kāi)銷(xiāo),因此本文選擇壓縮保留部分重要的歷史數(shù)據(jù)以防止信息遺忘。同時(shí),由于數(shù)據(jù)流的學(xué)習(xí)具有時(shí)序關(guān)聯(lián)性,將已完成訓(xùn)練中的重要參數(shù)一并用于新數(shù)據(jù)的學(xué)習(xí)有利于保持時(shí)序連續(xù),對(duì)于非獨(dú)立的序列數(shù)據(jù)學(xué)習(xí)具有重要意義。與前饋網(wǎng)絡(luò)有所不同,由于LSTM網(wǎng)絡(luò)中存在輸出到輸入的反饋連接,LSTM訓(xùn)練方法采用基于時(shí)間的BP算法(BackPropagationThroughTime,BPTT),梯度會(huì)沿時(shí)間軸反向傳遞,故每一步參數(shù)的更新實(shí)際上使用了之前所有各時(shí)間步的梯度總和。但是在實(shí)際操作中,算法往往設(shè)置一個(gè)反向傳播的步長(zhǎng)(一般為4或5),只保留步長(zhǎng)內(nèi)的各梯度,所以歷史數(shù)據(jù)的信息可能在訓(xùn)練中丟失,因此需要改進(jìn)BPTT算法,使歷史梯度信息能夠傳遞到并作用于新數(shù)據(jù)產(chǎn)生的梯度上,鞏固已有的記憶。鑒于以上論述,本文從LSTM網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法兩個(gè)角度出發(fā),研究并實(shí)現(xiàn)適合于數(shù)據(jù)增量學(xué)習(xí)的新型LSTM系統(tǒng)。2.2基于稀疏分布激活增量式LSTM系統(tǒng)的結(jié)構(gòu)本文設(shè)計(jì)的基于稀疏分布激活的增量式LSTM系統(tǒng)包含基于稀疏分布的LSTM模塊和基于壓縮和記憶鞏固的增量式訓(xùn)練方法模塊,整個(gè)系統(tǒng)的結(jié)構(gòu)示意圖如圖2.1所示。圖2.1基于稀疏分布激活增量式LSTM系統(tǒng)的結(jié)構(gòu)圖2.1給出了系統(tǒng)的整體架構(gòu),整個(gè)系統(tǒng)建立在不斷增長(zhǎng)的數(shù)據(jù)流上。在基
江蘇大學(xué)碩士學(xué)位論文193.3K-Winner-Take-All神經(jīng)元激活策略為了緩解增量學(xué)習(xí)中“災(zāi)難性遺忘”問(wèn)題,神經(jīng)網(wǎng)絡(luò)不能依賴于網(wǎng)絡(luò)各層所有神經(jīng)元的行為模式。因此,在LSTM隱藏層和神經(jīng)元分組之后,在每個(gè)分組中引入神經(jīng)元競(jìng)爭(zhēng)、抑制機(jī)制,提高對(duì)動(dòng)態(tài)增長(zhǎng)的數(shù)據(jù)流連續(xù)學(xué)習(xí)的能力。具體來(lái)說(shuō),在每個(gè)分組中,采用K-Winner-Take-All神經(jīng)元激活策略,當(dāng)一個(gè)輸入模式進(jìn)入LSTM網(wǎng)絡(luò)后,同組內(nèi)的各神經(jīng)元根據(jù)各自激活值的大小進(jìn)行競(jìng)爭(zhēng),取激活值最大的前K個(gè)神經(jīng)元將其激活響應(yīng)輸入。在神經(jīng)元競(jìng)爭(zhēng)激活的同時(shí),考慮激活神經(jīng)元對(duì)其附近神經(jīng)元的抑制作用。設(shè)置抑制半徑r,當(dāng)某一神經(jīng)元按照K-Winner-Take-All策略被激活后,其抑制半徑r內(nèi)的其它神經(jīng)元均被抑制。圖3.2給出了分組內(nèi)神經(jīng)元競(jìng)爭(zhēng)、抑制示意圖。(a)(b)圖3.2抑制半徑示意圖圖3.2中陰影區(qū)域表示抑制半徑作用范圍,藍(lán)色神經(jīng)元表示競(jìng)爭(zhēng)激活的神經(jīng)元,白色神經(jīng)元表示被抑制神經(jīng)元,圖(a)抑制半徑r=3,圖(b)抑制半徑r=4。本章基于神經(jīng)元稀疏分布的LSTM借鑒Dropout、1范數(shù)(Lasso)、組稀疏(GroupLasso)等正則化方法的思想,利用稀疏激活的動(dòng)態(tài)模型結(jié)構(gòu)緩解LSTM在增量學(xué)習(xí)中“災(zāi)難性遺忘”問(wèn)題。圖3.3顯示了1范數(shù)(Lasso)、組稀疏(GroupLasso)、稀疏組索套(SparseGroupLasso)懲罰項(xiàng)和本文結(jié)構(gòu)化稀疏的直觀對(duì)比。虛線框表示將2維輸入層連接到5維輸出層的連接矩陣,灰色部分表示矩陣中被對(duì)應(yīng)懲罰項(xiàng)歸零的可能元素。Lasso懲罰移除元素的時(shí)候不考慮神經(jīng)元級(jí)的優(yōu)化。組稀疏懲罰移除了輸入層第二個(gè)神經(jīng)元的所有連接,因此該神經(jīng)元可以從網(wǎng)絡(luò)中移除。通過(guò)GroupLasso
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強(qiáng),徐偉. 計(jì)算機(jī)研究與發(fā)展. 2013(09)
[2]L1正則化機(jī)器學(xué)習(xí)問(wèn)題求解分析[J]. 孔康,汪群山,梁萬(wàn)路. 計(jì)算機(jī)工程. 2011(17)
[3]L1/2 regularization[J]. XU ZongBen 1 , ZHANG Hai 1,2 , WANG Yao 1 , CHANG XiangYu 1 & LIANG Yong 3 1 Institute of Information and System Science, Xi’an Jiaotong University, Xi’an 710049, China;2 Department of Mathematics, Northwest University, Xi’an 710069, China;3 University of Science and Technology, Macau 999078, China. Science China(Information Sciences). 2010(06)
本文編號(hào):3570594
【文章來(lái)源】:江蘇大學(xué)江蘇省
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【圖文】:
LSTM單元結(jié)構(gòu)
江蘇大學(xué)碩士學(xué)位論文11實(shí)數(shù)據(jù),而是使用生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GANs)在必要時(shí)生成所需的歷史數(shù)據(jù)。雖然達(dá)到相同目的,但是引入了額外的訓(xùn)練開(kāi)銷(xiāo),因此本文選擇壓縮保留部分重要的歷史數(shù)據(jù)以防止信息遺忘。同時(shí),由于數(shù)據(jù)流的學(xué)習(xí)具有時(shí)序關(guān)聯(lián)性,將已完成訓(xùn)練中的重要參數(shù)一并用于新數(shù)據(jù)的學(xué)習(xí)有利于保持時(shí)序連續(xù),對(duì)于非獨(dú)立的序列數(shù)據(jù)學(xué)習(xí)具有重要意義。與前饋網(wǎng)絡(luò)有所不同,由于LSTM網(wǎng)絡(luò)中存在輸出到輸入的反饋連接,LSTM訓(xùn)練方法采用基于時(shí)間的BP算法(BackPropagationThroughTime,BPTT),梯度會(huì)沿時(shí)間軸反向傳遞,故每一步參數(shù)的更新實(shí)際上使用了之前所有各時(shí)間步的梯度總和。但是在實(shí)際操作中,算法往往設(shè)置一個(gè)反向傳播的步長(zhǎng)(一般為4或5),只保留步長(zhǎng)內(nèi)的各梯度,所以歷史數(shù)據(jù)的信息可能在訓(xùn)練中丟失,因此需要改進(jìn)BPTT算法,使歷史梯度信息能夠傳遞到并作用于新數(shù)據(jù)產(chǎn)生的梯度上,鞏固已有的記憶。鑒于以上論述,本文從LSTM網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法兩個(gè)角度出發(fā),研究并實(shí)現(xiàn)適合于數(shù)據(jù)增量學(xué)習(xí)的新型LSTM系統(tǒng)。2.2基于稀疏分布激活增量式LSTM系統(tǒng)的結(jié)構(gòu)本文設(shè)計(jì)的基于稀疏分布激活的增量式LSTM系統(tǒng)包含基于稀疏分布的LSTM模塊和基于壓縮和記憶鞏固的增量式訓(xùn)練方法模塊,整個(gè)系統(tǒng)的結(jié)構(gòu)示意圖如圖2.1所示。圖2.1基于稀疏分布激活增量式LSTM系統(tǒng)的結(jié)構(gòu)圖2.1給出了系統(tǒng)的整體架構(gòu),整個(gè)系統(tǒng)建立在不斷增長(zhǎng)的數(shù)據(jù)流上。在基
江蘇大學(xué)碩士學(xué)位論文193.3K-Winner-Take-All神經(jīng)元激活策略為了緩解增量學(xué)習(xí)中“災(zāi)難性遺忘”問(wèn)題,神經(jīng)網(wǎng)絡(luò)不能依賴于網(wǎng)絡(luò)各層所有神經(jīng)元的行為模式。因此,在LSTM隱藏層和神經(jīng)元分組之后,在每個(gè)分組中引入神經(jīng)元競(jìng)爭(zhēng)、抑制機(jī)制,提高對(duì)動(dòng)態(tài)增長(zhǎng)的數(shù)據(jù)流連續(xù)學(xué)習(xí)的能力。具體來(lái)說(shuō),在每個(gè)分組中,采用K-Winner-Take-All神經(jīng)元激活策略,當(dāng)一個(gè)輸入模式進(jìn)入LSTM網(wǎng)絡(luò)后,同組內(nèi)的各神經(jīng)元根據(jù)各自激活值的大小進(jìn)行競(jìng)爭(zhēng),取激活值最大的前K個(gè)神經(jīng)元將其激活響應(yīng)輸入。在神經(jīng)元競(jìng)爭(zhēng)激活的同時(shí),考慮激活神經(jīng)元對(duì)其附近神經(jīng)元的抑制作用。設(shè)置抑制半徑r,當(dāng)某一神經(jīng)元按照K-Winner-Take-All策略被激活后,其抑制半徑r內(nèi)的其它神經(jīng)元均被抑制。圖3.2給出了分組內(nèi)神經(jīng)元競(jìng)爭(zhēng)、抑制示意圖。(a)(b)圖3.2抑制半徑示意圖圖3.2中陰影區(qū)域表示抑制半徑作用范圍,藍(lán)色神經(jīng)元表示競(jìng)爭(zhēng)激活的神經(jīng)元,白色神經(jīng)元表示被抑制神經(jīng)元,圖(a)抑制半徑r=3,圖(b)抑制半徑r=4。本章基于神經(jīng)元稀疏分布的LSTM借鑒Dropout、1范數(shù)(Lasso)、組稀疏(GroupLasso)等正則化方法的思想,利用稀疏激活的動(dòng)態(tài)模型結(jié)構(gòu)緩解LSTM在增量學(xué)習(xí)中“災(zāi)難性遺忘”問(wèn)題。圖3.3顯示了1范數(shù)(Lasso)、組稀疏(GroupLasso)、稀疏組索套(SparseGroupLasso)懲罰項(xiàng)和本文結(jié)構(gòu)化稀疏的直觀對(duì)比。虛線框表示將2維輸入層連接到5維輸出層的連接矩陣,灰色部分表示矩陣中被對(duì)應(yīng)懲罰項(xiàng)歸零的可能元素。Lasso懲罰移除元素的時(shí)候不考慮神經(jīng)元級(jí)的優(yōu)化。組稀疏懲罰移除了輸入層第二個(gè)神經(jīng)元的所有連接,因此該神經(jīng)元可以從網(wǎng)絡(luò)中移除。通過(guò)GroupLasso
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強(qiáng),徐偉. 計(jì)算機(jī)研究與發(fā)展. 2013(09)
[2]L1正則化機(jī)器學(xué)習(xí)問(wèn)題求解分析[J]. 孔康,汪群山,梁萬(wàn)路. 計(jì)算機(jī)工程. 2011(17)
[3]L1/2 regularization[J]. XU ZongBen 1 , ZHANG Hai 1,2 , WANG Yao 1 , CHANG XiangYu 1 & LIANG Yong 3 1 Institute of Information and System Science, Xi’an Jiaotong University, Xi’an 710049, China;2 Department of Mathematics, Northwest University, Xi’an 710069, China;3 University of Science and Technology, Macau 999078, China. Science China(Information Sciences). 2010(06)
本文編號(hào):3570594
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3570594.html
最近更新
教材專著