基于剪枝AlexNet的普米語孤立詞識別
發(fā)布時間:2021-08-17 08:24
普米語是1種日漸消亡的無文字的少數民族語言,人們?yōu)榱俗屍浍@得更好的發(fā)展與傳承,開展了許多基于深度學習的普米語語音識別研究工作.然而,人們?yōu)樽非蟾叩淖R別精度,通常不斷的增加模型復雜度,造成了神經網絡學習速度慢、訓練成本高等問題.為了加快普米語孤立詞識別中網絡的學習速度、降低網絡的訓練成本,對卷積神經網絡的AlexNet模型采用迭代剪枝算法以逐層剪枝的方式進行修剪,然后從生成的稀疏網絡中尋找最佳剪枝網絡用于普米語語譜圖識別.實驗表明,AlexNet剪枝網絡在普米語孤立詞識別中,能夠有效的降低網絡計算量、加速模型訓練.該網絡具有比原網絡更快的收斂速度,達到與原網絡類似的較高識別精度.
【文章來源】:云南民族大學學報(自然科學版). 2020,29(04)
【文章頁數】:8 頁
【部分圖文】:
剪枝前后神經網絡結構圖
AlexNet模型是在LeNet的基礎上通過堆疊3個卷積層和1個匯聚層而成的第1個現代卷積神經網絡,該模型總共有8個可訓練層,其中包含5個卷積層和3個全連接層,具有多達上千萬的待訓練參數.模型中的卷積層可看成是特征提取層,而全連接層則看作是特征映射層.在模型最后1層采用softmax激活函數對普米語語譜圖進行分類,卷積層與全連接層均使用relu激活函數.為加速模型收斂,還在該模型的每個卷積層之后都加入1個批量歸一化(batch normalization, BN)層,其網絡結構及其參數如圖2所示.圖中Input表示輸入層,輸入的是100×100×3的圖像;conv1表示第1個卷積層,使用96個11×11的卷積核,s=4表示步長;MaxPooling表示匯聚層,在該模型中均采用大小為3×3的最大匯聚,Flatten表示展平層,常用于將多維輸入一維化;fc表示全連接層.
普米語孤立詞識別的流程大致如圖3所示,首先通過對采集的原始聲音語料經預處理轉換為語譜圖,然后由其組成數據集輸入到神經網絡中進行模型訓練,最后給出識別結果.5.2 自建數據集
【參考文獻】:
期刊論文
[1]基于AlexNet模型的佤語語譜圖識別[J]. 王翠,王璐,解雪琴,和麗華,潘文林. 云南民族大學學報(自然科學版). 2019(04)
[2]基于GoogLeNet模型的剪枝算法[J]. 彭冬亮,王天興. 控制與決策. 2019(06)
[3]基于PSO-SVM的普米語語譜圖識別[J]. 楊花,江濤,董華珍,陳紹雄,傅美君,潘文林. 云南民族大學學報(自然科學版). 2018(05)
[4]基于Kaldi的普米語語音識別[J]. 胡文君,傅美君,潘文林. 計算機工程. 2018(01)
[5]基于HTK的普米語孤立詞的語音識別[J]. 李余芳,蘇潔,胡文君,潘文林. 云南民族大學學報(自然科學版). 2015(05)
[6]國內普米族研究綜述[J]. 解魯云. 云南民族學院學報(哲學社會科學版). 2003(01)
本文編號:3347426
【文章來源】:云南民族大學學報(自然科學版). 2020,29(04)
【文章頁數】:8 頁
【部分圖文】:
剪枝前后神經網絡結構圖
AlexNet模型是在LeNet的基礎上通過堆疊3個卷積層和1個匯聚層而成的第1個現代卷積神經網絡,該模型總共有8個可訓練層,其中包含5個卷積層和3個全連接層,具有多達上千萬的待訓練參數.模型中的卷積層可看成是特征提取層,而全連接層則看作是特征映射層.在模型最后1層采用softmax激活函數對普米語語譜圖進行分類,卷積層與全連接層均使用relu激活函數.為加速模型收斂,還在該模型的每個卷積層之后都加入1個批量歸一化(batch normalization, BN)層,其網絡結構及其參數如圖2所示.圖中Input表示輸入層,輸入的是100×100×3的圖像;conv1表示第1個卷積層,使用96個11×11的卷積核,s=4表示步長;MaxPooling表示匯聚層,在該模型中均采用大小為3×3的最大匯聚,Flatten表示展平層,常用于將多維輸入一維化;fc表示全連接層.
普米語孤立詞識別的流程大致如圖3所示,首先通過對采集的原始聲音語料經預處理轉換為語譜圖,然后由其組成數據集輸入到神經網絡中進行模型訓練,最后給出識別結果.5.2 自建數據集
【參考文獻】:
期刊論文
[1]基于AlexNet模型的佤語語譜圖識別[J]. 王翠,王璐,解雪琴,和麗華,潘文林. 云南民族大學學報(自然科學版). 2019(04)
[2]基于GoogLeNet模型的剪枝算法[J]. 彭冬亮,王天興. 控制與決策. 2019(06)
[3]基于PSO-SVM的普米語語譜圖識別[J]. 楊花,江濤,董華珍,陳紹雄,傅美君,潘文林. 云南民族大學學報(自然科學版). 2018(05)
[4]基于Kaldi的普米語語音識別[J]. 胡文君,傅美君,潘文林. 計算機工程. 2018(01)
[5]基于HTK的普米語孤立詞的語音識別[J]. 李余芳,蘇潔,胡文君,潘文林. 云南民族大學學報(自然科學版). 2015(05)
[6]國內普米族研究綜述[J]. 解魯云. 云南民族學院學報(哲學社會科學版). 2003(01)
本文編號:3347426
本文鏈接:http://www.sikaile.net/wenyilunwen/hanyulw/3347426.html