基于一維卷積神經(jīng)網(wǎng)絡(luò)的車載語(yǔ)音識(shí)別技術(shù)研究
本文關(guān)鍵詞:基于一維卷積神經(jīng)網(wǎng)絡(luò)的車載語(yǔ)音識(shí)別技術(shù)研究 出處:《安徽大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 卷積神經(jīng)網(wǎng)絡(luò) 語(yǔ)音識(shí)別 車載環(huán)境 語(yǔ)音端點(diǎn)檢測(cè) 加權(quán)功率譜
【摘要】:隨著經(jīng)濟(jì)水平的提高,汽車的使用正在逐漸普及。在汽車數(shù)量增長(zhǎng)的同時(shí),人們?cè)谲囕v的駕乘體驗(yàn)方面也提出了安全性、便捷性等多方面的需求。語(yǔ)音是人類之間最高效的交流方式之一,很多車載設(shè)備選擇語(yǔ)音作為人車交互的主要方式,以滿足用戶的需求。其中影響到用戶體驗(yàn)的最關(guān)鍵的技術(shù)就是語(yǔ)音識(shí)別技術(shù)。語(yǔ)音識(shí)別技術(shù)經(jīng)歷了數(shù)十年的發(fā)展,與神經(jīng)網(wǎng)絡(luò)的結(jié)合使其識(shí)別性能得到大幅提升。其中卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNNs)因其出色的局部觀察和高層聚合等能力,在語(yǔ)音識(shí)別領(lǐng)域得到了廣泛應(yīng)用。但是傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)都是二維結(jié)構(gòu),并不能很好地反映出語(yǔ)音信號(hào)的一維特性。因此,本文提出使用一維模型進(jìn)行車載環(huán)境下的語(yǔ)音識(shí)別。其通過(guò)卷積核在時(shí)間軸上的移動(dòng),在保留頻帶相關(guān)性的同時(shí)可以更好地滿足語(yǔ)音信號(hào)的時(shí)變性,進(jìn)而提高識(shí)別性能。此外,本文還對(duì)語(yǔ)音識(shí)別系統(tǒng)的前端處理算法進(jìn)行了研究,具體開(kāi)展了以下工作:(1)在分析了車載噪聲特點(diǎn)和卷積混合的聲學(xué)環(huán)境的情況下,研究了適用于車載環(huán)境的基于多窗譜估計(jì)的譜減法和基于獨(dú)立分量分析(Independent Component Analysis,ICA)的語(yǔ)音增強(qiáng)算法,并分別通過(guò)仿真實(shí)驗(yàn)證明其有效性。針對(duì)車載噪聲中常見(jiàn)端點(diǎn)檢測(cè)算法性能不佳的問(wèn)題,本文給出了基于加權(quán)功率譜的端點(diǎn)檢測(cè)算法,算法首先估算出噪聲的譜能量分布系數(shù),再結(jié)合加權(quán)函數(shù),計(jì)算出每個(gè)子帶的譜能量加權(quán)系數(shù)。通過(guò)對(duì)不同子帶譜能量的加權(quán)調(diào)整,增加了噪聲和語(yǔ)音信號(hào)在功率譜中的區(qū)分度。仿真實(shí)驗(yàn)結(jié)果表明,在車載噪聲環(huán)境中,基于加權(quán)功率譜的端點(diǎn)檢測(cè)算法具有更好的檢測(cè)效果,不同信噪比環(huán)境下,檢測(cè)正確率較其他常用算法提高了約23%。(2)通過(guò)理論分析和實(shí)驗(yàn)證明,在車載噪聲環(huán)境中,Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)比線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)具有更高的魯棒性和抗干擾能力。同時(shí),對(duì)包括動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)、隱馬爾科夫模型(Hidden Markov Model,HMM)和BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)在內(nèi)的常用語(yǔ)音識(shí)別算法進(jìn)行了研究。(3)針對(duì)語(yǔ)音信號(hào)的一維特性,提出使用一維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行車載語(yǔ)音識(shí)別。相比較于二維模型,一維卷積神經(jīng)網(wǎng)絡(luò)中的卷積核為一維向量,相當(dāng)于語(yǔ)音信號(hào)的時(shí)間軸上的觀察窗,可以提取信號(hào)的局部特征,保證其時(shí)變性和頻帶相關(guān)性。實(shí)驗(yàn)結(jié)果表明,一維卷積神經(jīng)網(wǎng)絡(luò)在安靜環(huán)境和車載環(huán)境中的識(shí)別性能均要高于二維卷積神經(jīng)網(wǎng)絡(luò)和其他常用語(yǔ)音識(shí)別算法。(4)通過(guò)實(shí)驗(yàn)分析一維卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)對(duì)識(shí)別率的影響,并結(jié)合在不同強(qiáng)度的車載噪聲下,不同卷積核長(zhǎng)度對(duì)識(shí)別性能的具體影響,給出基于前端噪聲估計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)自適應(yīng)選擇。最后,基于Matlab平臺(tái)搭建出基于一維卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng),驗(yàn)證算法的有效性。
[Abstract]:With the improvement of economic level, the use of cars is gradually popularizing. As the number of cars increases, people also put forward safety in the aspect of vehicle driving and riding experience. Speech is one of the most efficient means of communication between human beings. Many vehicle-borne devices choose voice as the main way of interaction between people and cars. In order to meet the needs of users, the most critical technology that affects the user experience is speech recognition, which has experienced tens of years of development. The combination with neural networks has greatly improved its recognition performance. Among them, convolutional neural network convolution Neural Networks. CNNs are widely used in speech recognition field because of their excellent local observation and high-level aggregation. But the traditional convolution neural networks are all two-dimensional structures. It can not well reflect the one-dimensional characteristics of speech signal. Therefore, this paper proposes a one-dimensional model for speech recognition in vehicular environment, which moves on the time axis by convolution kernel. At the same time, it can better satisfy the time-varying of speech signal and improve the recognition performance. In addition, the front-end processing algorithm of speech recognition system is studied in this paper. The following work is carried out: 1) in the case of analyzing the characteristics of vehicle noise and the acoustical environment of convolution mixing. The spectral subtraction method based on multi-window spectrum estimation and independent Component Analysis based on independent component analysis (ICA) are studied for vehicle environment. ICA) speech enhancement algorithm, and respectively through simulation experiments to verify its effectiveness, aiming at the common vehicle noise in the performance of endpoint detection algorithm poor performance. In this paper, an endpoint detection algorithm based on weighted power spectrum is presented. Firstly, the spectral energy distribution coefficient of noise is estimated, and then the weighted function is combined. The spectral energy weighting coefficient of each sub-band is calculated. By adjusting the spectral energy of different sub-bands, the discrimination of noise and speech signal in power spectrum is increased. The simulation results show that the noise is in the vehicle noise environment. The endpoint detection algorithm based on weighted power spectrum has better detection effect. In different signal-to-noise ratio environment, the detection accuracy is improved by about 23% compared with other commonly used algorithms. The frequency cepstrum coefficient of Mel Frequency Cepstrum Coefficient is obtained in vehicle noise environment. The coefficient of linear Prediction Cepstrum Coefficient is higher than that of linear prediction cepstrum. LPCC) has higher robustness and anti-jamming capability. At the same time, dynamic Time warping (DTW) including dynamic time warping. Hidden Markov Model. HMMand BP(Back Propagation Neural Network (Ann) and other common speech recognition algorithms are studied. (3) aiming at the one-dimensional characteristics of speech signal. Compared with the two-dimensional model, the convolution kernel of one-dimensional convolution neural network is one-dimensional vector, which is equivalent to the observation window on the time axis of speech signal. The local features of the signal can be extracted, and the time-varying and frequency band correlation can be guaranteed. The experimental results show that. The recognition performance of one-dimensional convolution neural network in quiet environment and vehicle environment is higher than that in two-dimensional convolution neural network and other common speech recognition algorithms. The influence of the structure parameters of one-dimensional convolution neural network on the recognition rate is analyzed experimentally. Considering the influence of different length of convolution kernel on the recognition performance under different vehicle noise intensity, the adaptive selection of network structure based on front-end noise estimation is presented. Finally. A speech recognition system based on one-dimensional convolution neural network is built based on Matlab platform to verify the effectiveness of the algorithm.
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TN912.34;TP183
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 云中客;新的神經(jīng)網(wǎng)絡(luò)來(lái)自于仿生學(xué)[J];物理;2001年10期
2 唐春明,高協(xié)平;進(jìn)化神經(jīng)網(wǎng)絡(luò)的研究進(jìn)展[J];系統(tǒng)工程與電子技術(shù);2001年10期
3 李智;一種基于神經(jīng)網(wǎng)絡(luò)的煤炭調(diào)運(yùn)優(yōu)化方法[J];長(zhǎng)沙鐵道學(xué)院學(xué)報(bào);2003年02期
4 程科,王士同,楊靜宇;新型模糊形態(tài)神經(jīng)網(wǎng)絡(luò)及其應(yīng)用研究[J];計(jì)算機(jī)工程與應(yīng)用;2004年21期
5 王凡,孟立凡;關(guān)于使用神經(jīng)網(wǎng)絡(luò)推定操作者疲勞的研究[J];人類工效學(xué);2004年03期
6 周麗暉;從統(tǒng)計(jì)角度看神經(jīng)網(wǎng)絡(luò)[J];統(tǒng)計(jì)教育;2005年06期
7 趙奇 ,劉開(kāi)第 ,龐彥軍;灰色補(bǔ)償神經(jīng)網(wǎng)絡(luò)及其應(yīng)用研究[J];微計(jì)算機(jī)信息;2005年14期
8 袁婷;;神經(jīng)網(wǎng)絡(luò)在股票市場(chǎng)預(yù)測(cè)中的應(yīng)用[J];軟件導(dǎo)刊;2006年05期
9 尚晉;楊有;;從神經(jīng)網(wǎng)絡(luò)的過(guò)去談科學(xué)發(fā)展觀[J];重慶三峽學(xué)院學(xué)報(bào);2006年03期
10 楊鐘瑾;;神經(jīng)網(wǎng)絡(luò)的過(guò)去、現(xiàn)在和將來(lái)[J];青年探索;2006年04期
相關(guān)會(huì)議論文 前10條
1 徐春玉;;基于泛集的神經(jīng)網(wǎng)絡(luò)的混沌性[A];1996中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1996年
2 周樹(shù)德;王巖;孫增圻;孫富春;;量子神經(jīng)網(wǎng)絡(luò)[A];2003年中國(guó)智能自動(dòng)化會(huì)議論文集(上冊(cè))[C];2003年
3 羅山;張琳;范文新;;基于神經(jīng)網(wǎng)絡(luò)和簡(jiǎn)單規(guī)劃的識(shí)別融合算法[A];2009系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2009年
4 郭愛(ài)克;馬盡文;丁康;;序言(二)[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年
5 鐘義信;;知識(shí)論:神經(jīng)網(wǎng)絡(luò)的新機(jī)遇——紀(jì)念中國(guó)神經(jīng)網(wǎng)絡(luò)10周年[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年
6 許進(jìn);保錚;;神經(jīng)網(wǎng)絡(luò)與圖論[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年
7 金龍;朱詩(shī)武;趙成志;陳寧;;數(shù)值預(yù)報(bào)產(chǎn)品的神經(jīng)網(wǎng)絡(luò)釋用預(yù)報(bào)應(yīng)用[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年
8 田金亭;;神經(jīng)網(wǎng)絡(luò)在中學(xué)生創(chuàng)造力評(píng)估中的應(yīng)用[A];第十二屆全國(guó)心理學(xué)學(xué)術(shù)大會(huì)論文摘要集[C];2009年
9 唐墨;王科俊;;自發(fā)展神經(jīng)網(wǎng)絡(luò)的混沌特性研究[A];2009年中國(guó)智能自動(dòng)化會(huì)議論文集(第七分冊(cè))[南京理工大學(xué)學(xué)報(bào)(增刊)][C];2009年
10 張廣遠(yuǎn);萬(wàn)強(qiáng);曹海源;田方濤;;基于遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的故障診斷方法研究[A];第十二屆全國(guó)設(shè)備故障診斷學(xué)術(shù)會(huì)議論文集[C];2010年
相關(guān)重要報(bào)紙文章 前10條
1 美國(guó)明尼蘇達(dá)大學(xué)社會(huì)學(xué)博士 密西西比州立大學(xué)國(guó)家戰(zhàn)略規(guī)劃與分析研究中心資深助理研究員 陳心想;維護(hù)好創(chuàng)新的“神經(jīng)網(wǎng)絡(luò)硬件”[N];中國(guó)教師報(bào);2014年
2 盧業(yè)忠;腦控電腦 驚世駭俗[N];計(jì)算機(jī)世界;2001年
3 葛一鳴 路邊文;人工神經(jīng)網(wǎng)絡(luò)將大顯身手[N];中國(guó)紡織報(bào);2003年
4 中國(guó)科技大學(xué)計(jì)算機(jī)系 邢方亮;神經(jīng)網(wǎng)絡(luò)挑戰(zhàn)人類大腦[N];計(jì)算機(jī)世界;2003年
5 記者 孫剛;“神經(jīng)網(wǎng)絡(luò)”:打開(kāi)復(fù)雜工藝“黑箱”[N];解放日?qǐng)?bào);2007年
6 本報(bào)記者 劉霞;美用DNA制造出首個(gè)人造神經(jīng)網(wǎng)絡(luò)[N];科技日?qǐng)?bào);2011年
7 健康時(shí)報(bào)特約記者 張獻(xiàn)懷;干細(xì)胞移植:修復(fù)受損的神經(jīng)網(wǎng)絡(luò)[N];健康時(shí)報(bào);2006年
8 劉力;我半導(dǎo)體神經(jīng)網(wǎng)絡(luò)技術(shù)及應(yīng)用研究達(dá)國(guó)際先進(jìn)水平[N];中國(guó)電子報(bào);2001年
9 ;神經(jīng)網(wǎng)絡(luò)和模糊邏輯[N];世界金屬導(dǎo)報(bào);2002年
10 鄒麗梅 陳耀群;江蘇科大神經(jīng)網(wǎng)絡(luò)應(yīng)用研究通過(guò)鑒定[N];中國(guó)船舶報(bào);2006年
相關(guān)博士學(xué)位論文 前10條
1 楊旭華;神經(jīng)網(wǎng)絡(luò)及其在控制中的應(yīng)用研究[D];浙江大學(xué);2004年
2 李素芳;基于神經(jīng)網(wǎng)絡(luò)的無(wú)線通信算法研究[D];山東大學(xué);2015年
3 石艷超;憶阻神經(jīng)網(wǎng)絡(luò)的混沌性及幾類時(shí)滯神經(jīng)網(wǎng)絡(luò)的同步研究[D];電子科技大學(xué);2014年
4 王新迎;基于隨機(jī)映射神經(jīng)網(wǎng)絡(luò)的多元時(shí)間序列預(yù)測(cè)方法研究[D];大連理工大學(xué);2015年
5 付愛(ài)民;極速學(xué)習(xí)機(jī)的訓(xùn)練殘差、穩(wěn)定性及泛化能力研究[D];中國(guó)農(nóng)業(yè)大學(xué);2015年
6 李輝;基于粒計(jì)算的神經(jīng)網(wǎng)絡(luò)及集成方法研究[D];中國(guó)礦業(yè)大學(xué);2015年
7 王衛(wèi)蘋;復(fù)雜網(wǎng)絡(luò)幾類同步控制策略研究及穩(wěn)定性分析[D];北京郵電大學(xué);2015年
8 張海軍;基于云計(jì)算的神經(jīng)網(wǎng)絡(luò)并行實(shí)現(xiàn)及其學(xué)習(xí)方法研究[D];華南理工大學(xué);2015年
9 李艷晴;風(fēng)速時(shí)間序列預(yù)測(cè)算法研究[D];北京科技大學(xué);2016年
10 陳輝;多維超精密定位系統(tǒng)建模與控制關(guān)鍵技術(shù)研究[D];東南大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 章穎;混合不確定性模塊化神經(jīng)網(wǎng)絡(luò)與高校效益預(yù)測(cè)的研究[D];華南理工大學(xué);2015年
2 賈文靜;基于改進(jìn)型神經(jīng)網(wǎng)絡(luò)的風(fēng)力發(fā)電系統(tǒng)預(yù)測(cè)及控制研究[D];燕山大學(xué);2015年
3 李慧芳;基于憶阻器的渦卷混沌系統(tǒng)及其電路仿真[D];西南大學(xué);2015年
4 陳彥至;神經(jīng)網(wǎng)絡(luò)降維算法研究與應(yīng)用[D];華南理工大學(xué);2015年
5 董哲康;基于憶阻器的組合電路及神經(jīng)網(wǎng)絡(luò)研究[D];西南大學(xué);2015年
6 武創(chuàng)舉;基于神經(jīng)網(wǎng)絡(luò)的遙感圖像分類研究[D];昆明理工大學(xué);2015年
7 李志杰;基于神經(jīng)網(wǎng)絡(luò)的上證指數(shù)預(yù)測(cè)研究[D];華南理工大學(xué);2015年
8 陳少吉;基于神經(jīng)網(wǎng)絡(luò)血壓預(yù)測(cè)研究與系統(tǒng)實(shí)現(xiàn)[D];華南理工大學(xué);2015年
9 張韜;幾類時(shí)滯神經(jīng)網(wǎng)絡(luò)穩(wěn)定性分析[D];渤海大學(xué);2015年
10 邵雪瑩;幾類時(shí)滯不確定神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性分析[D];渤海大學(xué);2015年
,本文編號(hào):1370650
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/1370650.html