基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)種識(shí)別方法研究
本文選題:語(yǔ)種識(shí)別 切入點(diǎn):端對(duì)端網(wǎng)絡(luò) 出處:《中國(guó)科學(xué)技術(shù)大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:語(yǔ)種識(shí)別技術(shù)是利用自動(dòng)化方法對(duì)語(yǔ)音內(nèi)容所屬語(yǔ)言種類的判決過(guò)程。語(yǔ)種識(shí)別技術(shù)作為智能語(yǔ)音處理中包括自動(dòng)語(yǔ)音識(shí)別、聲紋識(shí)別及自然語(yǔ)言處理中重要的前端處理過(guò)程,在近十年有了長(zhǎng)足的發(fā)展。到目前為止,基于深瓶頸特征的全差異空間建模是國(guó)際主流語(yǔ)種識(shí)別方法,并取得了目前公認(rèn)最好的識(shí)別性能。該方法使用基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,提取能夠描述音素狀態(tài)的深瓶頸特征并建立相應(yīng)的高斯混合模型,但這些信息并不直接面向語(yǔ)種區(qū)分性信息進(jìn)行建模;并且由于全差異空間建模是生成式的學(xué)習(xí)方法,在訓(xùn)練過(guò)程中并沒(méi)有用到語(yǔ)種標(biāo)號(hào)的信息,而忽略了不同語(yǔ)種類別之間的分類面,因此該系統(tǒng)在信息量不足的短時(shí)語(yǔ)音上性能有較大幅度的衰減。近幾年,也有學(xué)者利用端對(duì)端網(wǎng)絡(luò)的方法搭建了語(yǔ)種識(shí)別系統(tǒng)。這類網(wǎng)絡(luò)摒棄了傳統(tǒng)的全差異空間建模方法,輸入底層聲學(xué)特征,輸出語(yǔ)種標(biāo)號(hào)。從簡(jiǎn)單的深度神經(jīng)網(wǎng)絡(luò)到近幾年流行的長(zhǎng)短時(shí)記憶-循環(huán)神經(jīng)網(wǎng)絡(luò)再到最新的基于注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)都有涉獵。大多數(shù)網(wǎng)絡(luò)的性能差強(qiáng)人意,但仍然難以在性能上與基線系統(tǒng)形成優(yōu)勢(shì)。本文圍繞基于端對(duì)端神經(jīng)網(wǎng)絡(luò)的策略提出了一些語(yǔ)種識(shí)別方法,并做了相應(yīng)的分析,具體研究?jī)?nèi)容包括以下幾點(diǎn)。首先,本文實(shí)現(xiàn)了端對(duì)端網(wǎng)絡(luò)的語(yǔ)種識(shí)別方法,稱為L(zhǎng)ID-net。LID-net首先利用深度神經(jīng)網(wǎng)絡(luò)在幀級(jí)特征上的優(yōu)秀建模能力提取帶有語(yǔ)種區(qū)分性信息的特征;然后利用卷積神經(jīng)網(wǎng)絡(luò)的卷積層提取具有語(yǔ)種區(qū)分性的基本單元,稱為L(zhǎng)ID-senone,這是仿照語(yǔ)音識(shí)別中對(duì)三音子狀態(tài)的定義;再利用卷積神經(jīng)網(wǎng)絡(luò)的池化層提取語(yǔ)音的段級(jí)表達(dá);最后使用全連接層對(duì)語(yǔ)音段表示進(jìn)行分類操作。實(shí)驗(yàn)表明,該網(wǎng)絡(luò)在不同時(shí)長(zhǎng)的不同指標(biāo)中相比國(guó)際主流方法均有提升,尤其在短時(shí)及中短時(shí)語(yǔ)音上的識(shí)別性能上有較大幅度提升。其次,本文進(jìn)行了基于LID-net的語(yǔ)種識(shí)別建模方法的研究,旨在利用語(yǔ)種區(qū)分性基本單元LID-senone進(jìn)行高階統(tǒng)計(jì)量信息建模。本文實(shí)現(xiàn)了兩種建模方法,一種是基于LID-net的全差異空間建模,另一種是基于LID-net的Fisher Vector建模,兩種建模方法的特征及混合高斯模型都是直接面向語(yǔ)種區(qū)分性信息進(jìn)行建模的。實(shí)驗(yàn)表明,兩種方法在各種時(shí)長(zhǎng)上的識(shí)別性能均有提升。最后,本文搭建了另一種利用端對(duì)端網(wǎng)絡(luò)的語(yǔ)種識(shí)別方法,稱為L(zhǎng)ID-bilinear-net。該網(wǎng)絡(luò)結(jié)合了端對(duì)端建模方法的區(qū)分性訓(xùn)練及全差異建模方法可以有效提取特征高階統(tǒng)計(jì)量信息的優(yōu)勢(shì),提取LID-senone的高階統(tǒng)計(jì)量信息。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)在短時(shí)語(yǔ)音上的識(shí)別性能有了進(jìn)一步地提升。
[Abstract]:Language recognition technology is an important front-end process in intelligent speech processing, which includes automatic speech recognition, voiceprint recognition and natural language processing. Up to now, full difference space modeling based on deep bottleneck feature is the international mainstream language recognition method. In this method, the acoustic model based on depth neural network is used to extract the characteristics of deep bottleneck which can describe the phoneme state, and the corresponding Gao Si mixed model is established. However, the information is not directly oriented to the differentiated information, and because the total difference space modeling is a generative learning method, there is no language label information in the training process. However, the classification surface between different language categories is neglected, so the performance of the system in short term speech with insufficient information is greatly attenuated. Some scholars also use end-to-end network to build a language recognition system. This kind of network abandons the traditional full-difference space modeling method and inputs the underlying acoustic features. Output language labeling. Ranging from simple depth neural networks to the long-short-term memory-cyclic neural networks that have been popular in recent years to the latest attention-based networks, most networks have poor performance. However, it is still difficult to form an advantage over the baseline system in performance. In this paper, some language recognition methods based on end-to-end neural network are proposed, and the corresponding analysis is made. The specific research contents include the following points. In this paper, an end-to-end network language recognition method is implemented, which is called LID-net.LID-net, which firstly uses the excellent modeling ability of depth neural network in frame level features to extract features with language distinguishing information. Then we use the convolution layer of the convolution neural network to extract the basic unit with language differentiation, called LID-senone, which is the definition of the trisyllabic state in speech recognition, and then use the pool layer of the convolutional neural network to extract the segment expression of the speech. Finally, the full connection layer is used to classify the speech segment representation. The experiment shows that the network has improved compared with the international mainstream method in different time and different indexes. Especially in short and medium term speech recognition performance has been greatly improved. Secondly, this paper studies the modeling method of language recognition based on LID-net. In this paper, we implement two modeling methods, one is the full difference space modeling based on LID-net, the other is Fisher Vector modeling based on LID-net. The characteristics of the two modeling methods and the mixed Gao Si model are directly oriented to the differentiated information. The experiments show that the recognition performance of the two methods has been improved in various time periods. Finally, In this paper, another language recognition method based on end-to-end network, called LID-bilinear-net-net, is built. The network combines the advantages of the discriminative training of end-to-end modeling method and the all-differential modeling method to extract feature higher-order statistics information effectively. The high order statistic information of LID-senone is extracted and the experimental results show that the recognition performance of the network in short term speech is further improved.
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TN912.34;TP183
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 楊曉帥 ,付玫;神經(jīng)網(wǎng)絡(luò)技術(shù)讓管理更輕松[J];軟件世界;2000年11期
2 云中客;新的神經(jīng)網(wǎng)絡(luò)來(lái)自于仿生學(xué)[J];物理;2001年10期
3 唐春明,高協(xié)平;進(jìn)化神經(jīng)網(wǎng)絡(luò)的研究進(jìn)展[J];系統(tǒng)工程與電子技術(shù);2001年10期
4 李智;一種基于神經(jīng)網(wǎng)絡(luò)的煤炭調(diào)運(yùn)優(yōu)化方法[J];長(zhǎng)沙鐵道學(xué)院學(xué)報(bào);2003年02期
5 程科,王士同,楊靜宇;新型模糊形態(tài)神經(jīng)網(wǎng)絡(luò)及其應(yīng)用研究[J];計(jì)算機(jī)工程與應(yīng)用;2004年21期
6 王凡,孟立凡;關(guān)于使用神經(jīng)網(wǎng)絡(luò)推定操作者疲勞的研究[J];人類工效學(xué);2004年03期
7 周麗暉;從統(tǒng)計(jì)角度看神經(jīng)網(wǎng)絡(luò)[J];統(tǒng)計(jì)教育;2005年06期
8 趙奇 ,劉開(kāi)第 ,龐彥軍;灰色補(bǔ)償神經(jīng)網(wǎng)絡(luò)及其應(yīng)用研究[J];微計(jì)算機(jī)信息;2005年14期
9 袁婷;;神經(jīng)網(wǎng)絡(luò)在股票市場(chǎng)預(yù)測(cè)中的應(yīng)用[J];軟件導(dǎo)刊;2006年05期
10 尚晉;楊有;;從神經(jīng)網(wǎng)絡(luò)的過(guò)去談科學(xué)發(fā)展觀[J];重慶三峽學(xué)院學(xué)報(bào);2006年03期
相關(guān)會(huì)議論文 前10條
1 徐春玉;;基于泛集的神經(jīng)網(wǎng)絡(luò)的混沌性[A];1996中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1996年
2 周樹(shù)德;王巖;孫增圻;孫富春;;量子神經(jīng)網(wǎng)絡(luò)[A];2003年中國(guó)智能自動(dòng)化會(huì)議論文集(上冊(cè))[C];2003年
3 羅山;張琳;范文新;;基于神經(jīng)網(wǎng)絡(luò)和簡(jiǎn)單規(guī)劃的識(shí)別融合算法[A];2009系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2009年
4 郭愛(ài)克;馬盡文;丁康;;序言(二)[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年
5 鐘義信;;知識(shí)論:神經(jīng)網(wǎng)絡(luò)的新機(jī)遇——紀(jì)念中國(guó)神經(jīng)網(wǎng)絡(luò)10周年[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年
6 許進(jìn);保錚;;神經(jīng)網(wǎng)絡(luò)與圖論[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年
7 金龍;朱詩(shī)武;趙成志;陳寧;;數(shù)值預(yù)報(bào)產(chǎn)品的神經(jīng)網(wǎng)絡(luò)釋用預(yù)報(bào)應(yīng)用[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年
8 田金亭;;神經(jīng)網(wǎng)絡(luò)在中學(xué)生創(chuàng)造力評(píng)估中的應(yīng)用[A];第十二屆全國(guó)心理學(xué)學(xué)術(shù)大會(huì)論文摘要集[C];2009年
9 唐墨;王科俊;;自發(fā)展神經(jīng)網(wǎng)絡(luò)的混沌特性研究[A];2009年中國(guó)智能自動(dòng)化會(huì)議論文集(第七分冊(cè))[南京理工大學(xué)學(xué)報(bào)(增刊)][C];2009年
10 張廣遠(yuǎn);萬(wàn)強(qiáng);曹海源;田方濤;;基于遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的故障診斷方法研究[A];第十二屆全國(guó)設(shè)備故障診斷學(xué)術(shù)會(huì)議論文集[C];2010年
相關(guān)重要報(bào)紙文章 前10條
1 美國(guó)明尼蘇達(dá)大學(xué)社會(huì)學(xué)博士 密西西比州立大學(xué)國(guó)家戰(zhàn)略規(guī)劃與分析研究中心資深助理研究員 陳心想;維護(hù)好創(chuàng)新的“神經(jīng)網(wǎng)絡(luò)硬件”[N];中國(guó)教師報(bào);2014年
2 盧業(yè)忠;腦控電腦 驚世駭俗[N];計(jì)算機(jī)世界;2001年
3 葛一鳴 路邊文;人工神經(jīng)網(wǎng)絡(luò)將大顯身手[N];中國(guó)紡織報(bào);2003年
4 中國(guó)科技大學(xué)計(jì)算機(jī)系 邢方亮;神經(jīng)網(wǎng)絡(luò)挑戰(zhàn)人類大腦[N];計(jì)算機(jī)世界;2003年
5 記者 孫剛;“神經(jīng)網(wǎng)絡(luò)”:打開(kāi)復(fù)雜工藝“黑箱”[N];解放日?qǐng)?bào);2007年
6 本報(bào)記者 劉霞;美用DNA制造出首個(gè)人造神經(jīng)網(wǎng)絡(luò)[N];科技日?qǐng)?bào);2011年
7 健康時(shí)報(bào)特約記者 張獻(xiàn)懷;干細(xì)胞移植:修復(fù)受損的神經(jīng)網(wǎng)絡(luò)[N];健康時(shí)報(bào);2006年
8 劉力;我半導(dǎo)體神經(jīng)網(wǎng)絡(luò)技術(shù)及應(yīng)用研究達(dá)國(guó)際先進(jìn)水平[N];中國(guó)電子報(bào);2001年
9 ;神經(jīng)網(wǎng)絡(luò)和模糊邏輯[N];世界金屬導(dǎo)報(bào);2002年
10 鄒麗梅 陳耀群;江蘇科大神經(jīng)網(wǎng)絡(luò)應(yīng)用研究通過(guò)鑒定[N];中國(guó)船舶報(bào);2006年
相關(guān)博士學(xué)位論文 前10條
1 楊旭華;神經(jīng)網(wǎng)絡(luò)及其在控制中的應(yīng)用研究[D];浙江大學(xué);2004年
2 李素芳;基于神經(jīng)網(wǎng)絡(luò)的無(wú)線通信算法研究[D];山東大學(xué);2015年
3 石艷超;憶阻神經(jīng)網(wǎng)絡(luò)的混沌性及幾類時(shí)滯神經(jīng)網(wǎng)絡(luò)的同步研究[D];電子科技大學(xué);2014年
4 王新迎;基于隨機(jī)映射神經(jīng)網(wǎng)絡(luò)的多元時(shí)間序列預(yù)測(cè)方法研究[D];大連理工大學(xué);2015年
5 付愛(ài)民;極速學(xué)習(xí)機(jī)的訓(xùn)練殘差、穩(wěn)定性及泛化能力研究[D];中國(guó)農(nóng)業(yè)大學(xué);2015年
6 李輝;基于粒計(jì)算的神經(jīng)網(wǎng)絡(luò)及集成方法研究[D];中國(guó)礦業(yè)大學(xué);2015年
7 王衛(wèi)蘋(píng);復(fù)雜網(wǎng)絡(luò)幾類同步控制策略研究及穩(wěn)定性分析[D];北京郵電大學(xué);2015年
8 張海軍;基于云計(jì)算的神經(jīng)網(wǎng)絡(luò)并行實(shí)現(xiàn)及其學(xué)習(xí)方法研究[D];華南理工大學(xué);2015年
9 李艷晴;風(fēng)速時(shí)間序列預(yù)測(cè)算法研究[D];北京科技大學(xué);2016年
10 陳輝;多維超精密定位系統(tǒng)建模與控制關(guān)鍵技術(shù)研究[D];東南大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 章穎;混合不確定性模塊化神經(jīng)網(wǎng)絡(luò)與高校效益預(yù)測(cè)的研究[D];華南理工大學(xué);2015年
2 賈文靜;基于改進(jìn)型神經(jīng)網(wǎng)絡(luò)的風(fēng)力發(fā)電系統(tǒng)預(yù)測(cè)及控制研究[D];燕山大學(xué);2015年
3 李慧芳;基于憶阻器的渦卷混沌系統(tǒng)及其電路仿真[D];西南大學(xué);2015年
4 陳彥至;神經(jīng)網(wǎng)絡(luò)降維算法研究與應(yīng)用[D];華南理工大學(xué);2015年
5 董哲康;基于憶阻器的組合電路及神經(jīng)網(wǎng)絡(luò)研究[D];西南大學(xué);2015年
6 武創(chuàng)舉;基于神經(jīng)網(wǎng)絡(luò)的遙感圖像分類研究[D];昆明理工大學(xué);2015年
7 李志杰;基于神經(jīng)網(wǎng)絡(luò)的上證指數(shù)預(yù)測(cè)研究[D];華南理工大學(xué);2015年
8 陳少吉;基于神經(jīng)網(wǎng)絡(luò)血壓預(yù)測(cè)研究與系統(tǒng)實(shí)現(xiàn)[D];華南理工大學(xué);2015年
9 張韜;幾類時(shí)滯神經(jīng)網(wǎng)絡(luò)穩(wěn)定性分析[D];渤海大學(xué);2015年
10 邵雪瑩;幾類時(shí)滯不確定神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性分析[D];渤海大學(xué);2015年
,本文編號(hào):1563461
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/1563461.html