【摘要】:當(dāng)前,對語音識別的研究已經(jīng)越來越深入,采取的方法也是逐漸多元化。目前大多數(shù)語音信號分析利用了語音信號的頻譜特征,通過一系列轉(zhuǎn)換提取特征,訓(xùn)練出識別模型。但從另一方面思考,語譜圖作為語音信號最直觀的表達(dá),不僅包含了頻譜信息,還包含了基頻、共振峰及其變化趨勢,這些趨勢組成的紋理可以表征出語音的音調(diào)、重音等發(fā)音特征信息,經(jīng)驗(yàn)豐富的語音學(xué)專家甚至可以通過一張語譜圖估計(jì)出其代表的文字含義。基于上述條件,可將語音信號的語譜圖作為特征提取的一個(gè)輸入,利用圖像處理領(lǐng)域中較為成熟的特征提取及模型訓(xùn)練方法,對語譜圖進(jìn)行處理,探索語音信號處理和圖像處理相結(jié)合的新領(lǐng)域。研究了基于脈沖耦合神經(jīng)網(wǎng)絡(luò)(PCNN)的發(fā)音優(yōu)劣分類方法,探索將語譜圖作為語音識別模型特征的可行性。收集了600個(gè)標(biāo)準(zhǔn)度層面的正負(fù)樣本,將經(jīng)過短時(shí)傅里葉變換生成的孤立詞語譜圖像作為特征輸入,然后進(jìn)一步地在特征層面和結(jié)果層面融合MFCC特征,送入支持向量機(jī)分類器進(jìn)行優(yōu)劣分類。實(shí)驗(yàn)結(jié)果表明,當(dāng)特征含有語譜圖時(shí),使用PCNN可獲得85%以上的識別準(zhǔn)確率,比僅僅使用頻譜特征準(zhǔn)確率更高;當(dāng)將圖像特征與語音頻譜特征相融合時(shí),可獲得更好的識別準(zhǔn)確率,且基于識別結(jié)果投票重估的融合方法要優(yōu)于基于特征輸入的融合方法;以語譜圖作為模型特征的突破點(diǎn)是可行的。研究了結(jié)合語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的非特定人發(fā)音評價(jià)方法。提出了結(jié)合寬帶語譜圖和窄帶語譜圖進(jìn)行特征預(yù)處理的方法,其中窄帶語譜圖用于基頻和諧波分析以完成端點(diǎn)檢測,刨除無效的非語音段;寬帶語譜圖用于分隔出不同的紋理,以此實(shí)現(xiàn)音位級別的分割,創(chuàng)造出以音位為單位的有標(biāo)簽數(shù)據(jù),該策略的分割準(zhǔn)確率約為88%左右。然后將處理好的二維特征矩陣送入七層卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。實(shí)驗(yàn)表明,卷積神經(jīng)網(wǎng)絡(luò)對于音位語譜圖的識別精度總體較良好,實(shí)際精度與譜圖的分割預(yù)處理效果成正相關(guān)關(guān)系,不同的音位由于其本身發(fā)音特點(diǎn)不同可達(dá)到不同的識別效果,所有音位的總體識別準(zhǔn)確率約為83%。
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP183;TN912.34
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 孫鳳蘭;胡加圣;;國內(nèi)外CALL研究概論及其學(xué)科化發(fā)展趨勢[J];現(xiàn)代教育技術(shù);2014年06期
2 嚴(yán)可;魏思;戴禮榮;劉慶峰;;基于音素相關(guān)后驗(yàn)概率變換的發(fā)音質(zhì)量評價(jià)[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年09期
3 張晴晴;潘接林;顏永紅;;基于發(fā)音特征的漢語普通話語音聲學(xué)建模[J];聲學(xué)學(xué)報(bào);2010年02期
4 余建潮;張瑞林;;基于MFCC和LPCC的說話人識別[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年05期
5 劉琨;金文標(biāo);;基于PCNN和RBF的孤立詞語音識別研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年24期
6 安國平;姜長生;吳慶憲;;基于PCNN和SVM的圖像識別方法研究[J];電光與控制;2008年10期
7 詹新明;黃南山;楊燦;;語音識別技術(shù)研究進(jìn)展[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2008年09期
8 梁澤;馬義德;張恩溯;朱望飛;湯書森;;一種基于脈沖耦合神經(jīng)網(wǎng)絡(luò)的語音情感識別新方法[J];計(jì)算機(jī)應(yīng)用;2008年03期
9 張曉俊;陶智;施曉敏;顧濟(jì)華;;改進(jìn)脈沖耦合神經(jīng)網(wǎng)絡(luò)的語音識別研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年08期
10 陳向民;張軍;韋崗;;基于語譜圖的語音端點(diǎn)檢測算法[J];電聲技術(shù);2006年04期
相關(guān)博士學(xué)位論文 前1條
1 嚴(yán)可;發(fā)音質(zhì)量自動評測技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2012年
,
本文編號:
2608850
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/2608850.html