基于深度學習的歌唱語音合成方法研究
發(fā)布時間:2021-10-08 05:50
歌唱語音合成(Singing Voice Synthesis,SVS)旨在實現(xiàn)將歌詞和樂譜信息(例如節(jié)奏、音高等)轉(zhuǎn)換成歌唱語音。統(tǒng)計參數(shù)合成方法可利用較少量歌唱數(shù)據(jù)合成平穩(wěn)流暢的歌唱語音,已成為主流的歌唱語音合成方法。傳統(tǒng)以隱馬爾科夫模型為代表的統(tǒng)計參數(shù)歌唱語音合成聲學模型的精度不足,合成歌唱語音的自然度不理想。近年來,以深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)為代表的深度學習模型在統(tǒng)計參數(shù)語音合成中得到了廣泛應用,顯著提高了聲學建模精度,但是DNN無法對歌唱語音中聲學特征的長時相關性進行建模。因此,本文圍繞基于深度學習的歌唱語音合成,開展了循環(huán)神經(jīng)網(wǎng)絡、深度自回歸模型、序列到序列模型等歌唱語音合成聲學建模方法的研究,具體包括:首先,本文研究了基于循環(huán)神經(jīng)網(wǎng)絡的歌唱語音合成方法。歌唱語音合成中存在復雜的上下文依賴關系,該方法利用循環(huán)神經(jīng)網(wǎng)絡結構對這些依賴關系進行建模,提升了傳統(tǒng)DNN模型預測基頻、頻譜、時長特征的精度。其次,本文提出了基于深度自回歸模型的歌唱語音合成聲學建模方法。為了更好的描述在連續(xù)幀中聲學特征之間的依賴性,該方法采用深度自回歸的方式來預測基頻軌...
【文章來源】:中國科學技術大學安徽省 211工程院校 985工程院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖1.1歌唱語音合成系統(tǒng)框圖??如圖l.i所示的是歌唱語音合成系統(tǒng)框圖
?第1章緒論???賊摸屏輸入?I??^?歌詞文本???語言處理???韻律處理???合成?——??'"^'Sy'S-h??W?*?TI'11?*??*?1'?'rt'w?1??光電掃纖入?▲?*???"?一- ̄ ̄??敗據(jù)庫輸入?音樂規(guī)則?樂遼信患?音樂庫??圖1.1歌唱語音合成系統(tǒng)框圖??如圖l.i所示的是歌唱語音合成系統(tǒng)框圖。首先,從終端的鍵盤、觸摸屏,光??電掃描或者直接從音樂數(shù)據(jù)庫當中獲得輸入的歌詞文本。接著,歌詞文本輸入完??畢后,要根據(jù)指定的語言類別和相應的音樂規(guī)則進行歌詞文本的分析,獲得其對應??的音素轉(zhuǎn)寫等語言學表征。然后,根據(jù)給定的樂譜信息進行韻律處理,獲得歌詞文??本對應的音高、節(jié)奏韻律表征。最后,基于以上獲得的語言學表征和韻律表征,采??用統(tǒng)計參數(shù)或者單元挑選與波形拼接等方法,合成最終的歌唱語音波形。??歌唱語音合成任務可以根據(jù)輸入源的差異分為兩類:第一類任務是歌詞到歌??唱語音[11]?(Lyrics?To?Singing,?LTS)合成,輸入是來自一首歌的歌詞。第二類任務是??語音到歌唱[I2]?(Speech?To?Singing,?STS)合成,輸入是來自歌詞對應的朗讀語音。??歌唱語音中的音高(Pitch)是通過信號中的基頻(F0)來體現(xiàn)的。區(qū)別于說話語??音,歌唱語音的基頻軌跡還包括如下幾種類型的動態(tài)特性:過沖(Overshoot)、預??偏離(Preparation)、顫音(Vibrato)以及細微波動(Fine?fluctuations)[12]。過沖指音高??改變后,突然轉(zhuǎn)向目標音高的F0波動;預偏離指在音高改變之前,迅速向可觀察??的音高相
?第1章緒論???基于上述的歌唱語音基頻動態(tài)特性,可采用如圖1.?3所示的流程框架[13]來生??成歌唱語音的基頻軌跡。首先,利用樂譜中的音高信息生成階梯狀的音符基頻。??然后將階梯狀音符基頻通過沖(Overshoot)模型、預偏離(Preparation)模型、顫音??(Vibrato)模型。最后,再通過細微波動(Fine?fluctuations)模型微調(diào),生成最終含有??動態(tài)特性的基頻,比例積分微分(Proportional?Integral?Differential,?PID)方法是構建??以上模型的經(jīng)典方法[14]。??A_j ̄|?<?麵型?一??階職音符基頻?卜顫音模型?^…寸?麵頻,??\?=—/?1??\?\?/?i??<預偏離模型?細微波動模型??圖1.3基于動態(tài)特性的基頻生成模型框圖??PID方法通過控制一個一級、二級轉(zhuǎn)移函數(shù)來產(chǎn)生過沖、預偏離、顫音和細??微波動。??R(s)?????C(s)?????Gc(s)?—-??H(s)????圖1.4基于PID方法生成含有動態(tài)特性基頻的模型框圖??圖1.4所示為基于PID方法生成含有動態(tài)特性基頻的模型框圖。鞏〇是輸??入,是PID的一級轉(zhuǎn)移函數(shù),//(〇為二級轉(zhuǎn)移函數(shù),是輸出。PID的一??級轉(zhuǎn)移函數(shù)可以寫為:??GC(S)-^P?+ ̄l+^ds?(11)??s??其中s代表拉普拉斯變換操作,代表比例增益,心代表積分增益,代表微分??增益。P丨D的一級轉(zhuǎn)移函數(shù)可以寫為:??GAs)?=?Kp+^--+Kpts?(1.2)??T,?s??其中7:代表積分時間常數(shù),r代表微分時間常數(shù)。該方法還需要一個PI
【參考文獻】:
期刊論文
[1]用于語音合成的PSOLA算法簡介[J]. 涂相華,蔡蓮紅. 微型計算機. 1996 (04)
博士論文
[1]基于隱馬爾科夫模型的語音合成技術研究[D]. 吳義堅.中國科學技術大學 2006
本文編號:3423552
【文章來源】:中國科學技術大學安徽省 211工程院校 985工程院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖1.1歌唱語音合成系統(tǒng)框圖??如圖l.i所示的是歌唱語音合成系統(tǒng)框圖
?第1章緒論???賊摸屏輸入?I??^?歌詞文本???語言處理???韻律處理???合成?——??'"^'Sy'S-h??W?*?TI'11?*??*?1'?'rt'w?1??光電掃纖入?▲?*???"?一- ̄ ̄??敗據(jù)庫輸入?音樂規(guī)則?樂遼信患?音樂庫??圖1.1歌唱語音合成系統(tǒng)框圖??如圖l.i所示的是歌唱語音合成系統(tǒng)框圖。首先,從終端的鍵盤、觸摸屏,光??電掃描或者直接從音樂數(shù)據(jù)庫當中獲得輸入的歌詞文本。接著,歌詞文本輸入完??畢后,要根據(jù)指定的語言類別和相應的音樂規(guī)則進行歌詞文本的分析,獲得其對應??的音素轉(zhuǎn)寫等語言學表征。然后,根據(jù)給定的樂譜信息進行韻律處理,獲得歌詞文??本對應的音高、節(jié)奏韻律表征。最后,基于以上獲得的語言學表征和韻律表征,采??用統(tǒng)計參數(shù)或者單元挑選與波形拼接等方法,合成最終的歌唱語音波形。??歌唱語音合成任務可以根據(jù)輸入源的差異分為兩類:第一類任務是歌詞到歌??唱語音[11]?(Lyrics?To?Singing,?LTS)合成,輸入是來自一首歌的歌詞。第二類任務是??語音到歌唱[I2]?(Speech?To?Singing,?STS)合成,輸入是來自歌詞對應的朗讀語音。??歌唱語音中的音高(Pitch)是通過信號中的基頻(F0)來體現(xiàn)的。區(qū)別于說話語??音,歌唱語音的基頻軌跡還包括如下幾種類型的動態(tài)特性:過沖(Overshoot)、預??偏離(Preparation)、顫音(Vibrato)以及細微波動(Fine?fluctuations)[12]。過沖指音高??改變后,突然轉(zhuǎn)向目標音高的F0波動;預偏離指在音高改變之前,迅速向可觀察??的音高相
?第1章緒論???基于上述的歌唱語音基頻動態(tài)特性,可采用如圖1.?3所示的流程框架[13]來生??成歌唱語音的基頻軌跡。首先,利用樂譜中的音高信息生成階梯狀的音符基頻。??然后將階梯狀音符基頻通過沖(Overshoot)模型、預偏離(Preparation)模型、顫音??(Vibrato)模型。最后,再通過細微波動(Fine?fluctuations)模型微調(diào),生成最終含有??動態(tài)特性的基頻,比例積分微分(Proportional?Integral?Differential,?PID)方法是構建??以上模型的經(jīng)典方法[14]。??A_j ̄|?<?麵型?一??階職音符基頻?卜顫音模型?^…寸?麵頻,??\?=—/?1??\?\?/?i??<預偏離模型?細微波動模型??圖1.3基于動態(tài)特性的基頻生成模型框圖??PID方法通過控制一個一級、二級轉(zhuǎn)移函數(shù)來產(chǎn)生過沖、預偏離、顫音和細??微波動。??R(s)?????C(s)?????Gc(s)?—-??H(s)????圖1.4基于PID方法生成含有動態(tài)特性基頻的模型框圖??圖1.4所示為基于PID方法生成含有動態(tài)特性基頻的模型框圖。鞏〇是輸??入,是PID的一級轉(zhuǎn)移函數(shù),//(〇為二級轉(zhuǎn)移函數(shù),是輸出。PID的一??級轉(zhuǎn)移函數(shù)可以寫為:??GC(S)-^P?+ ̄l+^ds?(11)??s??其中s代表拉普拉斯變換操作,代表比例增益,心代表積分增益,代表微分??增益。P丨D的一級轉(zhuǎn)移函數(shù)可以寫為:??GAs)?=?Kp+^--+Kpts?(1.2)??T,?s??其中7:代表積分時間常數(shù),r代表微分時間常數(shù)。該方法還需要一個PI
【參考文獻】:
期刊論文
[1]用于語音合成的PSOLA算法簡介[J]. 涂相華,蔡蓮紅. 微型計算機. 1996 (04)
博士論文
[1]基于隱馬爾科夫模型的語音合成技術研究[D]. 吳義堅.中國科學技術大學 2006
本文編號:3423552
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3423552.html
最近更新
教材專著