語音合成中的神經(jīng)網(wǎng)絡聲學建模方法研究
發(fā)布時間:2018-05-27 11:20
本文選題:語音合成 + 隱馬爾可夫模型 ; 參考:《中國科學技術(shù)大學》2016年博士論文
【摘要】:近些年來,統(tǒng)計參數(shù)語音合成(Statistical Parametric Speech Synthesis, SPSS)已經(jīng)發(fā)展成為和單元挑選與波形拼接相并列的一種主流語音合成方法。其中,基于隱馬爾可夫模型(Hidden Markov Model, HMM)的統(tǒng)計參數(shù)語音合成是其最為常見的實現(xiàn)方法。該方法借鑒了基于HMM的自動語音識別(Automatic Speech Recognition, ASR)中的一些成熟算法,并且針對語音合成任務的特點,衍生出多空間概率分布、最大似然參數(shù)生成等一系列關鍵技術(shù)。它相對于單元挑選與波形拼接方法,具有系統(tǒng)構(gòu)建自動化程度高、存儲空間小、合成語音平穩(wěn)流暢、拓展能力強等優(yōu)點。但是該方法在合成語音的自然度和音質(zhì)上與單元挑選與波形拼接方法相比仍然有一定的差距;贖MM的統(tǒng)計參數(shù)語音合成中聲學建模能力的不足是導致這一問題的主要原因之一。隨著深度神經(jīng)網(wǎng)絡(Deep Neural Network, DNN)在自動語音識別中的成功應用,自2013年以來基于神經(jīng)網(wǎng)絡的統(tǒng)計聲學建模方法也成為了語音合成研究領域的研究熱點,并取得了積極進展。神經(jīng)網(wǎng)絡相對傳統(tǒng)統(tǒng)計參數(shù)語音合成中使用的HMM模型和基于決策樹聚類的高斯狀態(tài)分布,對于高維聲學特征的維間相關性以及輸入文本特征與輸出聲學特征之間的復雜映射關系有著更強的建模能力。因此,本文圍繞統(tǒng)計參數(shù)語音合成中基于神經(jīng)網(wǎng)絡的聲學建模方法開展研究工作。針對頻譜特征建模中的高維譜包絡維間相關性描述問題,提出了基于神經(jīng)自回歸分布估計模型(Neural Autoregressive Distribution Estimator, NADE)的HMM狀態(tài)分布建模方法和基于深度條件受限玻爾茲曼機模型(Deep Conditional Restricted Boltzmann Machine, DCRBM)的頻譜特征建模方法,提高了頻譜特征建模精度,改善了合成語音的音質(zhì)和自然度:考慮到基頻產(chǎn)生的疊加特性和基頻感知的長時特性,提出了基于DNN的層次化基頻建模方法,降低了基頻特征的預測誤差,提高了合成語音的自然度:最后,探索了一種端到端的語音合成聲學建模方法,利用基于注意力的遞歸序列生成器(Attention-based Recurrent Sequence Generator, ARSG),實現(xiàn)了基于神經(jīng)網(wǎng)絡的語音合成中對于特征對齊和特征預測的一體化建模。整篇文章的安排如下:第一章是緒論,簡要介紹了語音的產(chǎn)生機理,回顧了語音合成技術(shù)的發(fā)展歷史以及幾種常見的語音合成方法。第二章首先介紹了基于HMM的統(tǒng)計參數(shù)語音合成方法,包括HMM的基本原理、基于HMM的語音合成系統(tǒng)框架以及四個關鍵技術(shù),分析了該方法的優(yōu)缺點。其次回顧了神經(jīng)網(wǎng)絡的發(fā)展歷史以及其在語音合成聲學建模中的已有應用。最后闡述了本文結(jié)合神經(jīng)網(wǎng)絡進行語音合成聲學建模研究的動機與出發(fā)點。第三章提出了一種基于神經(jīng)自回歸分布估計模型(Neural Autoregressive Dis-tribution Estimator, NADE)的頻譜狀態(tài)建模方法。已有的基于受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)的譜包絡狀態(tài)建模方法,使用RBM模型取代高斯分布用于描述HMM中各狀態(tài)的頻譜特征分布,取得了一定的改進效果。但是RBM模型存在輸出概率以及參數(shù)梯度無法精確估計的不足,而NADE模型可以將觀察值的輸出概率分解為一系列可簡單計算的條件概率乘積的形式。因此,本文提出使用NADE模型進行HMM各狀態(tài)譜包絡特征分布的建模,主客觀實驗結(jié)果表明該方法可以有效提高建模精度以及合成語音音質(zhì)。第四章針對當前基于DNN的統(tǒng)計參數(shù)語音合成無法有效建模頻譜特征維間相關性和分布多模特性的問題,提出了基于深度條件受限玻爾茲曼機(Deep Conditional Restricted Boltzmann Machine, DCRBM)的頻譜特征建模與預測方法,并實驗分析了多種不同的DCRBM預訓練機制。該方法使用RBM作為DNN的輸出層,將DNN的特征問關系建模能力與RBM的高維特征表征能力相結(jié)合,不僅能夠體現(xiàn)給定文本特征情況下,聲學特征條件概率分布的多模特性,也可以對高維譜包絡的維間相關性進行有效描述。測試結(jié)果表明,該方法相對于傳統(tǒng)的HMM建模方法、以及基于DNN和深度混合密度網(wǎng)絡(Deep Mixture Density Network, DMDN)的頻譜特征建模方法,均能取得更優(yōu)的合成語音音質(zhì)。第五章將對基于DNN的基頻特征建模方法進行研究。在分析了傳統(tǒng)基頻建模方法的局限性之后,考慮到基頻產(chǎn)生的疊加特性和基頻感知的長時特性,本章提出了基于DNN的層次化基頻建模方法,設計實現(xiàn)了層疊式DNN以及并行式DNN兩種模型框架。主客觀測試結(jié)果表明該方法能夠有效地降低基頻預測誤差并提升合成語音的自然度。第六章對端到端的語音合成方法進行了探索性研究。端到端的語音合成旨在將前端文本分析和后端聲學建模相融合,實現(xiàn)文本與聲學這兩種不等長序列之間的直接轉(zhuǎn)換。本章利用基于注意力的遞歸序列生成器(Attention-based Recurrent Sequence Generator, ARSG),,實現(xiàn)了基于神經(jīng)網(wǎng)絡的語音合成中對于特征對齊和特征預測的一體化建模,在不依賴HMM的情況下合成出了具有較高平滑度和可懂度的語音。第七章對全文進行了總結(jié)。
[Abstract]:The speech synthesis of statistical parameters based on Hidden Markov Model ( HMM ) is one of the most common methods in the field of speech synthesis . This paper presents a method of modeling and predicting the spectral characteristics of the speech synthesis based on the neural network , which is based on the theory of HMM , the framework of speech synthesis system based on HMM and four key techniques . ARSG implements the integration modeling of feature alignment and feature prediction in speech synthesis based on neural network , and synthesized speech with high smoothness and intelligibility without relying on HMM . Chapter 7 summarizes the full text .
【學位授予單位】:中國科學技術(shù)大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TN912.33
本文編號:1941831
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/1941831.html
最近更新
教材專著