漢語(yǔ)普通話發(fā)音質(zhì)量自動(dòng)評(píng)測(cè)方法研究
本文關(guān)鍵詞:漢語(yǔ)普通話發(fā)音質(zhì)量自動(dòng)評(píng)測(cè)方法研究 出處:《哈爾濱工業(yè)大學(xué)》2014年博士論文 論文類(lèi)型:學(xué)位論文
更多相關(guān)文章: 發(fā)音質(zhì)量自動(dòng)評(píng)測(cè) 漢語(yǔ)普通話評(píng)測(cè) 音素評(píng)測(cè) 聲韻母評(píng)測(cè) 聲調(diào)評(píng)測(cè) 兒化音評(píng)測(cè)
【摘要】:發(fā)音質(zhì)量自動(dòng)評(píng)測(cè)(以下簡(jiǎn)稱(chēng)“評(píng)測(cè)”)是計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)及口語(yǔ)考試中的核心技術(shù)問(wèn)題,其研究成果對(duì)提高學(xué)習(xí)者學(xué)習(xí)的靈活性和滿意度,減少人工閱卷的主觀性和不穩(wěn)定性,降低投入成本,提高實(shí)效性,具有重要的理論意義和科學(xué)價(jià)值,應(yīng)用前景廣闊。隨著國(guó)內(nèi)普通話的大力推廣和普及,以及國(guó)外漢語(yǔ)學(xué)習(xí)熱潮的快速興起,針對(duì)漢語(yǔ)普通話的評(píng)測(cè)技術(shù)實(shí)際需求強(qiáng)勁,且更具特色和挑戰(zhàn)性,有必要深入系統(tǒng)地研究。 漢語(yǔ)是一種單音節(jié)聲調(diào)語(yǔ)言,每個(gè)音節(jié)包括聲母、韻母和聲調(diào)三部分,音節(jié)間界限較分明,有鮮明的輕重音和兒化音。漢語(yǔ)音節(jié)的三元結(jié)構(gòu)及音韻特點(diǎn)與英語(yǔ)語(yǔ)音差異較大,需要結(jié)合漢語(yǔ)特點(diǎn),在表征、建模和計(jì)算等方面進(jìn)行針對(duì)性研究和創(chuàng)造性方法改進(jìn)。此外,現(xiàn)有主流評(píng)測(cè)方法在基本發(fā)音單元(聲韻母、聲調(diào)等)評(píng)測(cè)上的準(zhǔn)確性還不夠理想,無(wú)法滿足精細(xì)評(píng)測(cè)任務(wù)和較高水平說(shuō)話人評(píng)測(cè)任務(wù)的實(shí)際需求,需要在聲學(xué)建模和置信度計(jì)算等方面進(jìn)行改進(jìn),以提高聲學(xué)模型的精度和評(píng)測(cè)模型的準(zhǔn)確度。 本文重點(diǎn)研究母語(yǔ)人群的漢語(yǔ)普通話評(píng)測(cè)方法。在聲韻母評(píng)測(cè)方面,針對(duì)當(dāng)前主流的發(fā)音良好度(Goodness of pronunciation,GOP)算法存在的切分不準(zhǔn)、計(jì)算精度低、模型間區(qū)分性差等問(wèn)題,提出一種基于音素混淆概率矩陣的評(píng)測(cè)方法。該方法通過(guò)計(jì)算音素混淆概率矩陣來(lái)構(gòu)建每個(gè)音素的混淆音素集合,一方面利用混淆音素集合建立音素混淆限制識(shí)別網(wǎng)絡(luò),提高音素段切分的準(zhǔn)確性;另一方面,引入音素混淆先驗(yàn)概率,把混淆音素集合作為后驗(yàn)概率的計(jì)算空間,提高計(jì)算精度和模型間的區(qū)分性。為擴(kuò)大發(fā)音的評(píng)測(cè)范圍,提高聲學(xué)模型的覆蓋范圍,提出一種基于擴(kuò)展發(fā)音空間的評(píng)測(cè)方法。該方法利用錯(cuò)誤發(fā)音樣本數(shù)據(jù),擴(kuò)展標(biāo)準(zhǔn)發(fā)音空間,對(duì)標(biāo)準(zhǔn)發(fā)音的各類(lèi)發(fā)音錯(cuò)誤進(jìn)行精細(xì)建模,并在這個(gè)擴(kuò)展后的發(fā)音空間內(nèi)進(jìn)行后驗(yàn)概率計(jì)算,計(jì)算更加準(zhǔn)確和有效。同時(shí),針對(duì)包含錯(cuò)誤發(fā)音的數(shù)據(jù)獲取容易,但標(biāo)注困難,且工作量巨大的問(wèn)題,設(shè)計(jì)對(duì)錯(cuò)誤發(fā)音樣本聚類(lèi)的非監(jiān)督學(xué)習(xí)方法,以及發(fā)音模型的自動(dòng)更新方法,來(lái)持續(xù)提高評(píng)測(cè)模型的準(zhǔn)確性。鑒于上述方法都是單維置信度計(jì)算加閾值判斷還不夠魯棒,提出一種基于系統(tǒng)融合的多維置信度的評(píng)測(cè)方法。該方法依次計(jì)算待評(píng)測(cè)語(yǔ)音段相對(duì)于其對(duì)應(yīng)音素的混淆音素集合中所有音素的后驗(yàn)概率和錯(cuò)誤音素集合中所有音素的后驗(yàn)概率,并把它們組合起來(lái),形成一個(gè)多維置信度向量,作為一種新的評(píng)測(cè)特征,為各個(gè)音素分別訓(xùn)練出不同發(fā)音質(zhì)量的分類(lèi)器,實(shí)現(xiàn)對(duì)聲韻母發(fā)音質(zhì)量的再評(píng)測(cè),人機(jī)相關(guān)系數(shù)達(dá)到0.893,超過(guò)了人工評(píng)測(cè)的平均水平。 在聲調(diào)評(píng)測(cè)方面,針對(duì)聲調(diào)相關(guān)基頻特征的有效獲取和多層次利用,提出一種基于系統(tǒng)融合的多維置信度的聲調(diào)評(píng)測(cè)方法。在語(yǔ)音幀層級(jí)上,把基頻特征及其一階、二階差分加入到39維梅爾倒譜系數(shù)中去,共42維,以聲母和帶調(diào)韻母為發(fā)音單元,采用嵌入式訓(xùn)練方式,建立嵌入式聲調(diào)模型。在音節(jié)層級(jí)上,提取當(dāng)前音節(jié)和其前面、后面音節(jié)的基頻特征及它們的統(tǒng)計(jì)特征,共12維,選擇高斯混合模型(Gaussian Mixture Model,GMM)做分類(lèi)器,建立顯式聲調(diào)模型。把利用嵌入式聲調(diào)模型計(jì)算出的5種聲調(diào)的后驗(yàn)概率和利用顯式聲調(diào)模型計(jì)算出的5種聲調(diào)的后驗(yàn)概率組合起來(lái),形成一個(gè)10維的多維置信度向量,作為一種新的評(píng)測(cè)特征,為各個(gè)聲調(diào)分別訓(xùn)練出不同發(fā)音質(zhì)量的分類(lèi)器,實(shí)現(xiàn)對(duì)聲調(diào)發(fā)音質(zhì)量的再評(píng)測(cè)。實(shí)驗(yàn)結(jié)果表明,上述方法有效融合兩種建模方式的互補(bǔ)性,同時(shí)利用長(zhǎng)時(shí)語(yǔ)段和短時(shí)語(yǔ)段的特征信息,且不需要考慮閾值選取,具有更好的魯棒性和適應(yīng)性,有效提高了聲調(diào)評(píng)測(cè)方法的準(zhǔn)確性,人機(jī)相關(guān)系數(shù)達(dá)到0.899,超過(guò)了人工評(píng)測(cè)的平均水平。 在漢語(yǔ)兒化音評(píng)測(cè)方面,針對(duì)國(guó)家普通話水平測(cè)試中對(duì)兒化音的考評(píng)要求,提出一種基于分類(lèi)思想的兒化音評(píng)測(cè)方法。深入分析兒化音的發(fā)音規(guī)律和特色,提取共振峰、發(fā)音置信度、時(shí)長(zhǎng)等代表性特征,采用集成學(xué)習(xí)方式,改進(jìn)傳統(tǒng)的AdaBoost算法,,每次迭代時(shí),同一基分類(lèi)器會(huì)根據(jù)不同分類(lèi)類(lèi)別分別更新權(quán)值,在權(quán)值計(jì)算時(shí)增加一個(gè)與類(lèi)別先驗(yàn)概率和類(lèi)別數(shù)目相關(guān)的正數(shù)項(xiàng),大大降低算法對(duì)基分類(lèi)器的精度要求,并特別適合數(shù)據(jù)分布不平衡的多類(lèi)分類(lèi)問(wèn)題,實(shí)現(xiàn)對(duì)兒化音的發(fā)音質(zhì)量狀況進(jìn)行有效分類(lèi),分類(lèi)效果明顯優(yōu)于傳統(tǒng)的AdaBoost集成分類(lèi)器及其他經(jīng)典單一分類(lèi)器。作為一種輔助評(píng)測(cè)方法,上述方法可以很容易推廣到其他類(lèi)型音變的評(píng)測(cè)中,比如變調(diào)、輕聲等。 基于以上研究工作,在國(guó)家普通話水平測(cè)試現(xiàn)場(chǎng)錄音的測(cè)試語(yǔ)音庫(kù)上,實(shí)驗(yàn)系統(tǒng)的總體分差下降到4.26,與人工評(píng)測(cè)的分差3.71已經(jīng)非常接近,這為今后漢語(yǔ)普通話自動(dòng)評(píng)測(cè)的實(shí)際應(yīng)用奠定了良好的基礎(chǔ)。
[Abstract]:The automatic evaluation of pronunciation quality ( hereinafter referred to as " evaluation " ) is the core technical problem in computer - aided language learning and oral examination . The research results are of great theoretical significance and scientific value to improve learners ' learning flexibility and satisfaction , reduce input cost , improve effectiveness , have important theoretical significance and scientific value , and have broad application prospect . With the popularization and popularization of Mandarin Chinese language , and the rapid rise of Chinese learning upsurge in foreign countries , the practical demand for the evaluation technology of Mandarin Chinese Putonghua is strong , and it is more characteristic and challenging , and it is necessary to study in depth . In addition , the accuracy of the traditional mainstream evaluation method in the evaluation of basic pronunciation units ( phonology , tone , etc . ) is not ideal enough to meet the actual needs of the precise evaluation task and the higher level speaker ' s evaluation task , and the improvement of the acoustic modeling and confidence calculation is needed to improve the accuracy of the acoustic model and the accuracy of the evaluation model . In order to improve the accuracy of the evaluation model , this paper proposes a method based on the probability matrix of phoneme confusion , which can improve the accuracy of the evaluation model . In this paper , based on the effective acquisition and multi - level utilization of tone - related fundamental frequency characteristics , a multi - dimensional confidence measure method based on system fusion is proposed . Based on the speech frame level , the fundamental frequency characteristics and the first order and second - order difference are added to the 39 - dimensional Mel cepstrum coefficient . In this paper , a method for evaluating the pronunciation quality of children is proposed in this paper , which is based on the requirement of the evaluation of the children ' s pronunciation in the national Putonghua level test . The method of integrated learning is used to improve the traditional AdaBoost algorithm . Based on the above research work , the overall diversity of the experimental system is reduced to 4.26 on the test voice library of the national Putonghua level test field recording , and the difference of 3.71 has been very close to the manual evaluation , which lays a good foundation for the practical application of the automatic evaluation of Mandarin Chinese Putonghua .
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TN912.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉先任;基于過(guò)零觸發(fā)機(jī)制的語(yǔ)音基頻快速估計(jì)算法[J];電訊技術(shù);2002年02期
2 王孟杰;孟子厚;;基于區(qū)別特征檢測(cè)的漢語(yǔ)韻母分類(lèi)[J];電聲技術(shù);2011年09期
3 魏思;劉慶升;胡郁;王仁華;;普通話水平測(cè)試電子化系統(tǒng)[J];中文信息學(xué)報(bào);2006年06期
4 劉慶升;魏思;胡郁;郭武;王仁華;;基于語(yǔ)言學(xué)知識(shí)的發(fā)音質(zhì)量評(píng)價(jià)算法改進(jìn)[J];中文信息學(xué)報(bào);2007年04期
5 湯霖;尹俊勛;;普通話聲調(diào)的客觀評(píng)測(cè)[J];中文信息學(xué)報(bào);2007年06期
6 潘逸倩;魏思;王仁華;;基于韻律信息的連續(xù)語(yǔ)流調(diào)型評(píng)測(cè)研究[J];中文信息學(xué)報(bào);2008年04期
7 張峰;黃超;戴禮榮;;普通話發(fā)音錯(cuò)誤自動(dòng)檢測(cè)技術(shù)[J];中文信息學(xué)報(bào);2010年02期
8 嚴(yán)可;戴禮榮;;基于音素評(píng)分模型的發(fā)音標(biāo)準(zhǔn)度評(píng)測(cè)研究[J];中文信息學(xué)報(bào);2011年05期
9 王士進(jìn);李宏言;柯登峰;李鵬;高鵬;徐波;;面向第二語(yǔ)言學(xué)習(xí)的口語(yǔ)大規(guī)模智能評(píng)估技術(shù)研究[J];中文信息學(xué)報(bào);2011年06期
10 嚴(yán)可;魏思;戴禮榮;;針對(duì)發(fā)音質(zhì)量評(píng)測(cè)的聲學(xué)模型優(yōu)化算法[J];中文信息學(xué)報(bào);2013年01期
相關(guān)博士學(xué)位論文 前2條
1 劉慶升;計(jì)算機(jī)輔助普通話發(fā)音評(píng)測(cè)關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
2 嚴(yán)可;發(fā)音質(zhì)量自動(dòng)評(píng)測(cè)技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
本文編號(hào):1386417
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/1386417.html