用于大規(guī)模語料庫建設(shè)的一種漢語語句切分方法
發(fā)布時間:2021-03-09 08:11
在語音識別和語音合成大規(guī)模語料庫的構(gòu)建中,需要把較長內(nèi)容的語音文件切分成一定字數(shù)要求的語音數(shù)據(jù)文件和對應(yīng)的文本文件。一種有效的自動切分方法是通過對單字占用時間的預(yù)測和元音主體數(shù)目的統(tǒng)計來評估切分點的位置,實現(xiàn)對語音數(shù)據(jù)的自動切分。實驗表明,使用該方法進行切分的一次成功率可以達到92.8%,參數(shù)適當調(diào)整后的二次成功率為96.3%。整個切分過程中,進行人工調(diào)整的工作量很小,適合快速構(gòu)建大規(guī)模語料庫。
【文章來源】:郵電設(shè)計技術(shù). 2019,(08)
【文章頁數(shù)】:4 頁
【文章目錄】:
0前言
1 漢語語句自動切分方法的總體結(jié)構(gòu)
2 方法具體實現(xiàn)
3 切分效果評估
4 結(jié)束語
【參考文獻】:
期刊論文
[1]大規(guī)模語音語料庫的采集、處理和研究[J]. 袁家宏. 語言學(xué)研究. 2017(01)
[2]面向自然語言處理的大規(guī)模漢藏(藏漢)雙語語料庫構(gòu)建技術(shù)研究[J]. 才讓加. 中文信息學(xué)報. 2011(06)
[3]超大規(guī)模語料庫精加工技術(shù)研究[J]. 曲維光,唐旭日,俞敬松. 當代語言學(xué). 2009(02)
[4]連續(xù)話語語料庫的語音切分和標記[J]. 陳肖霞. 語言文字應(yīng)用. 2000(02)
[5]漢語語音合成語料庫的研究與建立[J]. 蔡蓮紅,趙世霞. 語言文字應(yīng)用. 1999(03)
博士論文
[1]基于統(tǒng)計聲學(xué)建模的語音合成技術(shù)研究[D]. 凌震華.中國科學(xué)技術(shù)大學(xué) 2008
碩士論文
[1]基于語音識別和語音合成的漢語語音轉(zhuǎn)換技術(shù)研究[D]. 何彬.云南大學(xué) 2013
[2]中文語料庫切分不一致字串分類校驗方法研究[D]. 苗璽.山西大學(xué) 2006
本文編號:3072557
【文章來源】:郵電設(shè)計技術(shù). 2019,(08)
【文章頁數(shù)】:4 頁
【文章目錄】:
0前言
1 漢語語句自動切分方法的總體結(jié)構(gòu)
2 方法具體實現(xiàn)
3 切分效果評估
4 結(jié)束語
【參考文獻】:
期刊論文
[1]大規(guī)模語音語料庫的采集、處理和研究[J]. 袁家宏. 語言學(xué)研究. 2017(01)
[2]面向自然語言處理的大規(guī)模漢藏(藏漢)雙語語料庫構(gòu)建技術(shù)研究[J]. 才讓加. 中文信息學(xué)報. 2011(06)
[3]超大規(guī)模語料庫精加工技術(shù)研究[J]. 曲維光,唐旭日,俞敬松. 當代語言學(xué). 2009(02)
[4]連續(xù)話語語料庫的語音切分和標記[J]. 陳肖霞. 語言文字應(yīng)用. 2000(02)
[5]漢語語音合成語料庫的研究與建立[J]. 蔡蓮紅,趙世霞. 語言文字應(yīng)用. 1999(03)
博士論文
[1]基于統(tǒng)計聲學(xué)建模的語音合成技術(shù)研究[D]. 凌震華.中國科學(xué)技術(shù)大學(xué) 2008
碩士論文
[1]基于語音識別和語音合成的漢語語音轉(zhuǎn)換技術(shù)研究[D]. 何彬.云南大學(xué) 2013
[2]中文語料庫切分不一致字串分類校驗方法研究[D]. 苗璽.山西大學(xué) 2006
本文編號:3072557
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3072557.html
最近更新
教材專著