基于多示例學(xué)習(xí)的漢語口語語音中不流利事件檢測研究
發(fā)布時間:2021-02-24 18:17
隨著互聯(lián)網(wǎng)的發(fā)展,人工智能越來越融入人們的工作生活中,人與機(jī)器的智能語音交互應(yīng)用更加廣泛,機(jī)器需要更好的理解人們各種情境環(huán)境下的語音,現(xiàn)階段主要包括流利的朗讀式語音、較短的命令式語音等,而在較長的自然口語語音方面,智能語音識別還面臨很大的挑戰(zhàn)。本文主要是對漢語自然口語語音數(shù)據(jù)中不流利事件的檢測研究,可以看作語音識別任務(wù)的一個前端工作。不流利事件即自然口語中猶豫、填充停頓、重復(fù)等現(xiàn)象。它是語音中非正常語義的行為,對不流利事件的檢測研究屬于語音副語言研究范疇。在本文中,提取了能夠很好地表征不流利語音的特點的韻律學(xué)特征和譜相關(guān)特征,并且提出了多示例學(xué)習(xí)的模型以解決在不流利語音中,不流利事件持續(xù)時間短而噪聲信息過多的問題,通過訓(xùn)練多示例學(xué)習(xí)模型對不流利事件進(jìn)行識別。論文的主要內(nèi)容有:(1)漢語自然口語不流利事件語料庫的構(gòu)建。本文從已有標(biāo)注的哈工大流媒體數(shù)據(jù)語料庫中提取我們需要的流利語音和不流利語音。本文依據(jù)該原始語料庫中的標(biāo)注文件,分析了不流利事件的標(biāo)注特點,找到不流利事件的標(biāo)注規(guī)則,然后依據(jù)此規(guī)則找到了自動檢測不流利事件的有效方法,自動切割不流利語音,然后通過人工復(fù)檢自動切割的語料,完成了漢...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1分子形狀的射線表示
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文整的一句話,不含有話與話之間的靜音片段。這樣的切割雖然在訓(xùn)練分類時高了處理難度,但是會提高語料的精確度,提高識別結(jié)果的準(zhǔn)確度。對于不同類型的語音具體的標(biāo)注特點如下:1、填充停頓類型的語料:對于大多數(shù)含有猶豫現(xiàn)象的不流利語料都有填充詞的存在,填充詞指的“嗯”“呃”等語氣詞。我們需要從原有語料的標(biāo)注中找到這樣的句子,然找到對應(yīng)的音頻進(jìn)行切割。
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文(4) 判斷句子是否符合長度(在 4s-15s 之間,一般為 10s 左右);(5) 若符合上述規(guī)則,找到音頻文件進(jìn)行切割。2、對于重復(fù)的語料的切割:重復(fù)類型,顧名思義就是在語音中出現(xiàn)一些字或詞語的多余的重復(fù),他與正常語句中的疊詞類型是不一樣的,需要區(qū)分開。重復(fù)類型語料波形圖如圖 22 所示。
【參考文獻(xiàn)】:
期刊論文
[1]多示例學(xué)習(xí)問題研究進(jìn)展綜述[J]. 田英杰,胥棟寬,張春華. 運籌學(xué)學(xué)報. 2018(02)
[2]大規(guī)模語音語料庫的采集、處理和研究[J]. 袁家宏. 語言學(xué)研究. 2017(01)
[3]圖像語義分析的多示例學(xué)習(xí)算法綜述[J]. 李大湘,趙小強,李娜. 控制與決策. 2013(04)
[4]基于免疫RBF神經(jīng)網(wǎng)絡(luò)的語音情感識別[J]. 鄧廣慧,荊東星,葉吉祥. 計算機(jī)工程與科學(xué). 2009(09)
[5]一種基于脈沖耦合神經(jīng)網(wǎng)絡(luò)的語音情感識別新方法[J]. 梁澤,馬義德,張恩溯,朱望飛,湯書森. 計算機(jī)應(yīng)用. 2008(03)
[6]基于神經(jīng)網(wǎng)絡(luò)的多示例回歸算法[J]. 張敏靈,周志華. 軟件學(xué)報. 2003(07)
[7]自然口語語音識別研究概況[J]. 馮俊蘭,杜利民. 電子科技導(dǎo)報. 1999(09)
[8]漢語口語語料庫研究的若干問題[J]. 王顯芳,杜利民. 電子科技導(dǎo)報. 1999(09)
碩士論文
[1]基于多示例學(xué)習(xí)的異常行為檢測方法研究[D]. 崔永艷.南京大學(xué) 2011
本文編號:3049764
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1分子形狀的射線表示
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文整的一句話,不含有話與話之間的靜音片段。這樣的切割雖然在訓(xùn)練分類時高了處理難度,但是會提高語料的精確度,提高識別結(jié)果的準(zhǔn)確度。對于不同類型的語音具體的標(biāo)注特點如下:1、填充停頓類型的語料:對于大多數(shù)含有猶豫現(xiàn)象的不流利語料都有填充詞的存在,填充詞指的“嗯”“呃”等語氣詞。我們需要從原有語料的標(biāo)注中找到這樣的句子,然找到對應(yīng)的音頻進(jìn)行切割。
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文(4) 判斷句子是否符合長度(在 4s-15s 之間,一般為 10s 左右);(5) 若符合上述規(guī)則,找到音頻文件進(jìn)行切割。2、對于重復(fù)的語料的切割:重復(fù)類型,顧名思義就是在語音中出現(xiàn)一些字或詞語的多余的重復(fù),他與正常語句中的疊詞類型是不一樣的,需要區(qū)分開。重復(fù)類型語料波形圖如圖 22 所示。
【參考文獻(xiàn)】:
期刊論文
[1]多示例學(xué)習(xí)問題研究進(jìn)展綜述[J]. 田英杰,胥棟寬,張春華. 運籌學(xué)學(xué)報. 2018(02)
[2]大規(guī)模語音語料庫的采集、處理和研究[J]. 袁家宏. 語言學(xué)研究. 2017(01)
[3]圖像語義分析的多示例學(xué)習(xí)算法綜述[J]. 李大湘,趙小強,李娜. 控制與決策. 2013(04)
[4]基于免疫RBF神經(jīng)網(wǎng)絡(luò)的語音情感識別[J]. 鄧廣慧,荊東星,葉吉祥. 計算機(jī)工程與科學(xué). 2009(09)
[5]一種基于脈沖耦合神經(jīng)網(wǎng)絡(luò)的語音情感識別新方法[J]. 梁澤,馬義德,張恩溯,朱望飛,湯書森. 計算機(jī)應(yīng)用. 2008(03)
[6]基于神經(jīng)網(wǎng)絡(luò)的多示例回歸算法[J]. 張敏靈,周志華. 軟件學(xué)報. 2003(07)
[7]自然口語語音識別研究概況[J]. 馮俊蘭,杜利民. 電子科技導(dǎo)報. 1999(09)
[8]漢語口語語料庫研究的若干問題[J]. 王顯芳,杜利民. 電子科技導(dǎo)報. 1999(09)
碩士論文
[1]基于多示例學(xué)習(xí)的異常行為檢測方法研究[D]. 崔永艷.南京大學(xué) 2011
本文編號:3049764
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3049764.html
最近更新
教材專著