基于深度學(xué)習的調(diào)頻廣播語種識別模型及應(yīng)用
發(fā)布時間:2021-11-20 04:16
隨著社會經(jīng)濟的高速發(fā)展以及全球化進程的加快,全球范圍內(nèi)的人員流動增加了擁有不同語言背景的人相互交流的機會,自動語種識別作為語音識別的第一步顯得十分重要。全球人工智能的快速發(fā)展也促進了各項技術(shù)的升級,語音技術(shù)作為人類信息交流的橋梁技術(shù),引得越來越多的科研工作者投入到實現(xiàn)良好語音交互的行列中。包括邊境地區(qū)的無線電通信安全問題,也可采用語音識別的方法進行監(jiān)測,實現(xiàn)快速精準的語種識別對后續(xù)所有與語音識別相關(guān)的工作顯得極為重要。本文圍繞廣播的語音語種識別,對語種識別方法進行了詳細的討論與研究,主要工作如下:1)根據(jù)語種識別領(lǐng)域的對數(shù)據(jù)集的要求,采集了老撾語、普通話、緬甸語、泰國語和越南語共5種語言約25小時的數(shù)據(jù)集,并通過與其他數(shù)據(jù)集對比研究,確認數(shù)據(jù)的可靠性。2)結(jié)合語音處理的方法,建立廣播信號識別數(shù)據(jù)集,利用深度學(xué)習對調(diào)頻廣播信號掃頻錄音保存后音頻文件進行識別,以此來識別信號與非信號。3)采用I-Vector的方法建立可靠語種識別的基線系統(tǒng),為后續(xù)試驗的改進提供可靠的理論依據(jù)。4)以深層神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),針對短時變長的語音信號,設(shè)計了兩種采用底層聲學(xué)特征作為輸入的深度學(xué)習的語種識別方法。一種是...
【文章來源】:云南大學(xué)云南省 211工程院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1所示的一種語吉的語音到另一種語言的語音的轉(zhuǎn)換,是在確記了待??1??
中模型訓(xùn)練和模型測試,又可以分為模型的構(gòu)建、訓(xùn)練和測試,關(guān)容將會在下面章節(jié)做詳細介紹。在這里主要介紹特征提取,特征提理階段,提取出的特征在語種識別中用于區(qū)分不同語種。由于該類言類別區(qū)分性,特征提取階段要減弱或者消除語音信號中所攜帶的類無關(guān)的信息。語種識別系統(tǒng)用于分類的特征從底層特征到高層特征征(Acoustic)、音位序列特征(Phonotactics)、韻律特征(Prosodic)、cal)和語法(Syntactic),如圖?1-3?所不[21。??聲學(xué)特征。語音作為語言系統(tǒng)中的實體是音素[3),??種語言中使用的數(shù)量在15到50個不等,其中大多數(shù)語言使用的音素大約有30個[4]。普通話有21個輔音10個元音,英語有24個輔荇和14個元音W。言可能會擁有共同的因素,但不同語言其語音由不同的聲學(xué)單元構(gòu)于這一點,可以通過對語音信號分幀和加窗提取聲學(xué)特征用于語種識
?云南大學(xué)碩士學(xué)位論文???(changsha)、河北話(hebei)、南昌話(nanchang)、上海話(shanghai)、客家話??(kejia)和閩南話(minnan)。音頻數(shù)據(jù)由各個型號的智能手機采集,錄制環(huán)境包??含安靜環(huán)境和噪聲環(huán)境,采樣率為16kHz,以16bits量化的PCM格式存儲。訓(xùn)練??數(shù)據(jù)每種語言包含30人,男女各15人,每人200句。測試數(shù)據(jù)包含5人,2名女??性3名男性,每人100句。數(shù)據(jù)具體描述見表1-1。??
本文編號:3506546
【文章來源】:云南大學(xué)云南省 211工程院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1所示的一種語吉的語音到另一種語言的語音的轉(zhuǎn)換,是在確記了待??1??
中模型訓(xùn)練和模型測試,又可以分為模型的構(gòu)建、訓(xùn)練和測試,關(guān)容將會在下面章節(jié)做詳細介紹。在這里主要介紹特征提取,特征提理階段,提取出的特征在語種識別中用于區(qū)分不同語種。由于該類言類別區(qū)分性,特征提取階段要減弱或者消除語音信號中所攜帶的類無關(guān)的信息。語種識別系統(tǒng)用于分類的特征從底層特征到高層特征征(Acoustic)、音位序列特征(Phonotactics)、韻律特征(Prosodic)、cal)和語法(Syntactic),如圖?1-3?所不[21。??聲學(xué)特征。語音作為語言系統(tǒng)中的實體是音素[3),??種語言中使用的數(shù)量在15到50個不等,其中大多數(shù)語言使用的音素大約有30個[4]。普通話有21個輔音10個元音,英語有24個輔荇和14個元音W。言可能會擁有共同的因素,但不同語言其語音由不同的聲學(xué)單元構(gòu)于這一點,可以通過對語音信號分幀和加窗提取聲學(xué)特征用于語種識
?云南大學(xué)碩士學(xué)位論文???(changsha)、河北話(hebei)、南昌話(nanchang)、上海話(shanghai)、客家話??(kejia)和閩南話(minnan)。音頻數(shù)據(jù)由各個型號的智能手機采集,錄制環(huán)境包??含安靜環(huán)境和噪聲環(huán)境,采樣率為16kHz,以16bits量化的PCM格式存儲。訓(xùn)練??數(shù)據(jù)每種語言包含30人,男女各15人,每人200句。測試數(shù)據(jù)包含5人,2名女??性3名男性,每人100句。數(shù)據(jù)具體描述見表1-1。??
本文編號:3506546
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3506546.html
最近更新
教材專著