語音關鍵詞檢測中的置信度研究
發(fā)布時間:2017-04-15 08:27
本文關鍵詞:語音關鍵詞檢測中的置信度研究,由筆耕文化傳播整理發(fā)布。
【摘要】:關鍵詞檢測作為語音識別技術中的一項重要內容,具有廣泛的應用前景和研究價值。但由于受環(huán)境噪聲、說話人發(fā)音差異等因素的影響,檢測結果中不可避免地存在大量錯誤。而置信度計算則能夠在沒有正確參考條件下,通過對各候選項的“可靠性”程度進行客觀度量,有效排除識別過程中所產生的大量虛警,因此是關鍵詞識別系統(tǒng)走向實用化的關鍵技術之一。本文根據(jù)關鍵詞屬性的不同,分別對基于集內詞(In-Vocabulary, Ⅳ)和集外詞(Out-of-Vocabulary,OOV)的置信度計算及規(guī)整技術進行了深入研究,具體內容和貢獻主要有以下三個方面:(1)針對集內詞檢測中缺乏對上下文信息有效利用的問題,提出了一種基于上下文語義相似度優(yōu)化的置信度方法。該方法首先將候選關鍵詞與其上下文間的語義相似性程度作為置信度度量;其次,采用自適應滑動窗對連續(xù)識別結果進行語義分割,將候選關鍵詞與其上下文鎖定在相同語義片內,消除以整句話作為候選詞上下文時所產生的不同語義間干擾;最后,通過引入歸一化詞間距離信息,異化相同語義片內的不同位置上下文對候選詞的影響。實驗結果表明,考慮語義分割和位置距離信息,能夠顯著增強基于上下文語義相似度的集內詞置信度計算性能。(2)針對基于模糊匹配的集外詞檢測中,由于匹配的不精準性而導致部分集內詞易被誤識為集外詞候選的問題,提出了一種基于語音誤識的集外詞置信度確認方法。該方法在不使用正確標注條件下,根據(jù)各候選詞屬性估計識別結果中可能存在的誤識類別,并通過將其轉化為特征以及區(qū)分性模型訓練,來檢測識別結果中的集內詞、集外詞區(qū)域。若在集內詞區(qū)域發(fā)現(xiàn)關于集外詞的模糊匹配結果,則將其視為錯誤虛警;相反若發(fā)生于集外詞區(qū)域,則進一步通過聯(lián)合置信度得分重估,判斷候選結果的可靠性。實驗結果表明,經本文基于擴展語音誤識的置信度確認,系統(tǒng)集外詞檢測性能可實現(xiàn)較大程度提升。(3)針對不同候選關鍵詞間的屬性差異,可導致置信度得分代表的置信度水平有所不同的問題,提出了一種基于實際查詢詞權重代價(Actual Term-Weighted Value, ATWV)優(yōu)化的詞相關置信度規(guī)整方法。該方法根據(jù)測試集中詞發(fā)生次數(shù),調整候選關鍵詞置信度得分,并分別采用線性和區(qū)分性方式補償ATWV優(yōu)化中產生的置信度偏差,其中線性補償以線性組合方式調整置信度得分,而區(qū)分性補償則通過將其轉化為正確分類概率,降低置信度偏差帶來的影響。實驗結果表明,在該置信度規(guī)整方法下,關鍵詞檢測ATWV和DET曲線均會有所改善。
【關鍵詞】:置信度計算 集內詞檢測 語義相似度優(yōu)化 集外詞檢測 擴展語音誤識 詞相關規(guī)整 ATWV優(yōu)化 偏差補償
【學位授予單位】:解放軍信息工程大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TN912.3
【目錄】:
- 摘要4-5
- Abstract5-12
- 第一章 緒論12-24
- 1.1 語音關鍵詞檢測技術概述12-14
- 1.1.1 關鍵詞檢測發(fā)展歷程12-13
- 1.1.2 關鍵詞檢測面臨難點13-14
- 1.2 研究關鍵詞置信度計算意義14-15
- 1.3 置信度計算研究現(xiàn)狀15-20
- 1.3.1 集內詞置信度計算方法15-18
- 1.3.2 集外詞檢測及置信度計算方法18-19
- 1.3.3 置信度得分規(guī)整方法19-20
- 1.4 存在的主要問題20
- 1.5 論文研究內容及結構安排20-24
- 第二章 語音關鍵詞檢測系統(tǒng)實現(xiàn)24-40
- 2.1 關鍵詞檢測關鍵技術24-35
- 2.1.1 預處理24-25
- 2.1.2 特征提取25-26
- 2.1.3 聲學模型26-30
- 2.1.4 語言模型30
- 2.1.5 解碼器30-32
- 2.1.6 關鍵詞搜索32-34
- 2.1.7 置信度計算34-35
- 2.2 關鍵詞檢測評價指標35-36
- 2.2.1 漏警率、虛警率和DET曲線35-36
- 2.2.2 實際查詢詞權重代價36
- 2.3 實驗36-38
- 2.3.1 實驗設置36-37
- 2.3.2 實驗結果與分析37-38
- 2.4 小結38-40
- 第三章 基于上下文語義相似度優(yōu)化的集內詞置信度計算40-50
- 3.1 引言40
- 3.2 上下文語義相似度40-42
- 3.2.1 詞間語義相似度41-42
- 3.2.2 上下文路徑選取42
- 3.3 語義相似度優(yōu)化處理42-44
- 3.3.1 自適應滑動窗語義分割43-44
- 3.3.2 引入距離信息的相似度度量44
- 3.4 實驗44-47
- 3.4.1 實驗設置44-45
- 3.4.2 實驗結果分析45-47
- 3.5 小結47-50
- 第四章 基于模糊匹配和擴展語音誤識的集外詞置信度算法50-60
- 4.1 引言50
- 4.2 集外詞檢測50-51
- 4.3 語音誤識估計51-52
- 4.4 基于語音誤識的置信度計算52-56
- 4.4.1 擴展誤識類別特征52-54
- 4.4.2 基礎特征選取及上下文相關化54-55
- 4.4.3 IV/OOV標注55
- 4.4.4 聯(lián)合得分重估55-56
- 4.5 實驗56-58
- 4.5.1 實驗設置56
- 4.5.2 實驗結果及分析56-58
- 4.6 小結58-60
- 第五章 基于ATWV優(yōu)化和偏差補償?shù)脑~相關置信度規(guī)整60-70
- 5.1 引言60
- 5.2 ATWV優(yōu)化60-62
- 5.3 偏差補償方法62-64
- 5.3.1 線性補償62-63
- 5.3.2 區(qū)分性補償63-64
- 5.4 實驗64-68
- 5.4.1 實驗設置64-65
- 5.4.2 實驗結果分析65-68
- 5.5 小結68-70
- 結束語70-72
- 一、本文主要工作70
- 二、下一步研究方向70-72
- 致謝72-74
- 參考文獻74-82
- 作者簡歷82
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 Javier Tejedo;Simon King;Joe Frankel;;Term-Dependent Confidence Normalisation for Out-of-Vocabulary Spoken Term Detection[J];Journal of Computer Science & Technology;2012年02期
2 孟莎;劉加;;漢語語音檢索的集外詞問題與兩階段檢索方法[J];中文信息學報;2009年06期
3 國玉晶;劉剛;劉健;郭軍;;基于環(huán)境特征的語音識別置信度研究[J];清華大學學報(自然科學版);2009年S1期
4 倪崇嘉;劉文舉;徐波;;漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進展[J];中文信息學報;2009年01期
5 張鵬遠;邵健;趙慶衛(wèi);顏永紅;;廣播新聞語音的關鍵詞檢測系統(tǒng)[J];通信學報;2007年12期
6 孫輝;鄭方;吳文虎;;基于上下文相關置信度打分的語音確認方法[J];清華大學學報(自然科學版);2006年01期
本文關鍵詞:語音關鍵詞檢測中的置信度研究,由筆耕文化傳播整理發(fā)布。
,本文編號:307958
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/307958.html
最近更新
教材專著