天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的中文唇語(yǔ)識(shí)別研究

發(fā)布時(shí)間:2025-05-07 20:08
  唇語(yǔ)識(shí)別作為一種將唇讀視頻轉(zhuǎn)換為文本的多模態(tài)任務(wù),它旨在理解說(shuō)話者在無(wú)聲情況下表達(dá)的意思。唇語(yǔ)識(shí)別在復(fù)雜場(chǎng)景下增強(qiáng)語(yǔ)音識(shí)別、公共安全監(jiān)控和輔助聽(tīng)障人士交流等方面具有很高的應(yīng)用價(jià)值。隨著深度學(xué)習(xí)技術(shù)被廣泛應(yīng)用在唇語(yǔ)識(shí)別研究中,唇語(yǔ)識(shí)別算法的性能得到了極大提高,針對(duì)中文視頻的唇語(yǔ)識(shí)別問(wèn)題也逐漸成為研究熱點(diǎn)。盡管唇語(yǔ)識(shí)別在近幾年已經(jīng)取得了較大的發(fā)展,但目前的研究主要利用卷積神經(jīng)網(wǎng)絡(luò)提取唇部視覺(jué)特征,捕獲到的短距離像素關(guān)系仍然難以區(qū)分相似發(fā)音字符的唇形。另外,在某些應(yīng)用場(chǎng)景中,只需要關(guān)注特定關(guān)鍵詞是否出現(xiàn)及其出現(xiàn)位置,而唇語(yǔ)關(guān)鍵詞檢測(cè)可以應(yīng)用于這些場(chǎng)景中。 本文從中文句子級(jí)唇語(yǔ)識(shí)別和中文唇語(yǔ)關(guān)鍵詞檢測(cè)兩個(gè)方向出發(fā),主要做了以下兩個(gè)方面的研究工作: (1)為了捕獲視頻圖像中唇部區(qū)域像素之間的長(zhǎng)距離關(guān)系,本文提出了一種基于Vision Transformer(Vi T)的端到端中文句子級(jí)唇語(yǔ)識(shí)別模型Vi TCLN。該模型通過(guò)融合Vi T和門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)提高了對(duì)嘴唇視頻的視覺(jué)時(shí)空特征提取能力。具體地,首先使用Vi T的自注意力模塊提取嘴唇圖像的全局空間...

【文章頁(yè)數(shù)】:61 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究背景及意義
    1.2 研究現(xiàn)狀
        1.2.1 基于傳統(tǒng)方法的唇語(yǔ)識(shí)別算法
        1.2.2 基于深度學(xué)習(xí)的唇語(yǔ)識(shí)別算法
    1.3 研究?jī)?nèi)容及組織結(jié)構(gòu)
第二章 深度學(xué)習(xí)理論基礎(chǔ)及唇語(yǔ)識(shí)別相關(guān)技術(shù)
    2.1 深度學(xué)習(xí)理論基礎(chǔ)
        2.1.1 多層感知機(jī)
        2.1.2 卷積神經(jīng)網(wǎng)絡(luò)
        2.1.3 循環(huán)神經(jīng)網(wǎng)絡(luò)
    2.2 唇語(yǔ)識(shí)別相關(guān)技術(shù)
        2.2.1 句子級(jí)唇語(yǔ)識(shí)別相關(guān)技術(shù)
        2.2.2 唇語(yǔ)關(guān)鍵詞檢測(cè)相關(guān)技術(shù)
    2.3 本章小結(jié)
第三章 基于 Vision Transformer 的中文唇語(yǔ)識(shí)別
    3.1 方法描述
    3.2 Transformer 簡(jiǎn)介
    3.3 基于 Vision Transformer 的中文唇語(yǔ)識(shí)別算法
        3.3.1 視頻幀嵌入
        3.3.2 ViT編碼器
        3.3.3 時(shí)序特征提取
        3.3.4 文本解碼
        3.3.5 目標(biāo)函數(shù)
    3.4 實(shí)驗(yàn)結(jié)果與分析
        3.4.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
        3.4.2 實(shí)驗(yàn)設(shè)置
        3.4.3 對(duì)比實(shí)驗(yàn)結(jié)果
        3.4.4 超參數(shù)分析及消融實(shí)驗(yàn)
        3.4.5 案例分析
        3.4.6 可視化分析
    3.5 本章小結(jié)
第四章 基于跨模態(tài)交叉注意力的中文唇語(yǔ)關(guān)鍵詞檢測(cè)
    4.1 方法描述
    4.2 基于跨模態(tài)交叉注意力的中文唇語(yǔ)關(guān)鍵詞檢測(cè)算法
        4.2.1 文本和視頻表示
        4.2.2 跨模態(tài)交叉注意力模塊
        4.2.3 關(guān)鍵詞檢測(cè)和定位
        4.2.4 目標(biāo)函數(shù)
    4.3 實(shí)驗(yàn)結(jié)果與分析
        4.3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
        4.3.2 實(shí)驗(yàn)設(shè)置
        4.3.3 實(shí)驗(yàn)結(jié)果
        4.3.4 案例分析
    4.4 本章小結(jié)
第五章 總結(jié)與展望
    5.1 工作總結(jié)
    5.2 未來(lái)展望
參考文獻(xiàn)



本文編號(hào):4043731

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/4043731.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)ddf11***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com