天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的視覺信息自然語(yǔ)言描述方法研究

發(fā)布時(shí)間:2021-04-26 17:59
  隨著計(jì)算機(jī)網(wǎng)絡(luò)的普及和多媒體信息技術(shù)的快速發(fā)展,社交媒體早已成為人們生活不可或缺的一部分。網(wǎng)絡(luò)中流傳的海量多媒體數(shù)據(jù),意味著人類社會(huì)進(jìn)入了大數(shù)據(jù)時(shí)代。在這樣的背景下,圖像和視頻因其能夠便捷的記錄和豐富我們的日常生活,已經(jīng)成為目前最為流行的數(shù)據(jù)形式。在當(dāng)前火熱的人工智能領(lǐng)域,對(duì)于如何讓計(jì)算機(jī)更像人一樣的具備思考能力,讓計(jì)算機(jī)理解并自動(dòng)的用自然語(yǔ)言描述圖像和視頻等視覺信息的研究越來(lái)越引起人們的關(guān)注。視覺信息描述作為其中的代表性研究,在多媒體信息分析,人機(jī)交互,幫助視力障礙人群等方面有很多潛在應(yīng)用價(jià)值。目前,很多國(guó)內(nèi)外的研究學(xué)者在圖像和視頻等視覺信息自然語(yǔ)言描述領(lǐng)域展開大量研究,但是在視頻描述方面,如何精確的獲取視頻中動(dòng)態(tài)的視覺特征和語(yǔ)義信息仍是目前的研究難題。近年來(lái),編碼-解碼框架被廣泛應(yīng)用在視覺信息描述任務(wù)中,其中因?yàn)闀r(shí)域注意力機(jī)制能夠很好的揭示視覺信息和描述語(yǔ)句單詞之間的關(guān)系而成為目前相關(guān)研究的主要方法。但是對(duì)于視頻而言,大多數(shù)方法在獲取精確的視覺特征和語(yǔ)義信息方面仍存在不足之處。本文從獲取精確的視覺特征和更好的運(yùn)用語(yǔ)義信息和視覺信息的動(dòng)態(tài)關(guān)系兩個(gè)方面提出了兩個(gè)用于視頻自然語(yǔ)言描述的方... 

【文章來(lái)源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:63 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第1章 緒論
    1.1 研究背景及意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 國(guó)內(nèi)研究現(xiàn)狀
        1.2.2 國(guó)外研究現(xiàn)狀
    1.3 本文主要貢獻(xiàn)
    1.4 本文組織結(jié)構(gòu)
第2章 相關(guān)基礎(chǔ)理論介紹
    2.1 視覺信息自然語(yǔ)言描述綜述
        2.1.1 圖像自然語(yǔ)言描述模型
        2.1.2 視頻自然語(yǔ)言描述模型
    2.2 基于語(yǔ)法模版的方法
    2.3 基于序列生成的方法
        2.3.1 編碼-解碼框架
        2.3.2 基于語(yǔ)義信息的模型
        2.3.3 基于注意力機(jī)制的模型
    2.4 本章小結(jié)
第3章 基于細(xì)粒度時(shí)空注意力的視頻描述模型
    3.1 模型框架
    3.2 基于空域注意力的編碼
        3.2.1 Mask R-CNN目標(biāo)識(shí)別算法
        3.2.2 MPM掩碼池化模塊
    3.3 基于時(shí)域注意力的解碼
        3.3.1 LSTM長(zhǎng)短期記憶網(wǎng)絡(luò)
        3.3.2 基于柔性注意力機(jī)制的解碼器
    3.4 本章小結(jié)
第4章 基于視覺和語(yǔ)義的雙流注意力模型
    4.1 模型框架
    4.2 視覺特征與語(yǔ)義特征的提取
        4.2.1 視覺特征提取
        4.2.2 語(yǔ)義特征提取
    4.3 基于雙流注意力的LSTM解碼
    4.4 本章小結(jié)
第5章 實(shí)驗(yàn)結(jié)果及分析
    5.1 數(shù)據(jù)集與評(píng)價(jià)標(biāo)準(zhǔn)
        5.1.1 數(shù)據(jù)集
        5.1.2 評(píng)價(jià)標(biāo)準(zhǔn)
    5.2 實(shí)驗(yàn)設(shè)置
        5.2.1 數(shù)據(jù)預(yù)處理
        5.2.2 其他超參數(shù)設(shè)置
        5.2.3 對(duì)比算法
    5.3 基于細(xì)粒度時(shí)空注意力的模型的實(shí)驗(yàn)結(jié)果與分析
        5.3.1 在MSVD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析
        5.3.2 在MSR-VTT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析
        5.3.3 掩碼池化模塊性能分析
        5.3.4 視覺顯著性質(zhì)量分析
    5.4 基于視覺和語(yǔ)義的雙流注意力模型的實(shí)驗(yàn)結(jié)果與分析
        5.4.1 在MSR-VTT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析
        5.4.2 在MSR-VTT2017 比賽中的結(jié)果及分析
        5.4.3 視覺顯著性質(zhì)量分析
    5.5 本章小結(jié)
第6章 總結(jié)與展望
    6.1 工作總結(jié)
    6.2 未來(lái)工作展望
參考文獻(xiàn)
發(fā)表論文和參加科研情況說(shuō)明
致謝


【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J]. 王元卓,靳小龍,程學(xué)旗.  計(jì)算機(jī)學(xué)報(bào). 2013(06)

碩士論文
[1]基于深度學(xué)習(xí)的人類行為識(shí)別和視頻描述生成[D]. 王軒瀚.電子科技大學(xué) 2017



本文編號(hào):3161858

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3161858.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d5826***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com