天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的視覺(jué)場(chǎng)景理解算法研究

發(fā)布時(shí)間:2021-02-26 00:16
  場(chǎng)景語(yǔ)義理解是計(jì)算機(jī)視覺(jué)領(lǐng)域的重點(diǎn)問(wèn)題之一,它是計(jì)算機(jī)通過(guò)模擬人類視覺(jué)功能感知真實(shí)世界的主要工具。隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的廣泛應(yīng)用,物體檢測(cè)、實(shí)例分割等問(wèn)題取得了重大突破,但圖像描述、視覺(jué)問(wèn)答(VQA)等高層場(chǎng)景語(yǔ)義理解任務(wù)仍需進(jìn)一步探索與研究。場(chǎng)景圖作為圖像的語(yǔ)義描述,已經(jīng)在許多任務(wù)上體現(xiàn)了對(duì)高層場(chǎng)景語(yǔ)義理解任務(wù)的促進(jìn)作用,經(jīng)過(guò)研究者們不斷的努力,場(chǎng)景圖生成任務(wù)也已經(jīng)取得了快速發(fā)展。但在真實(shí)世界中,復(fù)雜的視覺(jué)信息依然給目前的場(chǎng)景圖生成方法帶來(lái)了很多挑戰(zhàn),例如場(chǎng)景中物體之間的關(guān)聯(lián)性如何利用,數(shù)據(jù)集中難以標(biāo)注真實(shí)場(chǎng)景中所有物體間存在的關(guān)系,這些問(wèn)題都限制了場(chǎng)景圖生成方法在真實(shí)場(chǎng)景中的性能。目前場(chǎng)景圖生成任務(wù)主要有兩大難點(diǎn),其一在于如何利用圖像中物體及其關(guān)系的上下文信息,另一大難點(diǎn)則在于如何應(yīng)對(duì)數(shù)據(jù)集標(biāo)注困難導(dǎo)致的數(shù)據(jù)偏差問(wèn)題。針對(duì)圖像中物體及其關(guān)系的上下文信息利用問(wèn)題,本文提出一種基于上下文的場(chǎng)景圖生成方法,該方法通過(guò)融合物體位置信息、語(yǔ)義信息與視覺(jué)特征獲得全面的物體表示,并利用雙向的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)編碼上下文信息以及條件隨機(jī)場(chǎng)(CRF)建模的結(jié)構(gòu)化預(yù)測(cè)方法來(lái)提高場(chǎng)... 

【文章來(lái)源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:55 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的視覺(jué)場(chǎng)景理解算法研究


復(fù)雜視覺(jué)場(chǎng)景實(shí)例Fig1.1Anexampleofcomplexvisualscene

場(chǎng)景圖


合肥工業(yè)大學(xué)學(xué)術(shù)碩士研究生學(xué)位論文123.基于結(jié)構(gòu)化預(yù)測(cè)的場(chǎng)景圖生成模型3.1引言場(chǎng)景圖是圖像中視覺(jué)內(nèi)容的一種結(jié)構(gòu)化表示,它對(duì)于復(fù)雜的圖像理解任務(wù)諸如圖像描述、視覺(jué)問(wèn)答和圖像語(yǔ)義檢索有很大幫助。在現(xiàn)實(shí)世界中,我們所看到的圖像通常包括數(shù)個(gè)物體且它們之間還存在著復(fù)雜的語(yǔ)義關(guān)系,因此上下文信息在場(chǎng)景圖生成任務(wù)中是不可或缺的。同時(shí)在前人的工作中已經(jīng)指出場(chǎng)景圖中不同節(jié)點(diǎn)的上下文相關(guān)性是不對(duì)稱的,這意味著基于物體標(biāo)簽直接預(yù)測(cè)關(guān)系標(biāo)簽的準(zhǔn)確度很高,反之則不然;谶@一發(fā)現(xiàn),現(xiàn)有的工作已成功利用物體節(jié)點(diǎn)之間的上下文模式以及物體節(jié)點(diǎn)與關(guān)系節(jié)點(diǎn)之間的依賴關(guān)系顯著的提升了場(chǎng)景圖生成任務(wù)的效果。但這些工作依然存在缺憾——沒(méi)有充分考慮空間信息和關(guān)系節(jié)點(diǎn)之間的上下文依賴。在本章中,我們提出了結(jié)構(gòu)化的關(guān)系預(yù)測(cè)網(wǎng)絡(luò),其通過(guò)挖掘更完整的全局上下文特征來(lái)預(yù)測(cè)物體標(biāo)簽和物體對(duì)關(guān)系。實(shí)驗(yàn)表明,我們的模型在VRD和VisualGenome數(shù)據(jù)集上大大優(yōu)于先前的方法。李飛飛等人首先在[16]中提出了場(chǎng)景圖是圖像中視覺(jué)內(nèi)容的一種結(jié)構(gòu)化表示這一概念,其以圖結(jié)構(gòu)來(lái)表示圖像中的物體與物體間的關(guān)系。一對(duì)物體及其之間的關(guān)系被表示為一個(gè)三元組<主語(yǔ)-關(guān)系-賓語(yǔ)>,如果一個(gè)三元組中主語(yǔ)賓語(yǔ)位置交換,對(duì)應(yīng)的關(guān)系也隨之改變。在我們的場(chǎng)景圖生成方法中,我們將物體與關(guān)系都表示為場(chǎng)景圖中的節(jié)點(diǎn),如圖3.1所示。每個(gè)物體節(jié)點(diǎn)的鄰居節(jié)點(diǎn)都是關(guān)系節(jié)點(diǎn),反之亦然。由于在關(guān)系描述中必須使用自然語(yǔ)言的主語(yǔ)-謂語(yǔ)結(jié)構(gòu),因此場(chǎng)景圖中的邊為有向邊,方向定義為由主語(yǔ)節(jié)點(diǎn)指向關(guān)系節(jié)點(diǎn)以及由關(guān)系節(jié)點(diǎn)指向賓圖3.1場(chǎng)景圖樣例Fig3.1AnexampleofScenegraph

框架圖,場(chǎng)景圖,結(jié)構(gòu)化,預(yù)測(cè)模型


合肥工業(yè)大學(xué)學(xué)術(shù)碩士研究生學(xué)位論文14過(guò)預(yù)訓(xùn)練的Faster-RCNN模型來(lái)檢測(cè)物體。模型需要的物體上下文信息通過(guò)雙向LSTM(以視覺(jué)特征和物體標(biāo)簽作為輸入)獲得。然后,另一個(gè)雙向LSTM專門用于通過(guò)先前雙向LSTM中計(jì)算出的物體標(biāo)簽和物體上下文信息來(lái)計(jì)算關(guān)系的上下文信息。最后,我們采用條件隨機(jī)場(chǎng)來(lái)建模場(chǎng)景圖的物體節(jié)點(diǎn)與關(guān)系節(jié)點(diǎn)之間的依賴關(guān)系,并生成最終預(yù)測(cè)。本章方法的主要貢獻(xiàn)歸納如下:(1)我們提出了一種具有增強(qiáng)的上下文建模的場(chǎng)景圖解析框架,該框架捕獲了最完整的全局上下文信息。(2)我們提出了一種靈活的4維位置編碼方案來(lái)對(duì)物體的空間關(guān)系進(jìn)行建模。(3)提出了一種基于物體節(jié)點(diǎn)全局上下文特征的結(jié)構(gòu)化關(guān)系預(yù)測(cè)模型。(4)我們通過(guò)在兩個(gè)廣泛使用的場(chǎng)景圖數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了該方法的有效性。3.2相關(guān)工作在本節(jié)中,我們將簡(jiǎn)要回顧場(chǎng)景圖解析的先前方法,并討論與所提出的方法最相關(guān)的工作。近年來(lái),隨著基于深度學(xué)習(xí)的識(shí)別模型的成功[28,29,32],研究人員的興趣轉(zhuǎn)向圖3.2場(chǎng)景圖結(jié)構(gòu)化預(yù)測(cè)模型框架Fig3.2Theframeworkofourstructuredpredictionmodelforscenegraphgeneration


本文編號(hào):3051792

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3051792.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶35518***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com