天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于視覺語義關聯(lián)的物體定位

發(fā)布時間:2021-03-27 10:14
  深度學習給物體的識別和檢測帶去了重大進展,但它們的本質只是將視覺信息和有限的語言符號進行關聯(lián)。本文將它們的目標向更廣義的智能推進一步,通過視覺信息和任意語言描述的關聯(lián),使得智能體能像人類一樣理解對物體的指示說明,從而能在視覺感知圖像中,唯一定位出符合語言指令的目標區(qū)域,這個任務叫做視覺依據(jù)。本任務的輸入為圖像和文本,輸出為目標物體的占據(jù)區(qū)域,屬于視覺和語言的交叉領域。由于認知功能的復雜性,本文采用基于深度神經網絡的模型,通過對大量數(shù)據(jù)樣本的學習,使得模型的預測輸出能夠逐漸逼近真實觀測。網絡模型主要由三個部分組成,其中,視覺網絡從圖像輸入中學習到視覺特征,語言網絡從文本輸入中學習到語言特征,關聯(lián)網絡計算兩種特征的相關性,從而在圖像中定位出和描述最匹配的物體區(qū)域;谏鲜隹蚣,本文具體分析了基于前向卷積網絡的視覺特征應用到本任務時的語義缺失問題和分辨率低下問題,并對應設計了一種自頂向下的特征融合方案,融合得到的視覺特征更全面準確地表達了視覺信息,促進了和語言信息的關聯(lián);另一方面,本文通過注意力機制建模了文本中詞語的背景信息,從而消除了語言在形式上的歧義,得到了隨上下文自適應變化的語言特征,... 

【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:69 頁

【學位級別】:碩士

【部分圖文】:

基于視覺語義關聯(lián)的物體定位


本課題任務的輸入輸出示例

物體檢測,輸入輸出,示例


1.1 課題來源及意義近年來,人工智能分別在計算機視覺和自然語言處理上取得了重大進展,但視覺和語言并不是兩種完全獨立的認知能力,本課題來自它們的交叉領域,其任務目標是從圖像中定位出文本描述的目標物體,見圖 1-1,這個任務被稱作視覺依據(jù)(VG, VisualGrounding)或者指示表達理解(REC,ReferExpressionComprehension)。值得注意的是,“定位”的含義為確定目標物體在圖像中的占據(jù)區(qū)域,而不是物體的坐標。圖 1-1 本課題任務的輸入輸出示例

物體檢測


哈爾濱工業(yè)大學工學碩士論文提升了精度。本任務的早期算法一般使用 Multibox 等方法產生候選使用基于 FasterR-CNN 的算法參數(shù)候選區(qū)域,一方面是后者的精度以和網絡的其他部分組成一個網絡,從而聯(lián)合訓練優(yōu)化。一個和物體檢測類似的工作是物體分割,它和物體檢測一樣可以作方法。物體檢測用矩形框表示物體的占據(jù)區(qū)域,物體分割給出了物sk R-CNN[16]同時給出了這兩者,見圖 1-3。Mask R-CNN 是 Faste個掩膜(mask)分支得到,并且它將物體檢測里的 RoI 采樣(Regio為了 RoI 對齊(align),因此同時提升了物體分割和物體檢測的精度的定位結果可以用矩形框表示,也可以用像素級分割的掩膜表示,選區(qū)域的表示方法,因為本算法的定位只是對候選區(qū)域進行一個選產生方法使用 Mask R-CNN,那么得到的定位結果同時具有這兩種究該檢測算法,僅僅把它當作一個預處理過程,直接應用它的結果


本文編號:3103334

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3103334.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶69877***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com