視覺問答(VQA)中語言歧義消除方法的研究
發(fā)布時間:2021-06-06 10:12
隨著多媒體和互聯(lián)網(wǎng)的發(fā)展,如何處理海量的圖像與文本信息成了目前亟需解決的一道難題。因此,對計(jì)算機(jī)視覺與自然語言處理交叉領(lǐng)域的研究成為學(xué)者們討論的焦點(diǎn)。其中,視覺問答(Visual Question Answering,VQA)任務(wù)就是研究的熱點(diǎn)話題之一。視覺問答任務(wù)是指給定一個自然語言問句和一幅圖像,要求機(jī)器在對圖像理解的基礎(chǔ)上對問句做出回答。視覺問答涉及了語義理解、圖像檢測與識別、知識推理等相關(guān)技術(shù),要求機(jī)器以人類的方式來理解圖像,同時基于語言與用戶進(jìn)行交互,因此對提升機(jī)器人等人工智能系統(tǒng)的智能程度具有十分重要的作用。在過去的幾年里,視覺問答得到了廣泛的關(guān)注,因此涌現(xiàn)了大量的相關(guān)工作。通常來說,視覺問答任務(wù)需要同時處理圖像的視覺信息和問句的文本信息,并以特征融合的方式將提取的視覺特征和文本特征映射到相同高維空間內(nèi),這需要視覺問答模型能正確解析出問句的語義,從而結(jié)合視覺特征給出正確的答案。對于復(fù)雜的問句,由于語言歧義現(xiàn)象的存在,現(xiàn)有的模型往往對文本信息的捕捉產(chǎn)生偏差,這導(dǎo)致現(xiàn)有的VQA系統(tǒng)難以捕捉問句的真實(shí)含義。當(dāng)答案錯誤的時候,人類可以嘗試以其他多種方式理解問句,從而得出不同的答案。...
【文章來源】:天津工業(yè)大學(xué)天津市
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
VizWiz數(shù)據(jù)集中的圖像-問句對示例
天津工業(yè)大學(xué)碩士學(xué)位論文10圖2-2VQA數(shù)據(jù)集中的圖像-問句對示例2.1.1基于視覺文本特征點(diǎn)乘的視覺問答方法對于第一個類別——基于視覺文本特征點(diǎn)乘的視覺問答方法,代表性的模型是Zhou等人[43]提出的iBOWIMG(如圖2-3)。在他們設(shè)計(jì)的模型中,只使用簡單的詞袋作為文本特征,并使用來自GoogLeNet[44]提取的深層特征作為視覺特征。輸入的問句首先轉(zhuǎn)換成一個熱向量(One-hotVector),通過詞嵌入層轉(zhuǎn)換成單詞特征,然后與CNN提取的圖像特征連接起來,組合后的特征被發(fā)送到softmax層來預(yù)測答案類。圖2-3iBOWIMG模型結(jié)構(gòu)從本質(zhì)上講,iBOWIMG模型學(xué)習(xí)的是答案與問句中信息詞之間的相關(guān)性,以及視覺特征之間的相關(guān)性。他們將softmax的學(xué)習(xí)權(quán)值分為兩部分,一部分用
天津工業(yè)大學(xué)碩士學(xué)位論文10圖2-2VQA數(shù)據(jù)集中的圖像-問句對示例2.1.1基于視覺文本特征點(diǎn)乘的視覺問答方法對于第一個類別——基于視覺文本特征點(diǎn)乘的視覺問答方法,代表性的模型是Zhou等人[43]提出的iBOWIMG(如圖2-3)。在他們設(shè)計(jì)的模型中,只使用簡單的詞袋作為文本特征,并使用來自GoogLeNet[44]提取的深層特征作為視覺特征。輸入的問句首先轉(zhuǎn)換成一個熱向量(One-hotVector),通過詞嵌入層轉(zhuǎn)換成單詞特征,然后與CNN提取的圖像特征連接起來,組合后的特征被發(fā)送到softmax層來預(yù)測答案類。圖2-3iBOWIMG模型結(jié)構(gòu)從本質(zhì)上講,iBOWIMG模型學(xué)習(xí)的是答案與問句中信息詞之間的相關(guān)性,以及視覺特征之間的相關(guān)性。他們將softmax的學(xué)習(xí)權(quán)值分為兩部分,一部分用
【參考文獻(xiàn)】:
期刊論文
[1]新的動態(tài)記憶網(wǎng)絡(luò)的視覺問答[J]. 王永琦,吳飛,王春媛,江瀟瀟. 計(jì)算機(jī)應(yīng)用研究. 2020(10)
[2]基于深度神經(jīng)網(wǎng)絡(luò)的圖像碎片化信息問答算法[J]. 王一蕾,卓一帆,吳英杰,陳銘欽. 計(jì)算機(jī)研究與發(fā)展. 2018(12)
[3]基于深度學(xué)習(xí)的圖片問答系統(tǒng)設(shè)計(jì)研究[J]. 周遠(yuǎn)俠,于津. 計(jì)算機(jī)應(yīng)用與軟件. 2018(12)
[4]基于Spatial-DCTHash動態(tài)參數(shù)網(wǎng)絡(luò)的視覺問答算法[J]. 孟祥申,江愛文,劉長紅,葉繼華,王明文. 中國科學(xué):信息科學(xué). 2017(08)
本文編號:3214169
【文章來源】:天津工業(yè)大學(xué)天津市
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
VizWiz數(shù)據(jù)集中的圖像-問句對示例
天津工業(yè)大學(xué)碩士學(xué)位論文10圖2-2VQA數(shù)據(jù)集中的圖像-問句對示例2.1.1基于視覺文本特征點(diǎn)乘的視覺問答方法對于第一個類別——基于視覺文本特征點(diǎn)乘的視覺問答方法,代表性的模型是Zhou等人[43]提出的iBOWIMG(如圖2-3)。在他們設(shè)計(jì)的模型中,只使用簡單的詞袋作為文本特征,并使用來自GoogLeNet[44]提取的深層特征作為視覺特征。輸入的問句首先轉(zhuǎn)換成一個熱向量(One-hotVector),通過詞嵌入層轉(zhuǎn)換成單詞特征,然后與CNN提取的圖像特征連接起來,組合后的特征被發(fā)送到softmax層來預(yù)測答案類。圖2-3iBOWIMG模型結(jié)構(gòu)從本質(zhì)上講,iBOWIMG模型學(xué)習(xí)的是答案與問句中信息詞之間的相關(guān)性,以及視覺特征之間的相關(guān)性。他們將softmax的學(xué)習(xí)權(quán)值分為兩部分,一部分用
天津工業(yè)大學(xué)碩士學(xué)位論文10圖2-2VQA數(shù)據(jù)集中的圖像-問句對示例2.1.1基于視覺文本特征點(diǎn)乘的視覺問答方法對于第一個類別——基于視覺文本特征點(diǎn)乘的視覺問答方法,代表性的模型是Zhou等人[43]提出的iBOWIMG(如圖2-3)。在他們設(shè)計(jì)的模型中,只使用簡單的詞袋作為文本特征,并使用來自GoogLeNet[44]提取的深層特征作為視覺特征。輸入的問句首先轉(zhuǎn)換成一個熱向量(One-hotVector),通過詞嵌入層轉(zhuǎn)換成單詞特征,然后與CNN提取的圖像特征連接起來,組合后的特征被發(fā)送到softmax層來預(yù)測答案類。圖2-3iBOWIMG模型結(jié)構(gòu)從本質(zhì)上講,iBOWIMG模型學(xué)習(xí)的是答案與問句中信息詞之間的相關(guān)性,以及視覺特征之間的相關(guān)性。他們將softmax的學(xué)習(xí)權(quán)值分為兩部分,一部分用
【參考文獻(xiàn)】:
期刊論文
[1]新的動態(tài)記憶網(wǎng)絡(luò)的視覺問答[J]. 王永琦,吳飛,王春媛,江瀟瀟. 計(jì)算機(jī)應(yīng)用研究. 2020(10)
[2]基于深度神經(jīng)網(wǎng)絡(luò)的圖像碎片化信息問答算法[J]. 王一蕾,卓一帆,吳英杰,陳銘欽. 計(jì)算機(jī)研究與發(fā)展. 2018(12)
[3]基于深度學(xué)習(xí)的圖片問答系統(tǒng)設(shè)計(jì)研究[J]. 周遠(yuǎn)俠,于津. 計(jì)算機(jī)應(yīng)用與軟件. 2018(12)
[4]基于Spatial-DCTHash動態(tài)參數(shù)網(wǎng)絡(luò)的視覺問答算法[J]. 孟祥申,江愛文,劉長紅,葉繼華,王明文. 中國科學(xué):信息科學(xué). 2017(08)
本文編號:3214169
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3214169.html
最近更新
教材專著