基于答案類型預(yù)測的視覺問答模型
發(fā)布時(shí)間:2021-01-24 00:50
近些年,人工智能技術(shù)不斷發(fā)展,問答系統(tǒng)作為其重要組成部分,受到了業(yè)界廣泛的關(guān)注,如個(gè)人助理、智能客服等應(yīng)用實(shí)例不僅提高了用戶粘性,而且有利于企業(yè)降低人工成本,為問答系統(tǒng)的研究打下了堅(jiān)實(shí)的基礎(chǔ)。隨著計(jì)算機(jī)科學(xué)與技術(shù)的飛速發(fā)展,人們不再滿足于以文字、語音為載體的交流方式,多模態(tài)問答系統(tǒng)成為了新的研究熱點(diǎn)。視覺問答任務(wù)作為多模態(tài)問答系統(tǒng)的典型,受到了國內(nèi)外研究學(xué)者的廣泛關(guān)注,該任務(wù)的主要目標(biāo)為正確回答對相關(guān)圖片的提問,雖然目前的視覺問答模型已經(jīng)有了良好的表現(xiàn),但是在實(shí)際應(yīng)用中仍然存在著答非所問的問題,如提問顏色,得到的回答卻是數(shù)量,該情況的發(fā)生嚴(yán)重降低了視覺問答模型的可靠性。本文以答案類型的預(yù)測作為切入點(diǎn),首先根據(jù)提出的問題進(jìn)行答案類型的預(yù)測,獲得相應(yīng)的類別信息后,將其融合到視覺問答模型中,從而降低答非所問情況的發(fā)生,提高模型的可靠性,準(zhǔn)確性。本文的主要研究工作有以下三點(diǎn):(1)基于問題信息分析的答案類型預(yù)測研究。由于視覺問答數(shù)據(jù)集中的問答對類型差別明顯,且并未給出對應(yīng)標(biāo)簽,所以首先進(jìn)行數(shù)據(jù)集標(biāo)注。利用長短期記憶網(wǎng)絡(luò)等多種深度學(xué)習(xí)技術(shù)搭建答案類型預(yù)測模型,提取問題文本特征信息,并將其進(jìn)行分類...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW模型
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-14-圖2-2Skip-gram模型一般來說,由于詞表長度過長,導(dǎo)致在最后的softmax分類時(shí)會(huì)耗費(fèi)大量時(shí)間和內(nèi)存資源,所以,有研究學(xué)者引入了兩種優(yōu)化算法:負(fù)采樣(NegativeSampling)以及層次softmax(HierarchicalSoftmax),通過上述兩種算法,提高模型的運(yùn)算速度,使其能夠真正的被廣泛使用。2.3.2長短時(shí)記憶網(wǎng)絡(luò)在自然語言處理領(lǐng)域,需要處理大量的文本信息,眾所周知,一段文本中某個(gè)單詞的含義不僅僅是本身所有的含義,而與上下文信息緊密相關(guān),在處理當(dāng)前單詞信息時(shí)需要結(jié)合前幾個(gè)單詞的信息甚至需要文章開頭的若干信息,RNN模型由此誕生。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在很多自然語言處理任務(wù)中都表現(xiàn)出了很好的性能,與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在處理輸入時(shí)都是相互獨(dú)立的這一特點(diǎn)不同的是,RNN模型能夠利用文本隱含的序列信息,序列信息往往在預(yù)測語句或產(chǎn)生文本整體特征時(shí)是非常具有幫助的。RNN在接受每一個(gè)輸入進(jìn)行計(jì)算時(shí),都會(huì)依賴于前一個(gè)隱狀態(tài),相當(dāng)于之前的文本信息以隱狀態(tài)的形式參與本次時(shí)間步的計(jì)算,這就有了記憶功能,但是由于RNN結(jié)構(gòu)相對簡單,只能記憶比較短的文本信息,而遠(yuǎn)距離的文本信息會(huì)被迫遺忘。
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-15-循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2-3所示:圖2-3循環(huán)神經(jīng)網(wǎng)絡(luò)如上圖所示,t為時(shí)間步,s為隱狀態(tài),對于一段長文本中每一個(gè)單詞的處理都是一個(gè)時(shí)間步,在進(jìn)行當(dāng)前單詞計(jì)算時(shí)不僅需要當(dāng)前輸入xt,同時(shí)還需要上一個(gè)時(shí)間步的隱狀態(tài)st-1,相當(dāng)于將之間的記憶融入到本次的計(jì)算中,如公式2-1所示:=(+1)(2-1)RNN雖然能夠?qū)⒅暗男畔⑦M(jìn)行保留,但是梯度消失和梯度爆炸情況的出現(xiàn)嚴(yán)重限制了其應(yīng)用,而且RNN只能記憶比較近的文本信息,對于長距離文本信息容易遺忘,為了解決這個(gè)問題,研究者們發(fā)明了LSTM網(wǎng)絡(luò)。與RNN不同的是,LSTM在傳遞隱狀態(tài)的同時(shí)還傳遞了細(xì)胞狀態(tài)c,細(xì)胞狀態(tài)c用于記憶長期信息,本時(shí)刻輸入,上一時(shí)刻的隱狀態(tài)和細(xì)胞狀態(tài)同時(shí)參與計(jì)算本時(shí)刻的輸出,LSTM主干結(jié)構(gòu)如圖2-4所示:圖2-4長短時(shí)記憶網(wǎng)絡(luò)
本文編號(hào):2996241
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW模型
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-14-圖2-2Skip-gram模型一般來說,由于詞表長度過長,導(dǎo)致在最后的softmax分類時(shí)會(huì)耗費(fèi)大量時(shí)間和內(nèi)存資源,所以,有研究學(xué)者引入了兩種優(yōu)化算法:負(fù)采樣(NegativeSampling)以及層次softmax(HierarchicalSoftmax),通過上述兩種算法,提高模型的運(yùn)算速度,使其能夠真正的被廣泛使用。2.3.2長短時(shí)記憶網(wǎng)絡(luò)在自然語言處理領(lǐng)域,需要處理大量的文本信息,眾所周知,一段文本中某個(gè)單詞的含義不僅僅是本身所有的含義,而與上下文信息緊密相關(guān),在處理當(dāng)前單詞信息時(shí)需要結(jié)合前幾個(gè)單詞的信息甚至需要文章開頭的若干信息,RNN模型由此誕生。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在很多自然語言處理任務(wù)中都表現(xiàn)出了很好的性能,與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在處理輸入時(shí)都是相互獨(dú)立的這一特點(diǎn)不同的是,RNN模型能夠利用文本隱含的序列信息,序列信息往往在預(yù)測語句或產(chǎn)生文本整體特征時(shí)是非常具有幫助的。RNN在接受每一個(gè)輸入進(jìn)行計(jì)算時(shí),都會(huì)依賴于前一個(gè)隱狀態(tài),相當(dāng)于之前的文本信息以隱狀態(tài)的形式參與本次時(shí)間步的計(jì)算,這就有了記憶功能,但是由于RNN結(jié)構(gòu)相對簡單,只能記憶比較短的文本信息,而遠(yuǎn)距離的文本信息會(huì)被迫遺忘。
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-15-循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2-3所示:圖2-3循環(huán)神經(jīng)網(wǎng)絡(luò)如上圖所示,t為時(shí)間步,s為隱狀態(tài),對于一段長文本中每一個(gè)單詞的處理都是一個(gè)時(shí)間步,在進(jìn)行當(dāng)前單詞計(jì)算時(shí)不僅需要當(dāng)前輸入xt,同時(shí)還需要上一個(gè)時(shí)間步的隱狀態(tài)st-1,相當(dāng)于將之間的記憶融入到本次的計(jì)算中,如公式2-1所示:=(+1)(2-1)RNN雖然能夠?qū)⒅暗男畔⑦M(jìn)行保留,但是梯度消失和梯度爆炸情況的出現(xiàn)嚴(yán)重限制了其應(yīng)用,而且RNN只能記憶比較近的文本信息,對于長距離文本信息容易遺忘,為了解決這個(gè)問題,研究者們發(fā)明了LSTM網(wǎng)絡(luò)。與RNN不同的是,LSTM在傳遞隱狀態(tài)的同時(shí)還傳遞了細(xì)胞狀態(tài)c,細(xì)胞狀態(tài)c用于記憶長期信息,本時(shí)刻輸入,上一時(shí)刻的隱狀態(tài)和細(xì)胞狀態(tài)同時(shí)參與計(jì)算本時(shí)刻的輸出,LSTM主干結(jié)構(gòu)如圖2-4所示:圖2-4長短時(shí)記憶網(wǎng)絡(luò)
本文編號(hào):2996241
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/2996241.html
最近更新
教材專著