基于自動限制損失的圖像語義理解
發(fā)布時間:2025-03-20 04:41
圖像語義理解是計算機視覺,自然語言處理和機器學習領域中的一個基礎問題。目的是將圖片轉(zhuǎn)換成一句能描述圖片中對象及對象之間關系的句子。將復雜的圖像特征轉(zhuǎn)化為簡單的語言描述在圖像分類、圖像檢索、圖像動作識別等領域中有較廣泛的應用前景。近來,許多方法采用編碼-解碼框架,在訓練階段,使用當前時刻狀態(tài)和前一時刻的目標單詞預測當前的目標單詞。在預測階段,由于上一時刻的目標單詞并不確定,而使用上一時刻模型輸出的單詞作為當前時刻的輸入,造成了訓練與預測階段的不一致。當某一時刻生成的單詞不夠準確時,可能導致之后生成的單詞有所偏差。因此,本文主要進行以下內(nèi)容的研究:(1)由于編碼-解碼框架中存在訓練和預測過程不一致的問題,本文分析了該問題對循環(huán)神經(jīng)網(wǎng)絡和注意力機制產(chǎn)生的影響,并提出了自動限制損失方法。該方法不同于將循環(huán)神經(jīng)網(wǎng)絡中每個時刻的損失簡單相加,而是為每個時刻的損失設置了權重,使當前時刻的損失權重隨著之前時刻單詞錯誤率的減小而增加,從而減小了訓練階段和預測階段的差異。(2)在自動限制損失方法中,采用之前時刻單詞的準確率控制之后時刻單詞的損失權重,可能會忽略之前時刻目標單詞的近義詞或同義詞對損失權重更新產(chǎn)...
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
本文編號:4037402
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
圖2.1圖像語義理解步驟
圖像語義理解的主要步驟包括:數(shù)據(jù)預處理、提取圖像特征、設計生成模型、生成結果的評價與分析,如圖2.1所示:(1)數(shù)據(jù)預處理。
圖2.2人工神經(jīng)網(wǎng)絡結構
在圖像語義理解模型中,常用作編碼器的卷積神經(jīng)網(wǎng)絡有Alexnet[33]、VGGnet[12]、GoogleNet[13]、Resnet[11]等。(1)Alexnet
圖2.3幾種不同的inception結構
2015年,微軟研究員的KaimingHe等人成功訓練了152層深的神經(jīng)網(wǎng)絡,在ILSVRC2015比賽中獲得了冠軍,取得了3.57%的top-5錯誤率。ResNet的參數(shù)量比VGGNet更低,效果卻非常突出。該文章發(fā)現(xiàn),隨著網(wǎng)絡的加深,出現(xiàn)了訓練集準確率下降的現(xiàn)象,且這不是由....
圖2.4殘差結構
在用3×3的卷積核計算前后,用1×1的卷積核對輸入和輸出進行升降維,保持維度一直。該結構能在梯度反向傳播時更快的到達更淺的層,解決了網(wǎng)絡層次較深無法訓練的問題,并取得了非常好的效果。該模型側(cè)面反應了,在深度學習中,更深比更寬重要。2.2.2解碼器
本文編號:4037402
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/4037402.html
最近更新
教材專著