基于語(yǔ)義相關(guān)性的圖像可變長(zhǎng)度標(biāo)注及評(píng)價(jià)方法研究
發(fā)布時(shí)間:2021-01-08 10:46
圖像標(biāo)注作為圖像分析與理解的重要組成部分,已廣泛應(yīng)用到圖像檢索、圖像描述、視覺(jué)問(wèn)答等眾多領(lǐng)域。圖像標(biāo)注是利用機(jī)器學(xué)習(xí)模型給圖像分配反映圖像核心內(nèi)容的標(biāo)簽,F(xiàn)有的圖像標(biāo)注過(guò)程主要包括特征提取及表示,模型訓(xùn)練和測(cè)試。模型在測(cè)試階段通常使用固定長(zhǎng)度的標(biāo)簽標(biāo)注每一幅圖像,而標(biāo)簽長(zhǎng)度應(yīng)取決于圖像內(nèi)容的復(fù)雜度,F(xiàn)有的圖像標(biāo)注評(píng)價(jià)指標(biāo)側(cè)重于標(biāo)簽的絕對(duì)正誤,盡管有效地衡量正確標(biāo)簽的個(gè)數(shù),但忽視了標(biāo)簽的全局相關(guān)性。因此本文從圖像標(biāo)注方法及評(píng)價(jià)指標(biāo)展開深入研究,其主要工作如下:(1)提出了一種自適應(yīng)標(biāo)簽長(zhǎng)度的圖像標(biāo)注方法。首先,該方法提取圖像的高層語(yǔ)義特征,根據(jù)語(yǔ)義特征預(yù)測(cè)圖像的標(biāo)簽長(zhǎng)度,預(yù)測(cè)的標(biāo)簽數(shù)量與實(shí)際標(biāo)注任務(wù)更加一致;其次,利用相似圖像和相關(guān)標(biāo)簽構(gòu)建豐富的候選標(biāo)簽集合;最后,利用標(biāo)簽間的語(yǔ)義關(guān)系和采樣算法從候選標(biāo)簽中選擇具有代表性的標(biāo)簽,從而去除冗余標(biāo)簽。在常用的多標(biāo)簽圖像標(biāo)注數(shù)據(jù)集上,該方法與幾種代表性的圖像標(biāo)注方法進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法可以預(yù)測(cè)更多正確的標(biāo)簽。(2)提出了一種基于語(yǔ)義樹的圖像標(biāo)注評(píng)價(jià)方法,動(dòng)態(tài)地評(píng)估標(biāo)簽的正確性及相關(guān)性。該評(píng)價(jià)方法根據(jù)標(biāo)簽的層級(jí)和同義關(guān)系,為相互關(guān)聯(lián)的標(biāo)...
【文章來(lái)源】:湘潭大學(xué)湖南省
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖像標(biāo)注的示例
圖像的內(nèi)容豐富且多變,特征是圖像主要內(nèi)容的集中表示。圖像特征是圖像標(biāo)注中關(guān)鍵的基礎(chǔ)環(huán)節(jié),選擇較強(qiáng)表示能力的圖像特征是標(biāo)注任務(wù)的重要保證。常用的特征提取方法如顏色直方圖[41]、尺度不變特征變化[42](Scale Invariant FeatureTransform,SIFT) 和視覺(jué)詞袋[43](Bag of View Word,BoVW) 等。這些手工設(shè)計(jì)特征具有較好的效果,且得到廣泛的應(yīng)用,但無(wú)法充分地表示圖像語(yǔ)義信息。最近,卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別和分類任務(wù)中取得巨大的成功;诰矸e神經(jīng)網(wǎng)絡(luò)的特征表示試圖從人類理解圖像的方式表示圖像的高層視覺(jué)特征,通過(guò)對(duì)圖像每個(gè)像素的學(xué)習(xí),形成圖像特征的層層表示,完整地保留圖像數(shù)據(jù)的本質(zhì)語(yǔ)義信息。一般的卷積神經(jīng)網(wǎng)絡(luò)如圖 2.1 所示,卷積層是卷積神經(jīng)網(wǎng)絡(luò)的主要部分,通過(guò)一系列濾波器對(duì)輸入層進(jìn)行卷積運(yùn)算,輸出不同的特征映射(Feature Maps)。之后,特征映射進(jìn)行非線性處理,一般經(jīng)過(guò)修正線性單元(Rectified Linear Unit,ReLU),將特征映射中數(shù)值為負(fù)的元素設(shè)置為零,使其具有稀疏性。池化層對(duì)輸入的特征映射進(jìn)行采樣,使其急劇變化的區(qū)域進(jìn)行均衡化。全連接層前面幾層所學(xué)習(xí)的分布式特征串聯(lián)成矢量便是基于卷積神經(jīng)網(wǎng)絡(luò)的特征表示。最后一層的全連接層是對(duì)語(yǔ)義特征進(jìn)行分類識(shí)別。
Google公開了Word2vec,它可以把單詞表示為一組詞向量[55]。Word2在神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的基礎(chǔ)上進(jìn)行改進(jìn)的,訓(xùn)練時(shí)候?qū)⒚總(gè)單詞表示為實(shí)數(shù)向過(guò)詞間距離判斷兩者的相似度。Word2vec采用的訓(xùn)練模型有CBOW和Skip-gra文本語(yǔ)料庫(kù)上訓(xùn)練。.4 多樣性圖像標(biāo)注模型近年來(lái),圖像標(biāo)注模型關(guān)注標(biāo)簽間的語(yǔ)義關(guān)系,并且利于標(biāo)簽間的語(yǔ)義關(guān)系了更好推理,特別是在多樣化和精細(xì)化的圖像標(biāo)注。如 DIA[19](Diverse Imnnotation) 模 型 和 D2IA-GAN[40](Diverse and Distinct Image Annotation witenerativeAdversarial Network) 模型。(1)DIA 模型DIA 使用行列式點(diǎn)過(guò)程,將標(biāo)簽預(yù)測(cè)轉(zhuǎn)換為多樣性標(biāo)簽子集選擇。DIA 模型標(biāo)簽間的層級(jí)關(guān)系和同義關(guān)系,將標(biāo)簽關(guān)系嵌入標(biāo)簽的權(quán)重路徑。DIA 利用標(biāo)權(quán)重路徑,采樣權(quán)重大的標(biāo)簽。DIA 算法的框如圖 2.2 所示。
本文編號(hào):2964458
【文章來(lái)源】:湘潭大學(xué)湖南省
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖像標(biāo)注的示例
圖像的內(nèi)容豐富且多變,特征是圖像主要內(nèi)容的集中表示。圖像特征是圖像標(biāo)注中關(guān)鍵的基礎(chǔ)環(huán)節(jié),選擇較強(qiáng)表示能力的圖像特征是標(biāo)注任務(wù)的重要保證。常用的特征提取方法如顏色直方圖[41]、尺度不變特征變化[42](Scale Invariant FeatureTransform,SIFT) 和視覺(jué)詞袋[43](Bag of View Word,BoVW) 等。這些手工設(shè)計(jì)特征具有較好的效果,且得到廣泛的應(yīng)用,但無(wú)法充分地表示圖像語(yǔ)義信息。最近,卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別和分類任務(wù)中取得巨大的成功;诰矸e神經(jīng)網(wǎng)絡(luò)的特征表示試圖從人類理解圖像的方式表示圖像的高層視覺(jué)特征,通過(guò)對(duì)圖像每個(gè)像素的學(xué)習(xí),形成圖像特征的層層表示,完整地保留圖像數(shù)據(jù)的本質(zhì)語(yǔ)義信息。一般的卷積神經(jīng)網(wǎng)絡(luò)如圖 2.1 所示,卷積層是卷積神經(jīng)網(wǎng)絡(luò)的主要部分,通過(guò)一系列濾波器對(duì)輸入層進(jìn)行卷積運(yùn)算,輸出不同的特征映射(Feature Maps)。之后,特征映射進(jìn)行非線性處理,一般經(jīng)過(guò)修正線性單元(Rectified Linear Unit,ReLU),將特征映射中數(shù)值為負(fù)的元素設(shè)置為零,使其具有稀疏性。池化層對(duì)輸入的特征映射進(jìn)行采樣,使其急劇變化的區(qū)域進(jìn)行均衡化。全連接層前面幾層所學(xué)習(xí)的分布式特征串聯(lián)成矢量便是基于卷積神經(jīng)網(wǎng)絡(luò)的特征表示。最后一層的全連接層是對(duì)語(yǔ)義特征進(jìn)行分類識(shí)別。
Google公開了Word2vec,它可以把單詞表示為一組詞向量[55]。Word2在神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的基礎(chǔ)上進(jìn)行改進(jìn)的,訓(xùn)練時(shí)候?qū)⒚總(gè)單詞表示為實(shí)數(shù)向過(guò)詞間距離判斷兩者的相似度。Word2vec采用的訓(xùn)練模型有CBOW和Skip-gra文本語(yǔ)料庫(kù)上訓(xùn)練。.4 多樣性圖像標(biāo)注模型近年來(lái),圖像標(biāo)注模型關(guān)注標(biāo)簽間的語(yǔ)義關(guān)系,并且利于標(biāo)簽間的語(yǔ)義關(guān)系了更好推理,特別是在多樣化和精細(xì)化的圖像標(biāo)注。如 DIA[19](Diverse Imnnotation) 模 型 和 D2IA-GAN[40](Diverse and Distinct Image Annotation witenerativeAdversarial Network) 模型。(1)DIA 模型DIA 使用行列式點(diǎn)過(guò)程,將標(biāo)簽預(yù)測(cè)轉(zhuǎn)換為多樣性標(biāo)簽子集選擇。DIA 模型標(biāo)簽間的層級(jí)關(guān)系和同義關(guān)系,將標(biāo)簽關(guān)系嵌入標(biāo)簽的權(quán)重路徑。DIA 利用標(biāo)權(quán)重路徑,采樣權(quán)重大的標(biāo)簽。DIA 算法的框如圖 2.2 所示。
本文編號(hào):2964458
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/2964458.html
最近更新
教材專著