基于2D注意力機(jī)制的不規(guī)則場(chǎng)景文本識(shí)別算法
發(fā)布時(shí)間:2021-07-03 00:57
識(shí)別不規(guī)則場(chǎng)景文本是光學(xué)字符識(shí)別(OCR)問(wèn)題中較為困難的子問(wèn)題,該問(wèn)題對(duì)學(xué)術(shù)界所提出的字符識(shí)別算法非常具有挑戰(zhàn)性。目前,工業(yè)上實(shí)際應(yīng)用的算法分為三類:將不規(guī)則場(chǎng)景文本通過(guò)薄板樣條函數(shù)插值(thin plate splines)成規(guī)則場(chǎng)景文本后,再進(jìn)行識(shí)別,即由2D布局轉(zhuǎn)成1D布局;提取2D圖像特征,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)和帶有循環(huán)注意力機(jī)制神經(jīng)網(wǎng)絡(luò),降維成1D特征序列,再進(jìn)行識(shí)別;將2D圖像轉(zhuǎn)換為1D特征序列,然后通過(guò)從自然語(yǔ)言處理領(lǐng)域借鑒過(guò)來(lái)的聯(lián)結(jié)主義時(shí)間分類器(connectionist temporal classification)算法,進(jìn)行識(shí)別。盡管上述方法取得了較好的表現(xiàn),但是準(zhǔn)確率和魯棒性仍然受限于2D到1D轉(zhuǎn)換過(guò)程中空間信息的丟失。本文將2D布局的不規(guī)則場(chǎng)景文本通過(guò)2D注意力機(jī)制,直接預(yù)測(cè)字符序列。本文提出將不規(guī)則場(chǎng)景文本識(shí)別分為2D特征提取模塊、關(guān)系注意力模塊和并行注意力模塊,共計(jì)三個(gè)模塊。其中,對(duì)于2D特征提取模塊,本文將在現(xiàn)有文本圖像2D特征提取算法的基礎(chǔ)上,進(jìn)行算法改進(jìn),在獲取上下文語(yǔ)義信息的同時(shí),保留2D空間信息,避免了2D到1D轉(zhuǎn)換過(guò)程中,空間信息的丟失,該部分...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于單個(gè)字符的識(shí)別方法
基于單詞分類的識(shí)別方法
圖 1-4 基于注意力機(jī)制的識(shí)別方法[14]場(chǎng)景文本識(shí)別,不規(guī)則場(chǎng)景文本識(shí)別也吸引了很多注意力,成為研究]等人提出用聯(lián)合的網(wǎng)絡(luò)去識(shí)別不規(guī)則場(chǎng)景文本。首先
本文編號(hào):3261535
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于單個(gè)字符的識(shí)別方法
基于單詞分類的識(shí)別方法
圖 1-4 基于注意力機(jī)制的識(shí)別方法[14]場(chǎng)景文本識(shí)別,不規(guī)則場(chǎng)景文本識(shí)別也吸引了很多注意力,成為研究]等人提出用聯(lián)合的網(wǎng)絡(luò)去識(shí)別不規(guī)則場(chǎng)景文本。首先
本文編號(hào):3261535
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3261535.html
最近更新
教材專著