基于深度學(xué)習(xí)的場景文本提取和識別研究
發(fā)布時間:2021-07-07 11:20
場景文本作為計算機(jī)視覺領(lǐng)域最為活躍的研究對象之一,現(xiàn)實生活中許多應(yīng)用技術(shù)都與其密切相關(guān),比如自動翻譯、盲人導(dǎo)讀、車牌識別等。當(dāng)前,文檔類文本的識別精度已高達(dá)99%,而自然場景圖像中的文本由于字體多樣性,文本多方向,圖像分辨率低等因素,使得自然場景文本的提取和識別成為計算機(jī)視覺領(lǐng)域一項極具挑戰(zhàn)性的任務(wù)。因此,本學(xué)位論文針對自然場景文本的提取和識別展開了較為深入的研究,具體研究內(nèi)容總結(jié)如下:1.研究了一種基于分割的場景文本提取算法?紤]到使用人工進(jìn)行像素級文本標(biāo)注通常非常昂貴而且耗時,而現(xiàn)有的數(shù)據(jù)集中又包含了大量的文本框標(biāo)注信息,基于此,提出采用文本框標(biāo)注作為輔助數(shù)據(jù)用于訓(xùn)練。為了實現(xiàn)這個目標(biāo),提出一個雙任務(wù)相互引導(dǎo)網(wǎng)絡(luò),該網(wǎng)絡(luò)共享一個編碼器,兩個解碼器分別輸出像素級文本分割和文本框分割。兩個解碼器的輸出作為彼此的引導(dǎo)信息,像素級文本分割解碼器的輸出可以作為文本框分割解碼器的引導(dǎo)信息提高文本框分割的性能,反之亦然。在標(biāo)準(zhǔn)數(shù)據(jù)集上的實驗表明,該算法提出的相互引導(dǎo)網(wǎng)絡(luò)可有效地提取文本信息。同時,利用得到的像素分割結(jié)果可以進(jìn)一步提升文本識別性能。2.研究了一種任意方向的場景文本識別算法。該算法首...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
文檔類圖像
重慶郵電大學(xué)碩士學(xué)位論文第1章緒論1第1章緒論1.1研究背景與意義隨著智能手機(jī)、數(shù)字圖像捕獲設(shè)備的流行,產(chǎn)生了海量的圖像。圖像中的文本可為我們提供大量有效的信息。從場景圖像中提取出來的文本信息,可運用于盲人導(dǎo)讀、自動翻譯、車牌識別等現(xiàn)實場景。因此,對圖像中的文本信息進(jìn)行數(shù)字化處理具有十分重要的現(xiàn)實意義。針對文本信息數(shù)字化的研究主要分為兩類。一類是傳統(tǒng)的光學(xué)字符識別(OpticalCharacterRecognition,OCR)[1,2],它主要針對白底黑字、排列整齊的文檔類文本,如圖1.1所示。光學(xué)字符識別可以達(dá)到99%的識別率,目前已經(jīng)有了十分成熟的運用。另一類是場景文本,場景文本是指在任意場景使用成像設(shè)備拍攝的圖像上的文本信息。由于場景文本的背景復(fù)雜,識別難度極大,如圖1.2所示,直接使用OCR技術(shù)無法解決識別任務(wù),因此,越來越多的學(xué)者將目光投入到這一研究中。圖1.1文檔類圖像圖1.2場景文本圖像
重慶郵電大學(xué)碩士學(xué)位論文第1章緒論31.2.1場景文本提取的難點場景文本提取面臨著巨大的挑戰(zhàn)[5-7]。主要挑戰(zhàn)包含以下幾個方面:1.圖像質(zhì)量參差不齊由于拍攝過程存在不確定性,可能帶來一系列的人為影響,諸如:黑暗環(huán)境下的過曝、拍攝時由于抖動造成的模糊形變、拍攝的文本區(qū)域有遮擋,或者是圖像本身分辨率低等,如圖1.3所示。這些都對文本信息提取增加了難度。圖1.3場景文本圖像的質(zhì)量參差不齊2.場景復(fù)雜自然場景中的文字可能出現(xiàn)在任何地方,諸如:石頭、木板、衣物等,如圖1.4所示。這些情況可能造成文本跟背景區(qū)分度低,從而增加文本信息的提取難度。圖1.4場景文本圖像的背景復(fù)雜
【參考文獻(xiàn)】:
期刊論文
[1]FACLSTM:ConvLSTM with focused attention for scene text recognition[J]. Qingqing WANG,Ye HUANG,Wenjing JIA,Xiangjian HE,Michael BLUMENSTEIN,Shujing LYU,Yue LU. Science China(Information Sciences). 2020(02)
本文編號:3269540
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
文檔類圖像
重慶郵電大學(xué)碩士學(xué)位論文第1章緒論1第1章緒論1.1研究背景與意義隨著智能手機(jī)、數(shù)字圖像捕獲設(shè)備的流行,產(chǎn)生了海量的圖像。圖像中的文本可為我們提供大量有效的信息。從場景圖像中提取出來的文本信息,可運用于盲人導(dǎo)讀、自動翻譯、車牌識別等現(xiàn)實場景。因此,對圖像中的文本信息進(jìn)行數(shù)字化處理具有十分重要的現(xiàn)實意義。針對文本信息數(shù)字化的研究主要分為兩類。一類是傳統(tǒng)的光學(xué)字符識別(OpticalCharacterRecognition,OCR)[1,2],它主要針對白底黑字、排列整齊的文檔類文本,如圖1.1所示。光學(xué)字符識別可以達(dá)到99%的識別率,目前已經(jīng)有了十分成熟的運用。另一類是場景文本,場景文本是指在任意場景使用成像設(shè)備拍攝的圖像上的文本信息。由于場景文本的背景復(fù)雜,識別難度極大,如圖1.2所示,直接使用OCR技術(shù)無法解決識別任務(wù),因此,越來越多的學(xué)者將目光投入到這一研究中。圖1.1文檔類圖像圖1.2場景文本圖像
重慶郵電大學(xué)碩士學(xué)位論文第1章緒論31.2.1場景文本提取的難點場景文本提取面臨著巨大的挑戰(zhàn)[5-7]。主要挑戰(zhàn)包含以下幾個方面:1.圖像質(zhì)量參差不齊由于拍攝過程存在不確定性,可能帶來一系列的人為影響,諸如:黑暗環(huán)境下的過曝、拍攝時由于抖動造成的模糊形變、拍攝的文本區(qū)域有遮擋,或者是圖像本身分辨率低等,如圖1.3所示。這些都對文本信息提取增加了難度。圖1.3場景文本圖像的質(zhì)量參差不齊2.場景復(fù)雜自然場景中的文字可能出現(xiàn)在任何地方,諸如:石頭、木板、衣物等,如圖1.4所示。這些情況可能造成文本跟背景區(qū)分度低,從而增加文本信息的提取難度。圖1.4場景文本圖像的背景復(fù)雜
【參考文獻(xiàn)】:
期刊論文
[1]FACLSTM:ConvLSTM with focused attention for scene text recognition[J]. Qingqing WANG,Ye HUANG,Wenjing JIA,Xiangjian HE,Michael BLUMENSTEIN,Shujing LYU,Yue LU. Science China(Information Sciences). 2020(02)
本文編號:3269540
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3269540.html
最近更新
教材專著