基于多尺度細節(jié)保留的復(fù)雜場景文本檢測

發(fā)布時間：2020-12-27 06:56

　　文本在自然場景中幾乎無處不見,與圖像中的其它目標(如:花草、建筑物等)相比較,自然場景圖像中的文本信息具有較強的邏輯性與較豐富的表達能力,可以有效地提供高層次的語義信息。高效自動地處理自然場景圖像中的文本信息,對提高工業(yè)自動化水平、網(wǎng)絡(luò)檢索能力、場景分析能力等具有重要研究意義。文本是我們理解自然場景的重要元素,自然場景中的文本檢測目前被用于解決許多實際視覺問題。因此研究自然場景中的文本檢測具有重大的實際應(yīng)用價值。然而,自然場景中的文本因為圖像拍攝角度、光線等客觀因素影響,也因為文字的排列方式等原因給文本檢測帶來了很大的困難。當下流行的深度學(xué)習(xí)方法相較于傳統(tǒng)(Optical Character Recognition OCR)方法獲得了更加優(yōu)異的檢測效果,但目前大多數(shù)深度學(xué)習(xí)方法都是從目標檢測領(lǐng)域直接引用過來的模型,對文本信息的針對性不強,細節(jié)信息容易在串聯(lián)式的卷積操作中丟失,導(dǎo)致誤檢和漏檢。因此,從自然場景圖像中檢測文本仍是一件非常具有挑戰(zhàn)性的任務(wù)。本文基于深度學(xué)習(xí)算法,針對卷積操作中的細節(jié)丟失,對文本信息不敏感等問題開展了一系列的研究:(1)提出一種端到端的基于注意力機制的復(fù)雜場景文...

【文章來源】：山西大學(xué)山西省

【文章頁數(shù)】：75 頁

【學(xué)位級別】：碩士

【部分圖文】：

場景文字檢測

分析圖,文字,場景,文本

梢越饈屯枷竦?內(nèi)容，還可以用來搜索和分析圖像和視頻的內(nèi)容。毫無疑問，圖中的文本信息十分具有研究價值。傳統(tǒng)的(OpticalCharacterRecognitionOCR)方法受技術(shù)水平的限制一般只對文檔文本適用。而大多數(shù)的圖像都是在自然場景下拍攝，文字的周圍有大量的其他目標和復(fù)雜的背景。復(fù)雜場景文本檢測是傳統(tǒng)OCR技術(shù)在自然圖像上的擴展，它的應(yīng)用領(lǐng)域十分廣泛。比如圖像搜索(文字輔助理解圖像)、自動駕駛(交通標識檢測)、醫(yī)療健康、教育產(chǎn)業(yè)(自動閱卷)等行業(yè)都有不同程度的應(yīng)用需求。a)無人超市b)無人酒店c)無人駕駛d)網(wǎng)上閱卷圖1.1場景文字檢測的現(xiàn)實應(yīng)用示例(1)人工智能人工智能要求機器能夠自行的根據(jù)當時的環(huán)境做出響應(yīng)分析，從而做出較好的決策。文本是傳達信息的重要方式，想要達到人類一樣的處理能力，機器第一個需要的就是正確的定位文本區(qū)域。例如圖1.1(a)，無人超市現(xiàn)在已經(jīng)投放在一些一線城市試點。當我們結(jié)賬的時候，機器可以輕松的定位文本區(qū)域，可以通過文字、商標來識別商品的價格。又例如圖1.1(b)，無人酒店也是現(xiàn)在發(fā)展的一個趨勢，在杭州就有這么一家無人酒店，我們可以通過手機下單，機器人會通過檢測識別房門號碼來準確無誤的將產(chǎn)品送到顧客的手上。

文字,場景,文本,圖像

第二章理論基礎(chǔ)9第二章理論基礎(chǔ)2.1文本檢測的相關(guān)理論計算機視覺就是讓機器像人一樣去找到目標并且理解目標所傳遞的信息，簡而言之就是理解圖像。圖像的理解有很多層級，對圖像進行片面的選擇處理，例如對物體的紋理、顏色等信息的理解，這是對圖像的低級理解；對圖像中感興趣的目標進行檢測或測量等則是中級的理解，對圖像進行分析；而對圖像中文字的理解，則是對高層語義信息的理解，是對圖像的理解，可以直接被用于邏輯分析，從而像人類一樣指導(dǎo)和計劃行動。由于文字無處不在和文字內(nèi)容的重要性，圖像中文字的檢測以及后續(xù)的識別一直都是十分重要的。圖像中的文字檢測可以分為兩類，一類是單一背景下的文本，另一類是復(fù)雜場景下的文本。2.1.1單一背景文字檢測我們通常所說的單一背景下的文本檢測，一般是指文檔中“白紙黑字”式的文本檢測或者背景單一的圖像中的文本檢測。文檔圖像一般分辨率很高，其中的文本都是由單一的背景組成，或者是單一的顏色，或者較為簡單的背景圖案(例2.1(a))。其中的文字是較為常規(guī)的字體，排列均勻，尺寸基本一致，布局格式相對固定，內(nèi)容以字符為主，不會出現(xiàn)很多的字體變形和復(fù)雜的干擾紋理。而且單一背景的文本檢測大多數(shù)都是主動配合式拍攝的，并不會存在有傾斜，扭曲等式樣。這種圖片中的文本檢測的難度并不大，其檢測率也已達到實用的要求，比如常見的OCR應(yīng)用。a單一背景圖片b復(fù)雜場景圖片圖2.1場景文字檢測的現(xiàn)實應(yīng)用示例

本文編號：2941294

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/shoufeilunwen/xixikjs/2941294.html

上一篇：基于鏈路質(zhì)量感知的WSN路由算法
下一篇：基于滑模控制的移動機器人軌跡跟蹤與鏈式編隊控制

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多尺度細節(jié)保留的復(fù)雜場景文本檢測