視頻中人工文本的檢測(cè)與提取
發(fā)布時(shí)間:2020-12-13 05:01
隨著因特網(wǎng)、通信技術(shù)、智能手機(jī)行業(yè)等的飛速發(fā)展,視頻的獲取和傳輸變得極為便利。同時(shí)視頻本身具有信息量豐富、觀看舒適等優(yōu)勢(shì),種種因素使得視頻取代傳統(tǒng)媒介成為最流行的媒體。目前上傳、下載視頻十分方便,線上視頻的數(shù)量急劇增長(zhǎng)。隨之而來(lái),如何從海量視頻中高效地索引,檢索和定位想要的視頻內(nèi)容成為了當(dāng)下的熱點(diǎn)問題。與低語(yǔ)義層級(jí)的感受信息(如紋理等)和其他高級(jí)語(yǔ)義信息(如視頻中人物活動(dòng)等)相比,視頻中的人工文本能夠更加直接、準(zhǔn)確地描述視頻內(nèi)容。而且,通過對(duì)視頻文本的分析可以幫助檢測(cè)違法視頻。提取視頻文本的關(guān)鍵技術(shù)包括在復(fù)雜背景下準(zhǔn)確地發(fā)現(xiàn)、確認(rèn)和識(shí)別多語(yǔ)言、多字體的文本。在本文中,我們提出了一個(gè)新穎的結(jié)合了角響應(yīng)特征圖和遷移深度卷積神經(jīng)網(wǎng)絡(luò)的方法來(lái)檢測(cè)和識(shí)別視頻文本。首先,我們利用角響應(yīng)特征圖以高召回率找出候選文本區(qū)域;其次,我們利用兩種投影分析方法將候選文本區(qū)域劃分成候選文本行;然后,我們利用遷移學(xué)習(xí),根據(jù)VGG16,ResNet50,InceptionV3構(gòu)造真假文本行判別網(wǎng)絡(luò)來(lái)去除假陽(yáng)性樣本;最終我們提出一個(gè)新穎的基于模糊C均值聚類的分離算法從復(fù)雜的背景中提取出干凈的文本層送入商用光學(xué)字符識(shí)別...
【文章來(lái)源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
進(jìn)行邊緣檢測(cè)的視頻幀
第3章視頻中人工文本的定位15圖3-2該視頻幀的邊緣圖由實(shí)驗(yàn)結(jié)果可以看出視頻中人工文本區(qū)域的邊緣相對(duì)來(lái)講更多更密集,有助于我們高效地尋找出文本區(qū)域,但同時(shí)要注意到背景的部分區(qū)域邊緣也很密集(如車輪部分),如果我們僅僅根據(jù)邊緣的密集程度進(jìn)行圖像文本檢測(cè)的話是遠(yuǎn)遠(yuǎn)不夠精確的。又因?yàn)閺?fù)雜背景下常常文本的邊緣與背景的邊緣會(huì)混在一起,所以難以準(zhǔn)確定位文本行(如車輪邊緣與字幕左側(cè)邊緣有重疊會(huì)影響文本行定位)。因此,使用邊緣檢測(cè)算子來(lái)實(shí)現(xiàn)視頻幀中人工文本的準(zhǔn)確檢測(cè)是比較困難的。3.2利用角響應(yīng)特征圖檢測(cè)圖像文本區(qū)域視頻中的人工文本通常是人為添加的視頻補(bǔ)充信息,具有良好的可讀性(尤其是字幕)。無(wú)論是何種語(yǔ)言、何種字體的文本字符都是由筆劃的交叉形成,而筆劃的交叉通常會(huì)導(dǎo)致很多角的產(chǎn)生,即字符所在的區(qū)域通常是角密集分布的區(qū)域,而背景通常不具有這個(gè)特性。相比于其他特征如邊緣特征,角特征更加的穩(wěn)定和魯棒。因此,我們采用角響應(yīng)變換得到角響應(yīng)特征圖,根據(jù)角響應(yīng)特征圖找到角密集分布區(qū)域,即認(rèn)為是候選文本區(qū)域。3.2.1角點(diǎn)角點(diǎn)是二維圖像中亮度變化劇烈的點(diǎn),具體來(lái)講就是二維圖像中在多個(gè)方向都是邊界的點(diǎn),是圖像的一個(gè)重要局部特征。視頻中的人工文本字符由筆劃交叉形成,因此視頻中的人工文本區(qū)域角點(diǎn)豐富,而通常背景區(qū)域不具備這個(gè)特性。包含角點(diǎn)的小塊區(qū)域就是角,通常角與相鄰其他方向區(qū)域的灰度差異明顯,以此為基礎(chǔ)許多角檢測(cè)的算法被提出。在文獻(xiàn)[23]中,角檢測(cè)的詳細(xì)推導(dǎo)如下:對(duì)給定的一幅灰度圖I,我們通過窗函數(shù)W(x,y)在圖片上取相應(yīng)的一塊圖像,
第3章視頻中人工文本的定位17(a)輸入視頻幀(b)文本區(qū)域比背景具有更緊密的角(c)對(duì)角的不充分膨脹形成的候選文本區(qū)域(d)對(duì)角的過分膨脹形成的候選文本區(qū)域(e)一個(gè)較小的k對(duì)應(yīng)的角分布(f)一個(gè)較大的k對(duì)應(yīng)的角分布圖3-3視頻幀中的角分布3.2.2角響應(yīng)特征圖為了更好地利用圖像文本區(qū)域有更多密集角的特性,同時(shí)受文獻(xiàn)[48]的啟發(fā),我們采用連續(xù)的角響應(yīng)特征圖(CRM)來(lái)進(jìn)行角檢測(cè),CRM是圖像空間導(dǎo)數(shù)的函數(shù),公式如下:222xyyyxxxyxyCRMDDDDDDD(3-11)其中xD和yD分別是圖像I在x方向和y方向上的一階導(dǎo)數(shù),xxD和yyD分別是圖像I在x方向和y方向上的二階導(dǎo)數(shù),xyD是圖像I的混合導(dǎo)數(shù)。角就是角響應(yīng)特征圖的局部極大值區(qū)域。因此,我們不需要去確定角檢測(cè)時(shí)使用的窗函數(shù),也不需要確定公式(3-10)中的敏感系數(shù)k,就可以尋找出角區(qū)域,方法如下:我們用角響應(yīng)特征圖來(lái)描述角分布,然后用灰度形態(tài)學(xué)操作和自適應(yīng)閾值來(lái)獲得相應(yīng)的角
本文編號(hào):2913946
【文章來(lái)源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
進(jìn)行邊緣檢測(cè)的視頻幀
第3章視頻中人工文本的定位15圖3-2該視頻幀的邊緣圖由實(shí)驗(yàn)結(jié)果可以看出視頻中人工文本區(qū)域的邊緣相對(duì)來(lái)講更多更密集,有助于我們高效地尋找出文本區(qū)域,但同時(shí)要注意到背景的部分區(qū)域邊緣也很密集(如車輪部分),如果我們僅僅根據(jù)邊緣的密集程度進(jìn)行圖像文本檢測(cè)的話是遠(yuǎn)遠(yuǎn)不夠精確的。又因?yàn)閺?fù)雜背景下常常文本的邊緣與背景的邊緣會(huì)混在一起,所以難以準(zhǔn)確定位文本行(如車輪邊緣與字幕左側(cè)邊緣有重疊會(huì)影響文本行定位)。因此,使用邊緣檢測(cè)算子來(lái)實(shí)現(xiàn)視頻幀中人工文本的準(zhǔn)確檢測(cè)是比較困難的。3.2利用角響應(yīng)特征圖檢測(cè)圖像文本區(qū)域視頻中的人工文本通常是人為添加的視頻補(bǔ)充信息,具有良好的可讀性(尤其是字幕)。無(wú)論是何種語(yǔ)言、何種字體的文本字符都是由筆劃的交叉形成,而筆劃的交叉通常會(huì)導(dǎo)致很多角的產(chǎn)生,即字符所在的區(qū)域通常是角密集分布的區(qū)域,而背景通常不具有這個(gè)特性。相比于其他特征如邊緣特征,角特征更加的穩(wěn)定和魯棒。因此,我們采用角響應(yīng)變換得到角響應(yīng)特征圖,根據(jù)角響應(yīng)特征圖找到角密集分布區(qū)域,即認(rèn)為是候選文本區(qū)域。3.2.1角點(diǎn)角點(diǎn)是二維圖像中亮度變化劇烈的點(diǎn),具體來(lái)講就是二維圖像中在多個(gè)方向都是邊界的點(diǎn),是圖像的一個(gè)重要局部特征。視頻中的人工文本字符由筆劃交叉形成,因此視頻中的人工文本區(qū)域角點(diǎn)豐富,而通常背景區(qū)域不具備這個(gè)特性。包含角點(diǎn)的小塊區(qū)域就是角,通常角與相鄰其他方向區(qū)域的灰度差異明顯,以此為基礎(chǔ)許多角檢測(cè)的算法被提出。在文獻(xiàn)[23]中,角檢測(cè)的詳細(xì)推導(dǎo)如下:對(duì)給定的一幅灰度圖I,我們通過窗函數(shù)W(x,y)在圖片上取相應(yīng)的一塊圖像,
第3章視頻中人工文本的定位17(a)輸入視頻幀(b)文本區(qū)域比背景具有更緊密的角(c)對(duì)角的不充分膨脹形成的候選文本區(qū)域(d)對(duì)角的過分膨脹形成的候選文本區(qū)域(e)一個(gè)較小的k對(duì)應(yīng)的角分布(f)一個(gè)較大的k對(duì)應(yīng)的角分布圖3-3視頻幀中的角分布3.2.2角響應(yīng)特征圖為了更好地利用圖像文本區(qū)域有更多密集角的特性,同時(shí)受文獻(xiàn)[48]的啟發(fā),我們采用連續(xù)的角響應(yīng)特征圖(CRM)來(lái)進(jìn)行角檢測(cè),CRM是圖像空間導(dǎo)數(shù)的函數(shù),公式如下:222xyyyxxxyxyCRMDDDDDDD(3-11)其中xD和yD分別是圖像I在x方向和y方向上的一階導(dǎo)數(shù),xxD和yyD分別是圖像I在x方向和y方向上的二階導(dǎo)數(shù),xyD是圖像I的混合導(dǎo)數(shù)。角就是角響應(yīng)特征圖的局部極大值區(qū)域。因此,我們不需要去確定角檢測(cè)時(shí)使用的窗函數(shù),也不需要確定公式(3-10)中的敏感系數(shù)k,就可以尋找出角區(qū)域,方法如下:我們用角響應(yīng)特征圖來(lái)描述角分布,然后用灰度形態(tài)學(xué)操作和自適應(yīng)閾值來(lái)獲得相應(yīng)的角
本文編號(hào):2913946
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2913946.html
最近更新
教材專著