天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

特定文檔的高通量檢測(cè)技術(shù)研究

發(fā)布時(shí)間:2021-08-28 12:23
  隨著互聯(lián)網(wǎng)技術(shù)與信息化的不斷普及,數(shù)字化文檔被人們廣泛使用。由于數(shù)字化文檔數(shù)量的激增,信息安全問題開始顯現(xiàn),一些需要面向特定人群的特定敏感文檔也被錯(cuò)誤的上傳至文庫類網(wǎng)站中,導(dǎo)致信息的泄露。經(jīng)調(diào)查,文庫類網(wǎng)站的特定文檔泄漏情況近年來呈現(xiàn)高發(fā)態(tài)勢(shì),給信息安全和公眾利益帶來嚴(yán)重威脅,造成無法挽回的經(jīng)濟(jì)或者其他損失。對(duì)文庫類網(wǎng)站分享的文檔進(jìn)行信息安全檢查已經(jīng)成為一個(gè)重要的需求。由于每天都有大量文檔上傳至文庫類網(wǎng)站中,如何設(shè)計(jì)快速準(zhǔn)確的高通量敏感文檔圖像檢測(cè)算法,以盡可能低的成本代價(jià)實(shí)現(xiàn)對(duì)網(wǎng)站每日上傳文檔圖像的全量檢測(cè),并從中檢測(cè)出是否存在特定文檔圖像,成為當(dāng)前階段需要迫切解決的研究性課題。從現(xiàn)實(shí)情況來說,目前市面上針對(duì)此類問題并無較好的解決方案,因此本文選定某文庫類網(wǎng)站A作為研究對(duì)象,針對(duì)以上問題進(jìn)行了深入研究,主要工作如下:(1)提出了一個(gè)以級(jí)聯(lián)結(jié)構(gòu)為主的特定文檔高通量監(jiān)測(cè)系統(tǒng)。首先,該系統(tǒng)接收來自文庫類網(wǎng)站中數(shù)據(jù)庫傳入的文檔圖像,利用底層圖像特征的差異性,將文檔圖像與非文檔圖像進(jìn)行有效區(qū)分;其次,利用基于深度學(xué)習(xí)的可疑文檔分類器,將文檔分為可疑文檔和非可疑文檔兩類;最后,對(duì)可疑文檔利用版面... 

【文章來源】:湘潭大學(xué)湖南省

【文章頁數(shù)】:61 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

特定文檔的高通量檢測(cè)技術(shù)研究


開運(yùn)算實(shí)例圖

實(shí)例圖,閉運(yùn)算,顏色


12閉運(yùn)算為先膨脹再腐蝕,M代表待處理圖像,N代表結(jié)構(gòu)元素,利用N對(duì)圖像M進(jìn)行閉運(yùn)算操作的定義如下:MN=(M⊕N)N(2.4)圖2.2閉運(yùn)算實(shí)例圖2.1.2顏色特征顏色特征是一種全局特征,主要用來描述全圖像區(qū)域中物體或場(chǎng)景的表面屬性,并且顏色特征對(duì)圖像本身的依賴性較小,因此顏色特征的魯棒性更好。在顏色特征中圖像區(qū)域中的所有像素都起作用,因此,顏色特征是一種基于像素的特征。常見的顏色特征表示方法包括顏色直方圖,顏色矩等。顏色直方圖是顏色特征中最常用到的特征,顏色直方圖不關(guān)心像素的空間位置,主要用來描述像素在整幅圖像中所占的比例。對(duì)于不同的顏色空間和坐標(biāo)系,顏色直方圖也不同,常用的顏色空間是RGB顏色空間。計(jì)算顏色直方圖首先需要進(jìn)行顏色量化(ColorQuantization)處理,將顏色空間劃分成小的顏色區(qū)間,每個(gè)小區(qū)間是一個(gè)像素值,然后通過計(jì)算顏色在每個(gè)小區(qū)間內(nèi)的像素?cái)?shù)量得到顏色直方圖。2.2卷積神經(jīng)網(wǎng)絡(luò)2.2.1卷積神經(jīng)網(wǎng)絡(luò)概述圖像具有很強(qiáng)的空間相關(guān)性且圖像的內(nèi)容豐富多變,獲取質(zhì)量好的圖像特征是圖像處理中的關(guān)鍵環(huán)節(jié),常用的手工提取特征方法具有較好的效果,且得到廣泛的應(yīng)用。但由于沒有考慮到圖像的空間相關(guān)性的特點(diǎn),無法充分地表示圖像語義信息。1998年LeCun等人[14]基于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)提出卷積神經(jīng)網(wǎng)絡(luò)(CNN)LeNet-5,該卷積神經(jīng)網(wǎng)絡(luò)由一系列可學(xué)習(xí)的權(quán)值和偏重構(gòu)成的。80年代末,反向傳播算法(BackPropagation)[15]被提出,該網(wǎng)絡(luò)是經(jīng)典的前向多層神經(jīng)網(wǎng)絡(luò),訓(xùn)練過程由正向傳播和反向傳播組成。正向傳播過程中訓(xùn)練樣本從輸入層輸入經(jīng)神經(jīng)網(wǎng)絡(luò)從輸出層輸出,如果輸出結(jié)果和期望值之差低于設(shè)定的閾值,那么終止該訓(xùn)練;如

網(wǎng)絡(luò)結(jié)構(gòu)圖,網(wǎng)絡(luò)結(jié)構(gòu),卷積核


14深的網(wǎng)絡(luò)拓展性增強(qiáng)。由于VGG遷移到其它圖片數(shù)據(jù)上的泛化能力強(qiáng),目前很多計(jì)算機(jī)視覺任務(wù)都使用VGG來提取圖像特征。VGG有兩種結(jié)構(gòu),分別是VGG16和VGG19,相對(duì)于2012年的AlexNet[18],VGG采用連續(xù)的3x3小卷積核來代替AlexNet中較大的11×11,7×7與5×5大小的卷積核。通過堆疊兩個(gè)3×3的卷積核,使得感受野與一個(gè)5×5的卷積核相當(dāng)。由于采用堆積的小卷積核是由大卷積核分拆的,所以導(dǎo)致層數(shù)的增加,增加了網(wǎng)絡(luò)的非線性能力,從而能讓網(wǎng)絡(luò)來學(xué)習(xí)更復(fù)雜的內(nèi)容。VGG結(jié)構(gòu)如圖2.4所示,由卷積層、激活層、全連接層和softmax輸出層構(gòu)成。激活函數(shù)采用ReLU函數(shù),使用最大池化進(jìn)行下采樣。VGG模型有結(jié)構(gòu)簡單、小卷積核、小池化核、通道數(shù)多、層數(shù)深和特征圖更寬的特點(diǎn)。圖2.4VGG網(wǎng)絡(luò)結(jié)構(gòu)(2)ResNetResNet[19]于2015年被提出,該網(wǎng)絡(luò)的優(yōu)點(diǎn)是結(jié)構(gòu)簡單并且效果好,因此之后的很多計(jì)算機(jī)視覺任務(wù)如檢測(cè)、分割、識(shí)別等領(lǐng)域都是基于ResNet-50或者ResNet-101完成。隨著網(wǎng)絡(luò)的加深,會(huì)出現(xiàn)訓(xùn)練集準(zhǔn)確率下降的現(xiàn)象。為了解決這個(gè)問題,何愷明等人提出了一種全新的網(wǎng)絡(luò),深度殘差網(wǎng)絡(luò)(ResNet),該網(wǎng)絡(luò)可以盡可能的加深網(wǎng)絡(luò)的深度。常用分類卷積網(wǎng)絡(luò)在ImageNet[20]上的結(jié)果如表2.1所示。ResNet使用了一種連接方式叫做“shortcutconnection”,ResNet提出了兩種方式,示意圖如圖2.5所示。


本文編號(hào):3368508

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3368508.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶46d5f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com