基于深度學習的印刷體數(shù)學公式符號識別方法研究

發(fā)布時間：2017-05-02 14:00

本文關鍵詞：基于深度學習的印刷體數(shù)學公式符號識別方法研究，由筆耕文化傳播整理發(fā)布。

【摘要】：印刷體數(shù)學公式識別是光學字符識別領域中的一個重要研究課題,目的是將以圖像方式輸入的印刷體數(shù)學公式轉化為可編輯的符號,實現(xiàn)公式的重用。由于數(shù)學公式結構復雜,數(shù)學符號種類繁多且字體多樣、大小不一,目前其識別效果并不理想,需要更為有效的識別方法。本文將深度學習中的卷積神經(jīng)網(wǎng)絡理論應用到數(shù)學符號識別中,旨在克服傳統(tǒng)符號識別方法中手工提取特征的不足,通過構建具有多個隱含層的深度網(wǎng)絡模型并使用大量的訓練數(shù)據(jù)來學習得到更有用的特征,進而提升公式符號分類的準確性。本文對數(shù)學公式識別的關鍵技術、研究現(xiàn)狀以及卷積神經(jīng)網(wǎng)絡的理論進行了研究,在此基礎上建立了面向公式符號識別的卷積神經(jīng)網(wǎng)絡結構,并通過大量的對比實驗確定網(wǎng)絡的最優(yōu)參數(shù)。該網(wǎng)絡由一個輸入層、輸出層、兩個卷積層和采樣層交替組成,輸入層直接對應經(jīng)公式定位及分割處理后的公式符號圖像,采用5×5大小的卷積核對符號圖像進行特征抽取。執(zhí)行卷積時,將傳統(tǒng)的Sigmoid和雙曲正切激活函數(shù)替換為更接近生物神經(jīng)的ReLU激活函數(shù),以提高模型訓練的收斂速度,并解決梯度消失問題。對提取到的卷積特征圖采用2×2的最大池化方式進行采樣,從而在降低特征維數(shù)、保留特征的同時,減少參數(shù)計算量,這種卷積與采樣相結合的方式使特征具有一定的旋轉不變性。輸出層采用Dropout連接方式減輕了網(wǎng)絡的過擬合程度并提高泛化能力。此外,針對卷積神經(jīng)網(wǎng)絡訓練速度慢的問題,本文采用基于CUDA的GPU編程方法,實現(xiàn)了對訓練速度的大幅度提升。為驗證所提出算法的有效性,本文應用VS2010設計并實現(xiàn)了一個印刷體數(shù)學公式識別系統(tǒng)。以包含公式的文檔圖像作為系統(tǒng)的輸入,經(jīng)過版面校正處理、公式圖像預處理、公式符號識別和公式結構分析,最后將結果輸出。通過大量的實驗和對比,本文所提出方法的公式符號的平均識別率可以達到99%,高于現(xiàn)有識別方法,可以滿足實際應用的需要。
【關鍵詞】：卷積神經(jīng)網(wǎng)絡 數(shù)學公式符號識別 深度學習 CUDA GPU
【學位授予單位】：沈陽工業(yè)大學
【學位級別】：碩士
【學位授予年份】：2016
【分類號】：TP183;TP391.41
【目錄】：

摘要4-5
Abstract5-9
第1章緒論9-17
1.1 研究背景及意義9
1.2 印刷體數(shù)學公式符號識別研究現(xiàn)狀9-16
1.2.1 數(shù)學公式識別概述9-12
1.2.2 數(shù)學公式識別關鍵技術12-15
1.2.3 數(shù)學公式識別軟件系統(tǒng)15-16
1.3 研究目標與主要工作16
1.4 本文結構安排16-17
第2章深度學習和卷積神經(jīng)網(wǎng)絡17-25
2.1 深度學習17
2.2 稀疏編碼17-18
2.3 深信度網(wǎng)絡18-20
2.4 卷積神經(jīng)網(wǎng)絡20-25
2.4.1 卷積神經(jīng)網(wǎng)絡的提出20
2.4.2 卷積神經(jīng)網(wǎng)絡的網(wǎng)絡結構20-22
2.4.3 訓練過程22-23
2.4.4 卷積神經(jīng)網(wǎng)絡的應用23-25
第3章公式符號識別的CNN模型的構建25-35
3.1 公式符號識別的CNN結構25-27
3.1.1 輸入層25
3.1.2 卷積層25-26
3.1.3 采樣層26
3.1.4 輸出層26-27
3.2 網(wǎng)絡參數(shù)優(yōu)化27-31
3.2.1 網(wǎng)絡結構參數(shù)27-28
3.2.2 激活函數(shù)28-30
3.2.3 全連接方式30
3.2.4 調(diào)整回歸下降方式30-31
3.3 實驗結果與討論31-35
3.3.1 實驗設置31
3.3.2 整體測試及對比測試31-32
3.3.3 進一步討論32-35
第4章印刷體數(shù)學公式識別系統(tǒng)的設計與實現(xiàn)35-53
4.1 軟件設計方案35-40
4.1.1 功能描述35-36
4.1.2 開發(fā)環(huán)境36-40
4.2 主要功能的詳細設計40-53
4.2.1 識別相關處理40-46
4.2.2 字符識別46-53
第5章結論53-54
參考文獻54-57
在學研究成果57-58
致謝58

【參考文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 張立;朱玉全;陳耿;;基于卷積神經(jīng)網(wǎng)絡SLeNet_5的車牌識別方法[J];信息技術;2015年11期

2 龔丁禧;曹長榮;;基于卷積神經(jīng)網(wǎng)絡的植物葉片分類[J];計算機與現(xiàn)代化;2014年04期

3 高學;王有旺;;基于CNN和隨機彈性形變的相似手寫漢字識別[J];華南理工大學學報(自然科學版);2014年01期

4 孫志軍;薛磊;許陽明;王正;;深度學習研究綜述[J];計算機應用研究;2012年08期

5 計春雷;馮偉;黎明;楊杰;;一種動態(tài)閾值加填補的指紋圖像二值化算法[J];計算機仿真;2011年07期

6 趙志宏;楊紹普;馬增強;;基于卷積神經(jīng)網(wǎng)絡LeNet-5的車牌字符識別研究[J];系統(tǒng)仿真學報;2010年03期

7 陳德裕;朱學芳;蘇嘯晨;杭月芹;;印刷體文獻中數(shù)學公式識別及描述系統(tǒng)研究[J];計算機應用;2009年03期

8 李剛;宋文靜;;基于圖像直方圖的車牌圖像二值化方法研究[J];交通運輸系統(tǒng)工程與信息;2009年01期

9 安艷輝;董五洲;;基于識別反饋的粘連字符切分方法研究[J];河北省科學院學報;2008年02期

10 張慶豐;岑豫皖;杜培明;;數(shù)顯數(shù)字字符圖像特征提取算法的研究與實現(xiàn)[J];計算機技術與發(fā)展;2007年11期

本文關鍵詞：基于深度學習的印刷體數(shù)學公式符號識別方法研究，由筆耕文化傳播整理發(fā)布。

，

本文編號：341050

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/341050.html

上一篇：三相四線制有源電力濾波器控制策略與應用優(yōu)化的研究
下一篇：多通道傳感器的合成及在炸藥與離子檢測中的應用

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的印刷體數(shù)學公式符號識別方法研究