基于深度學習的印刷體數(shù)學公式符號識別方法研究
本文關鍵詞:基于深度學習的印刷體數(shù)學公式符號識別方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:印刷體數(shù)學公式識別是光學字符識別領域中的一個重要研究課題,目的是將以圖像方式輸入的印刷體數(shù)學公式轉化為可編輯的符號,實現(xiàn)公式的重用。由于數(shù)學公式結構復雜,數(shù)學符號種類繁多且字體多樣、大小不一,目前其識別效果并不理想,需要更為有效的識別方法。本文將深度學習中的卷積神經(jīng)網(wǎng)絡理論應用到數(shù)學符號識別中,旨在克服傳統(tǒng)符號識別方法中手工提取特征的不足,通過構建具有多個隱含層的深度網(wǎng)絡模型并使用大量的訓練數(shù)據(jù)來學習得到更有用的特征,進而提升公式符號分類的準確性。本文對數(shù)學公式識別的關鍵技術、研究現(xiàn)狀以及卷積神經(jīng)網(wǎng)絡的理論進行了研究,在此基礎上建立了面向公式符號識別的卷積神經(jīng)網(wǎng)絡結構,并通過大量的對比實驗確定網(wǎng)絡的最優(yōu)參數(shù)。該網(wǎng)絡由一個輸入層、輸出層、兩個卷積層和采樣層交替組成,輸入層直接對應經(jīng)公式定位及分割處理后的公式符號圖像,采用5×5大小的卷積核對符號圖像進行特征抽取。執(zhí)行卷積時,將傳統(tǒng)的Sigmoid和雙曲正切激活函數(shù)替換為更接近生物神經(jīng)的ReLU激活函數(shù),以提高模型訓練的收斂速度,并解決梯度消失問題。對提取到的卷積特征圖采用2×2的最大池化方式進行采樣,從而在降低特征維數(shù)、保留特征的同時,減少參數(shù)計算量,這種卷積與采樣相結合的方式使特征具有一定的旋轉不變性。輸出層采用Dropout連接方式減輕了網(wǎng)絡的過擬合程度并提高泛化能力。此外,針對卷積神經(jīng)網(wǎng)絡訓練速度慢的問題,本文采用基于CUDA的GPU編程方法,實現(xiàn)了對訓練速度的大幅度提升。為驗證所提出算法的有效性,本文應用VS2010設計并實現(xiàn)了一個印刷體數(shù)學公式識別系統(tǒng)。以包含公式的文檔圖像作為系統(tǒng)的輸入,經(jīng)過版面校正處理、公式圖像預處理、公式符號識別和公式結構分析,最后將結果輸出。通過大量的實驗和對比,本文所提出方法的公式符號的平均識別率可以達到99%,高于現(xiàn)有識別方法,可以滿足實際應用的需要。
【關鍵詞】:卷積神經(jīng)網(wǎng)絡 數(shù)學公式符號識別 深度學習 CUDA GPU
【學位授予單位】:沈陽工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP183;TP391.41
【目錄】:
- 摘要4-5
- Abstract5-9
- 第1章 緒論9-17
- 1.1 研究背景及意義9
- 1.2 印刷體數(shù)學公式符號識別研究現(xiàn)狀9-16
- 1.2.1 數(shù)學公式識別概述9-12
- 1.2.2 數(shù)學公式識別關鍵技術12-15
- 1.2.3 數(shù)學公式識別軟件系統(tǒng)15-16
- 1.3 研究目標與主要工作16
- 1.4 本文結構安排16-17
- 第2章 深度學習和卷積神經(jīng)網(wǎng)絡17-25
- 2.1 深度學習17
- 2.2 稀疏編碼17-18
- 2.3 深信度網(wǎng)絡18-20
- 2.4 卷積神經(jīng)網(wǎng)絡20-25
- 2.4.1 卷積神經(jīng)網(wǎng)絡的提出20
- 2.4.2 卷積神經(jīng)網(wǎng)絡的網(wǎng)絡結構20-22
- 2.4.3 訓練過程22-23
- 2.4.4 卷積神經(jīng)網(wǎng)絡的應用23-25
- 第3章 公式符號識別的CNN模型的構建25-35
- 3.1 公式符號識別的CNN結構25-27
- 3.1.1 輸入層25
- 3.1.2 卷積層25-26
- 3.1.3 采樣層26
- 3.1.4 輸出層26-27
- 3.2 網(wǎng)絡參數(shù)優(yōu)化27-31
- 3.2.1 網(wǎng)絡結構參數(shù)27-28
- 3.2.2 激活函數(shù)28-30
- 3.2.3 全連接方式30
- 3.2.4 調(diào)整回歸下降方式30-31
- 3.3 實驗結果與討論31-35
- 3.3.1 實驗設置31
- 3.3.2 整體測試及對比測試31-32
- 3.3.3 進一步討論32-35
- 第4章 印刷體數(shù)學公式識別系統(tǒng)的設計與實現(xiàn)35-53
- 4.1 軟件設計方案35-40
- 4.1.1 功能描述35-36
- 4.1.2 開發(fā)環(huán)境36-40
- 4.2 主要功能的詳細設計40-53
- 4.2.1 識別相關處理40-46
- 4.2.2 字符識別46-53
- 第5章 結論53-54
- 參考文獻54-57
- 在學研究成果57-58
- 致謝58
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張立;朱玉全;陳耿;;基于卷積神經(jīng)網(wǎng)絡SLeNet_5的車牌識別方法[J];信息技術;2015年11期
2 龔丁禧;曹長榮;;基于卷積神經(jīng)網(wǎng)絡的植物葉片分類[J];計算機與現(xiàn)代化;2014年04期
3 高學;王有旺;;基于CNN和隨機彈性形變的相似手寫漢字識別[J];華南理工大學學報(自然科學版);2014年01期
4 孫志軍;薛磊;許陽明;王正;;深度學習研究綜述[J];計算機應用研究;2012年08期
5 計春雷;馮偉;黎明;楊杰;;一種動態(tài)閾值加填補的指紋圖像二值化算法[J];計算機仿真;2011年07期
6 趙志宏;楊紹普;馬增強;;基于卷積神經(jīng)網(wǎng)絡LeNet-5的車牌字符識別研究[J];系統(tǒng)仿真學報;2010年03期
7 陳德裕;朱學芳;蘇嘯晨;杭月芹;;印刷體文獻中數(shù)學公式識別及描述系統(tǒng)研究[J];計算機應用;2009年03期
8 李剛;宋文靜;;基于圖像直方圖的車牌圖像二值化方法研究[J];交通運輸系統(tǒng)工程與信息;2009年01期
9 安艷輝;董五洲;;基于識別反饋的粘連字符切分方法研究[J];河北省科學院學報;2008年02期
10 張慶豐;岑豫皖;杜培明;;數(shù)顯數(shù)字字符圖像特征提取算法的研究與實現(xiàn)[J];計算機技術與發(fā)展;2007年11期
本文關鍵詞:基于深度學習的印刷體數(shù)學公式符號識別方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號:341050
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/341050.html