基于Android的智能信息采集功能研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2024-02-19 08:57
隨著現(xiàn)代社會(huì)的發(fā)展和互聯(lián)網(wǎng)技術(shù)的日漸成熟,我們的生活中充斥著越來越多的信息,它們由手機(jī)、電腦等智能設(shè)備所承載,以文字、圖像等形式存在。在眾多圖像信息中,包含著一些比較重要的文字信息需要被提取,從而進(jìn)一步被人們存儲(chǔ)和使用。光學(xué)字符識(shí)別技術(shù)(OCR,Optical Character Recognition),對(duì)圖像中文本區(qū)域進(jìn)行提取,將文本與背景形成的亮、暗轉(zhuǎn)化成黑、白的二維數(shù)字圖像,通過對(duì)其特征提取和模板匹配,將文本圖像自動(dòng)輸入成文本文檔的過程。在通過光學(xué)字符識(shí)別之后的文本正確率不能保證100%,此時(shí)需要對(duì)提取后的文本進(jìn)行語義級(jí)別的后處理操作。本文針對(duì)智能信息采集功能的文本后處理技術(shù)進(jìn)行了深入的研究,針對(duì)現(xiàn)有的N-gram語言模型,結(jié)合文字與其前后相鄰字組成詞語的特點(diǎn),提出一種雙向N-gram模型,并根據(jù)OCR輸出的特點(diǎn),提出一種基于滑動(dòng)窗口的自適應(yīng)文本后處理方法,設(shè)計(jì)并實(shí)現(xiàn)了基于Android平臺(tái)設(shè)計(jì)了智能信息采集功能系統(tǒng)。本文主要完成了以下幾個(gè)部分的內(nèi)容:(1)智能信息采集系統(tǒng)中運(yùn)用到的關(guān)鍵技術(shù),包括用于文本圖像的文字信息提取的OCR技術(shù),著重研究了文字信息提取后的文本后處理技術(shù),...
【文章頁數(shù)】:62 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與選題意義
1.2 相關(guān)技術(shù)國內(nèi)外發(fā)展研究現(xiàn)狀
1.2.1 OCR技術(shù)
1.2.2 文本后處理
1.3 論文主要研究內(nèi)容及組織結(jié)構(gòu)
第二章 智能信息采集系統(tǒng)的關(guān)鍵技術(shù)研究
2.1 OCR技術(shù)
2.1.1 OCR引擎
2.1.2 Tesseract-OCR引擎架構(gòu)分析
2.1.3 OCR識(shí)別常見錯(cuò)誤分類
2.2 文本后處理技術(shù)
2.2.1 基于句法分析文本后處理技術(shù)
2.2.2 基于語言模型的文本后處理技術(shù)
2.3 語言模型概述
2.3.1 基于規(guī)則的語言模型
2.3.2 N-gram模型
2.4 本章小結(jié)
第三章 基于雙向N-gram模型和滑動(dòng)窗口的文本后處理算法
3.1 巡檢系統(tǒng)中文本特點(diǎn)分析
3.2 前后雙向N-gram模型
3.3 算法的設(shè)計(jì)方案
3.3.1 算法的詳細(xì)過程
3.3.2 閾值v1的確定
3.3.3 數(shù)據(jù)稀疏問題
3.4 對(duì)比實(shí)驗(yàn)與分析
3.4.1 算法的計(jì)算次數(shù)對(duì)比分析
3.4.2 算法的檢錯(cuò)率對(duì)比分析
3.4.3 算法的糾錯(cuò)率對(duì)比分析
3.5 本章小結(jié)
第四章 智能信息采集系統(tǒng)方案設(shè)計(jì)與實(shí)現(xiàn)
4.1 需求分析與架構(gòu)設(shè)計(jì)
4.2 Android平臺(tái)介紹及開發(fā)特點(diǎn)
4.3 系統(tǒng)功能模塊實(shí)現(xiàn)
4.3.1 圖像采集模塊
4.3.2 預(yù)處理模塊
4.3.3 信息提取模塊
4.3.4 文本后處理模塊
4.4 系統(tǒng)測試結(jié)果與分析
4.4.1 系統(tǒng)測試環(huán)境
4.4.2 系統(tǒng)模塊測試
4.5 本章小結(jié)
第五章 總結(jié)與展望
5.1 文章總結(jié)
5.2 工作展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間取得成果
本文編號(hào):3902437
【文章頁數(shù)】:62 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與選題意義
1.2 相關(guān)技術(shù)國內(nèi)外發(fā)展研究現(xiàn)狀
1.2.1 OCR技術(shù)
1.2.2 文本后處理
1.3 論文主要研究內(nèi)容及組織結(jié)構(gòu)
第二章 智能信息采集系統(tǒng)的關(guān)鍵技術(shù)研究
2.1 OCR技術(shù)
2.1.1 OCR引擎
2.1.2 Tesseract-OCR引擎架構(gòu)分析
2.1.3 OCR識(shí)別常見錯(cuò)誤分類
2.2 文本后處理技術(shù)
2.2.1 基于句法分析文本后處理技術(shù)
2.2.2 基于語言模型的文本后處理技術(shù)
2.3 語言模型概述
2.3.1 基于規(guī)則的語言模型
2.3.2 N-gram模型
2.4 本章小結(jié)
第三章 基于雙向N-gram模型和滑動(dòng)窗口的文本后處理算法
3.1 巡檢系統(tǒng)中文本特點(diǎn)分析
3.2 前后雙向N-gram模型
3.3 算法的設(shè)計(jì)方案
3.3.1 算法的詳細(xì)過程
3.3.2 閾值v1的確定
3.3.3 數(shù)據(jù)稀疏問題
3.4 對(duì)比實(shí)驗(yàn)與分析
3.4.1 算法的計(jì)算次數(shù)對(duì)比分析
3.4.2 算法的檢錯(cuò)率對(duì)比分析
3.4.3 算法的糾錯(cuò)率對(duì)比分析
3.5 本章小結(jié)
第四章 智能信息采集系統(tǒng)方案設(shè)計(jì)與實(shí)現(xiàn)
4.1 需求分析與架構(gòu)設(shè)計(jì)
4.2 Android平臺(tái)介紹及開發(fā)特點(diǎn)
4.3 系統(tǒng)功能模塊實(shí)現(xiàn)
4.3.1 圖像采集模塊
4.3.2 預(yù)處理模塊
4.3.3 信息提取模塊
4.3.4 文本后處理模塊
4.4 系統(tǒng)測試結(jié)果與分析
4.4.1 系統(tǒng)測試環(huán)境
4.4.2 系統(tǒng)模塊測試
4.5 本章小結(jié)
第五章 總結(jié)與展望
5.1 文章總結(jié)
5.2 工作展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間取得成果
本文編號(hào):3902437
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3902437.html
最近更新
教材專著