基于打印指令的打印數(shù)據(jù)文本信息的提取和追加
本文關鍵詞:基于打印指令的打印數(shù)據(jù)文本信息的提取和追加
更多相關文章: Postscript EMF 假脫機文件 打印指令
【摘要】:隨著互聯(lián)網(wǎng)的普及,大數(shù)據(jù)概念應運而生,與此同時各種數(shù)據(jù)采集方式也相繼出現(xiàn)。除去平時常見的網(wǎng)頁爬蟲、網(wǎng)卡過濾等數(shù)據(jù)采集方法之外,打印機數(shù)據(jù)采集的需求也越來越多。毫無疑問,數(shù)據(jù)采集是大數(shù)據(jù)分析的基礎工作。最早的數(shù)據(jù)采集出現(xiàn)在工業(yè)時代的自動控制和環(huán)境監(jiān)測領域,后來發(fā)展到電子證據(jù)領域,而如今數(shù)據(jù)采集作為大數(shù)據(jù)分析的基礎性工作,在互聯(lián)網(wǎng)領域中的地位舉足輕重。互聯(lián)網(wǎng)中的數(shù)據(jù)有多種來源,包括客戶機使用記錄、系統(tǒng)日志、網(wǎng)絡流量監(jiān)控、郵件信息、硬盤文件、瀏覽器緩存數(shù)據(jù)、聊天記錄等。打印機數(shù)據(jù)采集的需求出現(xiàn)較晚,它是隨著互聯(lián)網(wǎng)支付的出現(xiàn)而出現(xiàn)的,特別是在020概念普及之后,很多實體店都開始嘗試使用線上支付的經(jīng)營策略。尤其是對于那些先消費后支付的商店而言,獲取客戶的已消費信息就非常重要。如果要對目前存在的客戶管理系統(tǒng)增加支付功能就只能從賬單打印這一環(huán)節(jié)入手,因為各種管理系統(tǒng)的實現(xiàn)千差萬別,消費信息獲取太過復雜,所以要獲取客戶消費信息只能從分析待打印的客戶賬單(打印緩沖文件)中得到,原因在于相比于各種管理系統(tǒng)的種類數(shù)量而言,打印機的種類數(shù)量要少的多。因此從軟件通用的角度來講,消費信息的采集可以從打印機入手,而對各種打印指令翻譯也就變得越來越迫切。本文從Windows操作系統(tǒng)的打印機制入手,分別以Windows標準假脫機文件(EMF)和與打印機相關的假脫機文件(以Postscript打印指令為例)為研究對象,在現(xiàn)有指令解析相關研究的基礎上,提出了基于DRAW16的EMF文件解析算法,以及將標準文本或者圖片轉(zhuǎn)換為PostScript打印指令的轉(zhuǎn)換算法。本文針對EMF矢量文字識別中遇到的各種問題均提出具體的解決方案,包括訓練集和測試集的選取、矢量特征提取、多文字記錄識別方式等。在標準文本或圖片轉(zhuǎn)換成打印指令的過程中也涉及到了多個方面的問題,比如PostScript坐標轉(zhuǎn)換、分辨率設定、字庫創(chuàng)建等。本文的研究成果對有效解決這類打印機指令翻譯以及追加有積極的推進作用。
【關鍵詞】:Postscript EMF 假脫機文件 打印指令
【學位授予單位】:中國海洋大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-11
- 1 緒論11-17
- 1.1 課題研究背景11-12
- 1.2 課題研究目標和意義12-13
- 1.2.1 課題研究目標12
- 1.2.2 課題研究意義12-13
- 1.3 打印數(shù)據(jù)解析的國內(nèi)外研究現(xiàn)狀13-15
- 1.3.1 EMF解析研究現(xiàn)狀14
- 1.3.2 PostScript解析研究現(xiàn)狀14-15
- 1.4 本文結(jié)構15-17
- 2 Windows系統(tǒng)打印原理和打印數(shù)據(jù)獲取17-27
- 2.1 Windows打印原理17-21
- 2.1.1 圖形設備接口(GDI)18-19
- 2.1.2 Windows字體庫介紹(TTF)19
- 2.1.3 假脫機系統(tǒng)(Spooling)19-20
- 2.1.4 Windows系統(tǒng)假脫機打印流程20-21
- 2.2 打印數(shù)據(jù)的獲取21-25
- 2.2.1 打印數(shù)據(jù)的分類21-22
- 2.2.2 標準假脫機文件(EMF)打印內(nèi)容獲取22-24
- 2.2.3 原始打印類型的假脫機文件(PostScript)打印內(nèi)容獲取24-25
- 2.3 本章小結(jié)25-27
- 3 基于DRAW16的EMF文件格式解析研究27-49
- 3.1 EMF文件格式解析方法研究27-41
- 3.1.1 EMF文件格式介紹27-29
- 3.1.2 EMF記錄類型分析29-30
- 3.1.3 EMF文本提取方法研究30-41
- 3.2 輸出文本屬性轉(zhuǎn)換算法研究41-45
- 3.2.1 EMF文本信息輸出格式41-42
- 3.2.2 屬性轉(zhuǎn)換算法設計及實現(xiàn)42-45
- 3.3 DRAW16的EMF解析算法仿真分析45-46
- 3.3.1 測試工具設計45
- 3.3.2 測試結(jié)果展示45-46
- 3.4 本章小結(jié)46-49
- 4 PS文件追加方法研究與實現(xiàn)49-79
- 4.1 PS文件機制分析49-69
- 4.1.1 PS數(shù)據(jù)對象50-51
- 4.1.2 PS棧51-52
- 4.1.3 PS對象的存儲機制52-53
- 4.1.4 PS常用操作符53-56
- 4.1.5 PS單色位圖顯示機制56-59
- 4.1.6 PS文本顯示機制59-61
- 4.1.7 PS字庫解碼方式研究61-69
- 4.2 PS信息追加方法研究69-74
- 4.2.1 PS單色位圖追加研究和實現(xiàn)69-71
- 4.2.2 PS文本信息追加研究和實現(xiàn)71-74
- 4.3 PS信息追加算法仿真測試74-78
- 4.3.1 測試工具展示74-76
- 4.3.2 測試結(jié)果展示76-78
- 4.4 本章小結(jié)78-79
- 5 總結(jié)和展望79-81
- 5.1 論文總結(jié)79
- 5.2 研究展望79-81
- 參考文獻81-83
- 附錄183-89
- 附錄289-93
- 致謝93-95
- 個人簡歷95
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張利;計算機打印數(shù)據(jù)的硬件截取[J];電子技術;1998年01期
2 許再由;;打印數(shù)據(jù)的中斷與恢復[J];微型機與應用;1990年07期
3 沈泓;從并口讀出打印數(shù)據(jù)[J];電子計算機與外部設備;1999年03期
4 劉德營,康敏;一種截取計算機打印數(shù)據(jù)的接口電路設計[J];農(nóng)機化研究;2002年04期
5 盧正東;漫談計算機管理檔案(五)——在Access2000數(shù)據(jù)庫中打印數(shù)據(jù)[J];四川檔案;2001年06期
6 擺衛(wèi)兵;如何用Visua C++實現(xiàn)在對話框中打印數(shù)據(jù)[J];電腦開發(fā)與應用;2002年04期
7 龔戈峰;陳安;胡躍明;;基于CPLD的打印數(shù)據(jù)采集系統(tǒng)[J];微計算機信息;2008年11期
8 ;實用方案[J];信息系統(tǒng)工程;2001年10期
9 李維平;;VFP編程方法打印數(shù)據(jù)報表[J];電腦編程技巧與維護;2012年14期
10 于明鑫;;如何利用ADO.NET技術打印報表[J];遼寧師專學報(自然科學版);2010年03期
中國重要報紙全文數(shù)據(jù)庫 前3條
1 ;移動互聯(lián),隨時打印[N];電腦報;2014年
2 ;打印A3幅面僅需4秒鐘[N];中國計算機報;2006年
3 玄武;PictBridge和PhotoPC DIRECT的技術介紹與應用前景[N];中國電腦教育報;2003年
中國碩士學位論文全文數(shù)據(jù)庫 前2條
1 李培然;基于打印指令的打印數(shù)據(jù)文本信息的提取和追加[D];中國海洋大學;2015年
2 賈斌;醫(yī)學影像按需打印系統(tǒng)關鍵技術研究[D];華南理工大學;2013年
,本文編號:622885
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/622885.html