基于文本信息的知識(shí)文檔管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-11-21 01:34
伴隨著全球信息化應(yīng)用水平的提升,智能化IT運(yùn)維管理平臺(tái)已經(jīng)成為互聯(lián)網(wǎng)企業(yè)的投資重點(diǎn),平臺(tái)被大量的數(shù)據(jù)和信息所覆蓋,造成運(yùn)維管理難度的增大,為了幫助用戶盡快解決平臺(tái)告警,并建立企業(yè)知識(shí)共享平臺(tái),設(shè)計(jì)了基于文本信息的知識(shí)文檔管理系統(tǒng)。該系統(tǒng)不僅可以為企業(yè)節(jié)省資源,還能將隱性知識(shí)轉(zhuǎn)換成顯性知識(shí)進(jìn)行存儲(chǔ)和利用。因此,該文主要是針對(duì)知識(shí)文檔管理系統(tǒng)中的開(kāi)發(fā)需求進(jìn)行設(shè)計(jì)和實(shí)現(xiàn)。首先,針對(duì)知識(shí)文檔文本信息利用率不足的問(wèn)題,對(duì)文檔格式進(jìn)行研究和分析,設(shè)計(jì)知識(shí)文檔解析模塊,分別提出了基于Stream流的PDF文檔解析和基于二進(jìn)制格式的復(fù)合文檔(storage file format,OLE)文檔解析方案,并對(duì)文本信息的提取以及轉(zhuǎn)碼等操作進(jìn)行C語(yǔ)言編程。在此基礎(chǔ)上,進(jìn)一步對(duì)PDF和DOC文檔解析結(jié)果以及模塊性能進(jìn)行測(cè)試與分析。其次,針對(duì)知識(shí)文檔安全性欠缺的弊端,設(shè)計(jì)知識(shí)文檔安全模塊,根據(jù)關(guān)鍵詞提取和文檔加密分別研究了基于多特征的TextRank關(guān)鍵詞提取算法和基于文本信息的數(shù)據(jù)加密標(biāo)準(zhǔn)(Data Encryption Standard,DES)加密算法。將提取的關(guān)鍵詞進(jìn)行預(yù)處理,進(jìn)而與DES密鑰進(jìn)行置換,...
【文章來(lái)源】:燕山大學(xué)河北省
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
知識(shí)文檔解析模塊整體設(shè)計(jì)框圖
PDF 是 Portable Document Forma 文檔的簡(jiǎn)稱,又稱為便攜式文檔,對(duì)于保存文本信息是非常熟悉常用的文檔格式,主要的特點(diǎn)是與平臺(tái)、硬件應(yīng)用程序無(wú)關(guān)的方式保存文字、圖像、視頻和音頻等信息,功能非常強(qiáng)大,F(xiàn)在企業(yè)知識(shí)管理中除了用Word 對(duì)知識(shí)進(jìn)行存儲(chǔ)以外,PDF 也是主要存儲(chǔ)知識(shí)的一種主要方式。本節(jié)研究了基于 Stream 流的 PDF 文檔解析,針對(duì) PDF 文檔編程實(shí)現(xiàn)文本信息的提取。2.2.1 PDF 文檔格式研究及解析功能實(shí)現(xiàn)PDF 文檔根據(jù)其結(jié)構(gòu)可以分為文檔頭、文檔體、交叉引用表和文檔尾四部分。其中文檔頭(Header)位置位于 PDF 文檔起始位置,用于指明當(dāng)前 PDF 文檔對(duì)應(yīng)的版本號(hào);文檔體(Body)是由多種對(duì)象組成,PDF 文檔中的內(nèi)容、格式和編碼方式都保存于此部分;交差引用表(Xreftable)用于間接對(duì)象的隨機(jī)存取,并為間接對(duì)象建立的一個(gè)地址索引表,表示偏移量;文檔尾(Trailer)是分析 PDF 文檔格式的入口,指明了文檔體的根對(duì)象(Catalog)。PDF 文檔結(jié)構(gòu)的層次關(guān)系示意如圖 2-2 所示:
燕山大學(xué)工程碩士學(xué)位論文 PDF 文檔之前,為了避免出現(xiàn)一些不必要的錯(cuò)誤,如權(quán)限不前將解析環(huán)境搭建好,PDF 文檔的路徑是一個(gè)絕對(duì)路徑,程徑去讀取需要解析的 PDF 文檔,然后通過(guò) stat()接口函數(shù)去將其轉(zhuǎn)換成二進(jìn)制流讀入,之后是加載一些解析配置文件。在 PDF 文檔格式的分析,接下來(lái)可以對(duì) PDF 文檔文本信息進(jìn)行 文檔內(nèi)容解析流程如圖 2-3 所示:
本文編號(hào):3508493
【文章來(lái)源】:燕山大學(xué)河北省
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
知識(shí)文檔解析模塊整體設(shè)計(jì)框圖
PDF 是 Portable Document Forma 文檔的簡(jiǎn)稱,又稱為便攜式文檔,對(duì)于保存文本信息是非常熟悉常用的文檔格式,主要的特點(diǎn)是與平臺(tái)、硬件應(yīng)用程序無(wú)關(guān)的方式保存文字、圖像、視頻和音頻等信息,功能非常強(qiáng)大,F(xiàn)在企業(yè)知識(shí)管理中除了用Word 對(duì)知識(shí)進(jìn)行存儲(chǔ)以外,PDF 也是主要存儲(chǔ)知識(shí)的一種主要方式。本節(jié)研究了基于 Stream 流的 PDF 文檔解析,針對(duì) PDF 文檔編程實(shí)現(xiàn)文本信息的提取。2.2.1 PDF 文檔格式研究及解析功能實(shí)現(xiàn)PDF 文檔根據(jù)其結(jié)構(gòu)可以分為文檔頭、文檔體、交叉引用表和文檔尾四部分。其中文檔頭(Header)位置位于 PDF 文檔起始位置,用于指明當(dāng)前 PDF 文檔對(duì)應(yīng)的版本號(hào);文檔體(Body)是由多種對(duì)象組成,PDF 文檔中的內(nèi)容、格式和編碼方式都保存于此部分;交差引用表(Xreftable)用于間接對(duì)象的隨機(jī)存取,并為間接對(duì)象建立的一個(gè)地址索引表,表示偏移量;文檔尾(Trailer)是分析 PDF 文檔格式的入口,指明了文檔體的根對(duì)象(Catalog)。PDF 文檔結(jié)構(gòu)的層次關(guān)系示意如圖 2-2 所示:
燕山大學(xué)工程碩士學(xué)位論文 PDF 文檔之前,為了避免出現(xiàn)一些不必要的錯(cuò)誤,如權(quán)限不前將解析環(huán)境搭建好,PDF 文檔的路徑是一個(gè)絕對(duì)路徑,程徑去讀取需要解析的 PDF 文檔,然后通過(guò) stat()接口函數(shù)去將其轉(zhuǎn)換成二進(jìn)制流讀入,之后是加載一些解析配置文件。在 PDF 文檔格式的分析,接下來(lái)可以對(duì) PDF 文檔文本信息進(jìn)行 文檔內(nèi)容解析流程如圖 2-3 所示:
本文編號(hào):3508493
本文鏈接:http://www.sikaile.net/guanlilunwen/glzh/3508493.html
最近更新
教材專著