基于文本信息的知識(shí)文檔管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間：2021-11-21 01:34

　　伴隨著全球信息化應(yīng)用水平的提升,智能化IT運(yùn)維管理平臺(tái)已經(jīng)成為互聯(lián)網(wǎng)企業(yè)的投資重點(diǎn),平臺(tái)被大量的數(shù)據(jù)和信息所覆蓋,造成運(yùn)維管理難度的增大,為了幫助用戶盡快解決平臺(tái)告警,并建立企業(yè)知識(shí)共享平臺(tái),設(shè)計(jì)了基于文本信息的知識(shí)文檔管理系統(tǒng)。該系統(tǒng)不僅可以為企業(yè)節(jié)省資源,還能將隱性知識(shí)轉(zhuǎn)換成顯性知識(shí)進(jìn)行存儲(chǔ)和利用。因此,該文主要是針對(duì)知識(shí)文檔管理系統(tǒng)中的開(kāi)發(fā)需求進(jìn)行設(shè)計(jì)和實(shí)現(xiàn)。首先,針對(duì)知識(shí)文檔文本信息利用率不足的問(wèn)題,對(duì)文檔格式進(jìn)行研究和分析,設(shè)計(jì)知識(shí)文檔解析模塊,分別提出了基于Stream流的PDF文檔解析和基于二進(jìn)制格式的復(fù)合文檔（storage file format,OLE）文檔解析方案,并對(duì)文本信息的提取以及轉(zhuǎn)碼等操作進(jìn)行C語(yǔ)言編程。在此基礎(chǔ)上,進(jìn)一步對(duì)PDF和DOC文檔解析結(jié)果以及模塊性能進(jìn)行測(cè)試與分析。其次,針對(duì)知識(shí)文檔安全性欠缺的弊端,設(shè)計(jì)知識(shí)文檔安全模塊,根據(jù)關(guān)鍵詞提取和文檔加密分別研究了基于多特征的TextRank關(guān)鍵詞提取算法和基于文本信息的數(shù)據(jù)加密標(biāo)準(zhǔn)（Data Encryption Standard,DES）加密算法。將提取的關(guān)鍵詞進(jìn)行預(yù)處理,進(jìn)而與DES密鑰進(jìn)行置換,...

【文章來(lái)源】：燕山大學(xué)河北省

【文章頁(yè)數(shù)】：58 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

知識(shí)文檔解析模塊整體設(shè)計(jì)框圖

示意圖,文檔結(jié)構(gòu),層次關(guān)系,文檔

PDF 是 Portable Document Forma 文檔的簡(jiǎn)稱，又稱為便攜式文檔，對(duì)于保存文本信息是非常熟悉常用的文檔格式，主要的特點(diǎn)是與平臺(tái)、硬件應(yīng)用程序無(wú)關(guān)的方式保存文字、圖像、視頻和音頻等信息，功能非常強(qiáng)大�，F(xiàn)在企業(yè)知識(shí)管理中除了用Word 對(duì)知識(shí)進(jìn)行存儲(chǔ)以外，PDF 也是主要存儲(chǔ)知識(shí)的一種主要方式。本節(jié)研究了基于 Stream 流的 PDF 文檔解析，針對(duì) PDF 文檔編程實(shí)現(xiàn)文本信息的提取。2.2.1 PDF 文檔格式研究及解析功能實(shí)現(xiàn)PDF 文檔根據(jù)其結(jié)構(gòu)可以分為文檔頭、文檔體、交叉引用表和文檔尾四部分。其中文檔頭(Header)位置位于 PDF 文檔起始位置，用于指明當(dāng)前 PDF 文檔對(duì)應(yīng)的版本號(hào)；文檔體(Body)是由多種對(duì)象組成，PDF 文檔中的內(nèi)容、格式和編碼方式都保存于此部分；交差引用表(Xreftable)用于間接對(duì)象的隨機(jī)存取，并為間接對(duì)象建立的一個(gè)地址索引表，表示偏移量；文檔尾(Trailer)是分析 PDF 文檔格式的入口，指明了文檔體的根對(duì)象(Catalog)。PDF 文檔結(jié)構(gòu)的層次關(guān)系示意如圖 2-2 所示：

解析流程,文檔,內(nèi)容

燕山大學(xué)工程碩士學(xué)位論文 PDF 文檔之前，為了避免出現(xiàn)一些不必要的錯(cuò)誤，如權(quán)限不前將解析環(huán)境搭建好，PDF 文檔的路徑是一個(gè)絕對(duì)路徑，程徑去讀取需要解析的 PDF 文檔，然后通過(guò) stat()接口函數(shù)去將其轉(zhuǎn)換成二進(jìn)制流讀入，之后是加載一些解析配置文件。在 PDF 文檔格式的分析，接下來(lái)可以對(duì) PDF 文檔文本信息進(jìn)行文檔內(nèi)容解析流程如圖 2-3 所示：

本文編號(hào)：3508493

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/guanlilunwen/glzh/3508493.html

上一篇：家族企業(yè)超額控制權(quán)對(duì)盈余管理的影響研究
下一篇：組織溝通對(duì)工作壓力的影響機(jī)制分析——應(yīng)對(duì)方式的中介作用

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文本信息的知識(shí)文檔管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)