天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

MS-DOC文件文本提取研究

發(fā)布時(shí)間:2017-08-01 08:23

  本文關(guān)鍵詞:MS-DOC文件文本提取研究


  更多相關(guān)文章: 復(fù)合文檔 文本提取 關(guān)鍵詞 搜索 計(jì)算機(jī)取證


【摘要】:關(guān)鍵詞搜索廣泛應(yīng)用于情報(bào)分析、搜索引擎和計(jì)算機(jī)取證,對(duì)MS-DOC文件進(jìn)行關(guān)鍵詞搜索可能漏判,明明存在的關(guān)鍵詞卻找不到。微軟復(fù)合文檔結(jié)構(gòu)由一系列流組成,流以扇區(qū)為單位存儲(chǔ),通過(guò)目錄結(jié)構(gòu)和扇區(qū)分配表對(duì)流及其存儲(chǔ)空間進(jìn)行管理。MS-DOC文件中的文本存儲(chǔ)在WordDocument流中,文本存儲(chǔ)不一定連續(xù),通過(guò)Table流記錄分塊情況。關(guān)鍵詞可能跨越不相鄰扇區(qū),即使在相鄰扇區(qū),一個(gè)關(guān)鍵詞可能一部分是壓縮存儲(chǔ),另一部分是非壓縮存儲(chǔ),這些都是關(guān)鍵詞搜索漏判的原因。根據(jù)Table流中的分塊信息提取WordDocument流中的文本,并統(tǒng)一編碼格式,進(jìn)而進(jìn)行關(guān)鍵詞搜索,就可以避免漏判。
【作者單位】: 江蘇警官學(xué)院計(jì)算機(jī)信息與網(wǎng)絡(luò)安全系;淮安市公安局;
【關(guān)鍵詞】復(fù)合文檔 文本提取 關(guān)鍵詞 搜索 計(jì)算機(jī)取證
【基金】:國(guó)家社會(huì)科學(xué)基金資助項(xiàng)目(13BTQ046) 公安技術(shù),江蘇省高等學(xué)!笆濉敝攸c(diǎn)學(xué)科建設(shè)專項(xiàng)資金資助
【分類號(hào)】:TP391.1
【正文快照】: 1引言對(duì)MS-DOC文件進(jìn)行關(guān)鍵詞搜索可能漏判,明明存在的關(guān)鍵詞卻找不到。原因是MS-DOC文件文本分塊存儲(chǔ),且有快速保存的complex格式和非快速保存的non-complex格式。根據(jù)分塊信息提取文本,并統(tǒng)一編碼格式,就可以解決漏判。2復(fù)合文檔結(jié)構(gòu)MS-DOC文件采用復(fù)合文檔結(jié)構(gòu)[1]。復(fù)合文

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 付真真;陸偉;;基于關(guān)鍵詞的搜索引擎優(yōu)化策略及效果分析[J];現(xiàn)代圖書情報(bào)技術(shù);2009年06期

2 李洋;;圖片搜索的收納柜[J];互聯(lián)網(wǎng)周刊;2007年16期

3 陳德華;劉良旭;樂(lè)嘉錦;;支持關(guān)鍵詞搜索的空間連接查詢研究[J];計(jì)算機(jī)科學(xué);2009年07期

4 朱宏;劉嘉胤;;內(nèi)容審計(jì)系統(tǒng)關(guān)鍵詞表的改進(jìn)[J];計(jì)算機(jī)安全;2011年04期

5 阿呆;;使用自然語(yǔ)言搜索 增加搜索篩選范圍[J];電腦迷;2009年21期

6 ;挖掘聲音圖像信息——第三代搜索技術(shù)展望[J];每周電腦報(bào);2005年21期

7 呂文波;;基于網(wǎng)絡(luò)課程的自動(dòng)答疑系統(tǒng)研究與設(shè)計(jì)[J];山東電大學(xué)報(bào);2008年02期

8 ;如何提高搜索的效率 改善搜索關(guān)鍵詞的一些小技巧[J];電腦迷;2011年07期

9 閆旭;;Google Trends:新SEO工具[J];互聯(lián)網(wǎng)天地;2008年08期

10 天涯衰草;;資源找不到 超凡幫你精確定位[J];電腦迷;2011年16期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前5條

1 劉曉宇;翟曉飛;楊雨春;;計(jì)算機(jī)取證分析工具測(cè)試方法研究[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十三卷)[C];2008年

2 田翠華;王瀟;孔麗新;劉革;孫淑杰;關(guān)沫;;“隨叫隨到訂餐導(dǎo)航”系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];科技創(chuàng)新與產(chǎn)業(yè)發(fā)展(A卷)——第七屆沈陽(yáng)科學(xué)學(xué)術(shù)年會(huì)暨渾南高新技術(shù)產(chǎn)業(yè)發(fā)展論壇文集[C];2010年

3 鄭鐵然;李海洋;韓紀(jì)慶;;漢語(yǔ)語(yǔ)音檢索中基于音節(jié)和詞語(yǔ)言模型的索引方法研究[A];第九屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2007年

4 陳沛;;搜索的未來(lái)[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

5 陳憶群;曹瑾音;印鑒;;查詢擴(kuò)展樹:關(guān)系數(shù)據(jù)庫(kù)中的文本檢索[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

1 苗得雨;語(yǔ)義搜索PK關(guān)鍵詞搜索[N];電腦報(bào);2008年

2 諶力;第三代搜索,Google的心病[N];網(wǎng)絡(luò)世界;2006年

3 許麗萍;提升網(wǎng)絡(luò)營(yíng)銷成功率 中小企業(yè)應(yīng)避免五大誤區(qū)[N];通信信息報(bào);2008年

4 李文;自然語(yǔ)言搜索:Google、百度終結(jié)者?[N];中國(guó)民航報(bào);2007年

5 馬繼前;網(wǎng)頁(yè)瀏覽量5000多次[N];海南日?qǐng)?bào);2007年

6 胥小紅 本報(bào)記者  雅梓;下一代搜索輪廓初現(xiàn)Autonomy力挺中文搜索[N];大眾科技報(bào);2006年

7 陳靜;搜索引擎:智能技術(shù)帶來(lái)新商機(jī)[N];經(jīng)濟(jì)日?qǐng)?bào);2007年

8 陸文軍邋陳醇;網(wǎng)上公然賣病毒,誰(shuí)來(lái)攻打“黑客帝國(guó)”[N];新華每日電訊;2007年

9 苗得雨;挺進(jìn)圖像搜索時(shí)代[N];電腦報(bào);2008年

10 余建斌;搜索引擎“烽煙四起”[N];人民日?qǐng)?bào);2010年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前9條

1 唐明珠;關(guān)系數(shù)據(jù)庫(kù)中關(guān)鍵詞搜索算法的研究[D];黑龍江大學(xué);2013年

2 王楠;基于關(guān)系數(shù)據(jù)庫(kù)的關(guān)鍵詞搜索系統(tǒng)的研究[D];天津大學(xué);2010年

3 胡朝義;索引構(gòu)建與搜索算法的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2011年

4 馮立夫;面向?qū)徲?jì)過(guò)程的審計(jì)方法導(dǎo)引技術(shù)研究[D];哈爾濱工程大學(xué);2013年

5 顏志博;基于用戶反饋的關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵詞搜索技術(shù)研究[D];黑龍江大學(xué);2012年

6 徐興智;科技平臺(tái)撮合系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2010年

7 王文娟;智能搜索引擎在集團(tuán)企業(yè)的研究與應(yīng)用[D];浙江理工大學(xué);2012年

8 趙星;基于模板識(shí)別的中文政府文檔關(guān)聯(lián)數(shù)據(jù)提取算法[D];清華大學(xué);2012年

9 彭晴晴;面向查詢意圖的標(biāo)簽推薦技術(shù)研究[D];哈爾濱工程大學(xué);2013年



本文編號(hào):603312

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/603312.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1ba1f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com