天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

全文檢索系統(tǒng)中文件預(yù)處理技術(shù)研究

發(fā)布時(shí)間:2018-04-09 02:06

  本文選題:全文檢索 切入點(diǎn):消息隊(duì)列 出處:《中國(guó)科學(xué)技術(shù)大學(xué)》2017年碩士論文


【摘要】:隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,人類(lèi)社會(huì)的數(shù)據(jù)量呈爆發(fā)式增長(zhǎng),信息檢索就是研究如何在這些信息中快速有效地檢索到有用信息。網(wǎng)絡(luò)上獲取的信息形式多樣,其中半結(jié)構(gòu)化和非結(jié)構(gòu)化形式的信息占據(jù)了很大一部分,對(duì)于結(jié)構(gòu)化信息的檢索可以使用數(shù)據(jù)庫(kù)技術(shù),而對(duì)于非結(jié)構(gòu)化信息的檢索卻缺乏有用的工具,因此全文檢索技術(shù)應(yīng)運(yùn)而生。全文檢索系統(tǒng)主要由文本預(yù)處理、索引建立、索引管理和web檢索平臺(tái)等多個(gè)部分組成。本文主要對(duì)全文檢索系統(tǒng)中文件預(yù)處理模塊用到的相關(guān)技術(shù)進(jìn)行研究,主要包括文件實(shí)時(shí)監(jiān)控、文件類(lèi)型識(shí)別、文本內(nèi)容提取等。該模塊使用Inotify機(jī)制對(duì)數(shù)據(jù)源實(shí)時(shí)監(jiān)控,將監(jiān)控到的文件路徑提交至基于高級(jí)消息隊(duì)列協(xié)議實(shí)現(xiàn)的消息隊(duì)列中,依次識(shí)別文件類(lèi)型,根據(jù)不同文件類(lèi)型使用不同的接口提取文件的文本內(nèi)容。最后準(zhǔn)備大量文件對(duì)預(yù)處理模塊的功能和性能進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明該模塊具有較高的識(shí)別正確率和較好的文本提取完整度,基本滿足設(shè)計(jì)要求。本文對(duì)基于內(nèi)容的文件類(lèi)型識(shí)別算法進(jìn)行了研究,將文件內(nèi)容按字節(jié)值劃分,使用字節(jié)值和字節(jié)值頻率建立文件的向量空間模型。識(shí)別過(guò)程使用K近鄰做分類(lèi)算法,為降低分類(lèi)過(guò)程的計(jì)算復(fù)雜度提高分類(lèi)的效率,引入了主成分分析算法和聚類(lèi)算法對(duì)樣本空間做降維處理。最后對(duì)算法進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明改進(jìn)后的算法減少了分類(lèi)時(shí)間,具有較高的分類(lèi)效率和識(shí)別正確率。本文最后研究了將信息增益特征選擇算法和TFIDF權(quán)重計(jì)算算法用于文件分類(lèi)過(guò)程,針對(duì)樣本集分布不均衡時(shí)分類(lèi)正確率下降的情況,在傳統(tǒng)算法的基礎(chǔ)上引入類(lèi)間集中度和類(lèi)內(nèi)離散度,并對(duì)權(quán)重算法和特征選擇算法進(jìn)行改進(jìn),用支持向量機(jī)做分類(lèi)算法。最后對(duì)算法進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,使用改進(jìn)后的算法分類(lèi)正確率在一定程度上得到了提高。
[Abstract]:With the development of computer technology and network technology, the amount of data in human society increases explosively. Information retrieval is to study how to retrieve useful information quickly and effectively.The forms of information obtained on the network are various, among which semi-structured and unstructured forms of information occupy a large part. Database technology can be used for the retrieval of structured information.However, there is a lack of useful tools for the retrieval of unstructured information, so full-text retrieval technology emerges as the times require.Full-text retrieval system is mainly composed of text preprocessing, index building, index management and web retrieval platform.This paper mainly studies the related technologies used in the file preprocessing module in the full-text retrieval system, including file real-time monitoring, file type identification, text content extraction and so on.The module uses the Inotify mechanism to monitor the data source in real time. The monitored file path is submitted to the message queue based on the advanced message queue protocol, and the file type is recognized in turn.Use different interfaces to extract the text content of the file according to different file types.Finally, a large number of files are prepared to test the function and performance of the preprocessing module. The experimental results show that the module has higher recognition accuracy and better text extraction integrity, which basically meets the design requirements.In this paper, the content-based file type recognition algorithm is studied. The file content is divided according to the byte value, and the vector space model of the file is established by using the byte value and the byte value frequency.In order to reduce the computational complexity of the classification process, the principal component analysis (PCA) algorithm and the clustering algorithm are introduced to reduce the dimension of the sample space in order to reduce the computational complexity of the classification process.Finally, the experimental results show that the improved algorithm reduces the classification time, and has a higher classification efficiency and recognition accuracy.Finally, the information gain feature selection algorithm and the TFIDF weight calculation algorithm are used in the file classification process.Based on the traditional algorithm, the inter-class concentration and intra-class dispersion are introduced, and the weight algorithm and feature selection algorithm are improved, and the support vector machine is used as the classification algorithm.Finally, the experimental results show that the classification accuracy of the improved algorithm is improved to some extent.
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李偉;;基于知識(shí)元細(xì)粒度信息檢索研究[J];農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊;2017年02期

2 曾忠祿;;大數(shù)據(jù)分析:方向、方法與工具[J];情報(bào)理論與實(shí)踐;2017年01期

3 石軍;;智能音頻檢索技術(shù)在偵收系統(tǒng)中的應(yīng)用研究[J];通信技術(shù);2016年10期

4 孫亭;丁杰;;異構(gòu)政務(wù)信息資源集成檢索技術(shù)研究[J];計(jì)算機(jī)工程與應(yīng)用;2017年02期

5 史海蓮;;探析計(jì)算機(jī)網(wǎng)絡(luò)發(fā)展趨勢(shì)[J];科技資訊;2016年13期

6 李建中;王宏志;高宏;;大數(shù)據(jù)可用性的研究進(jìn)展[J];軟件學(xué)報(bào);2016年07期

7 馮少奇;鞏思亮;陳春明;;一種基于XML的海量視頻監(jiān)控信息檢索技術(shù)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2016年04期

8 蘇毅娟;鄧振云;程德波;宗鳴;;大數(shù)據(jù)下的快速KNN分類(lèi)算法[J];計(jì)算機(jī)應(yīng)用研究;2016年04期

9 耿麗娟;李星毅;;用于大數(shù)據(jù)分類(lèi)的KNN算法研究[J];計(jì)算機(jī)應(yīng)用研究;2014年05期

10 郭頌;馬飛;;文本分類(lèi)中信息增益特征選擇算法的改進(jìn)[J];計(jì)算機(jī)應(yīng)用與軟件;2013年08期

相關(guān)碩士學(xué)位論文 前10條

1 梅江澤;基于Solr的海量數(shù)據(jù)并行索引及搜索緩存研究[D];華中師范大學(xué);2016年

2 孟密密;基于HDFS的文件管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];東南大學(xué);2016年

3 丁蔚然;基于Solr的企業(yè)異構(gòu)信息搜索平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];東南大學(xué);2015年

4 葛強(qiáng);基于大型數(shù)據(jù)庫(kù)的智能搜索與摘要提取技術(shù)研究[D];電子科技大學(xué);2015年

5 伍岳;基于SVM的文本分類(lèi)應(yīng)用研究[D];電子科技大學(xué);2014年

6 樊小超;基于機(jī)器學(xué)習(xí)的中文文本主題分類(lèi)及情感分類(lèi)研究[D];南京理工大學(xué);2014年

7 王盧陽(yáng);基于SVM-KNN的文本分類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];東北大學(xué);2011年

8 曹鼎;文件類(lèi)型識(shí)別技術(shù)研究[D];解放軍信息工程大學(xué);2011年

9 王軍博;基于模式匹配算法的文件類(lèi)型識(shí)別技術(shù)的研究[D];解放軍信息工程大學(xué);2011年

10 劉鶯迎;基于lucene中文全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];鄭州大學(xué);2009年

,

本文編號(hào):1724356

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1724356.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)b6390***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com