分布式全文檢索系統(tǒng)中索引平臺和信息過濾的研究與應用
本文關鍵詞:中文信息檢索索引模型及相關技術研究,由筆耕文化傳播整理發(fā)布。
《中國科學技術大學》 2015年
分布式全文檢索系統(tǒng)中索引平臺和信息過濾的研究與應用
王一霈
【摘要】:隨著網(wǎng)絡時代的飛速發(fā)展,數(shù)據(jù)和信息充斥著社會生活的各個領域。人們的日常行為逐漸和網(wǎng)絡密不可分,人們利用網(wǎng)絡獲取新聞、進行社交活動和即時通訊,發(fā)送和記錄工作文檔等,這些行為產(chǎn)生的數(shù)據(jù)都被存儲在網(wǎng)絡中。由于網(wǎng)絡和大數(shù)據(jù)帶來的變革,人們?nèi)粘+@取的信息量在急速增加,人們獲取信息的方式也更為復雜和多樣。分布式計算技術和全文檢索技術是應對大數(shù)據(jù)洪流的有效工具,前者能夠負載海量數(shù)據(jù),后者能夠在大規(guī)模數(shù)據(jù)中快速檢索到有用信息。 本文的研究背景是分布式全文檢索系統(tǒng),該系統(tǒng)針對海量多格式文件進行存儲并支持快速文本檢索。系統(tǒng)采用分布式架構設計,能夠并發(fā)完成文件預處理、建立索引及存儲功能,并將文件存儲在分布式文件系統(tǒng)中。分布式全文檢索系統(tǒng)包含如下結構:文件預處理前端、分布式索引平臺、分布式文件存儲系統(tǒng)、索引管理平臺和web檢索平臺。其中,文件預處理前端和分布式索引平臺協(xié)同完成對大規(guī)模多格式文件中文本內(nèi)容的索引任務;索引管理平臺和web檢索平臺協(xié)同完成對索引文件的管理和檢索任務;分布式文件存儲系統(tǒng)負責為系統(tǒng)中的各個模塊提供文件存儲和管理支持。 本文主要設計并實現(xiàn)了分布式全文檢索系統(tǒng)中的分布式索引平臺,索引平臺基于Hadoop分布式計算庫構建,實現(xiàn)了對海量文本文檔并發(fā)建立索引。本文提出了索引平臺的基本架構,闡述了索引平臺的分布式計算過程、索引平臺中的共享與并發(fā)機制和索引評分機制等。本文還設計實現(xiàn)了文件預處理前端中的信息過濾模塊,信息過濾模塊可實現(xiàn)基于關鍵詞的文檔過濾功能,識別系統(tǒng)不需要處理的文檔。信息過濾模塊主要包括以下內(nèi)容:單模式匹配模塊、多模式匹配模塊以及與或匹配模塊。本文研究了每個模塊相關的基本算法,針對算法在中文環(huán)境下實際應用中的不足進行了改進,測試結果表明改進后的算法性能得到了進一步提升。
【關鍵詞】:
【學位授予單位】:中國科學技術大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 代紅;陳壯;;中文信息技術的基礎標準與中文編碼字符集的國際標準化[J];信息技術與標準化;2008年07期
2 費洪曉,康松林,朱小娟,謝文彪;基于詞頻統(tǒng)計的中文分詞的研究[J];計算機工程與應用;2005年07期
3 袁世忠;曹旻;王燕燕;;基于WM算法的多模式匹配改進算法WMN[J];計算機工程與應用;2007年15期
4 秦璟,高文,儲方杰;中間件技術研究[J];計算機應用研究;2003年08期
5 白俊;郭賀彬;;基于ElasticSearch的大日志實時搜索的軟件集成方案研究[J];吉林師范大學學報(自然科學版);2014年01期
6 劉衛(wèi)國;胡勇剛;;DHSWM:一種改進的WM多模式匹配算法[J];中南大學學報(自然科學版);2011年12期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 白曉梅;張福利;;校園網(wǎng)中文搜索引擎系統(tǒng)的設計[J];鞍山師范學院學報;2006年06期
2 耿新青;陶鳳梅;黃宏光;;一種基于近鄰匹配的中文分詞算法Jlppeccz[J];鞍山師范學院學報;2010年04期
3 徐光俠;封雷;涂演;李成;;基于Android和Google Maps的生活輔助系統(tǒng)的設計與實現(xiàn)[J];重慶郵電大學學報(自然科學版);2012年02期
4 蒼圣;高巍巍;馬憲敏;;中間件技術在電子商務中的應用[J];長春理工大學學報(高教版);2009年12期
5 龔躍;丁健生;韓永林;李宇宏;王玉琢;葛山;許展博;;基于Mobilink技術的數(shù)據(jù)傳輸系統(tǒng)設計與實現(xiàn)[J];長春理工大學學報;2006年04期
6 趙春紅;高希龍;王檸;趙威;劉國華;;一種應用分治策略的中文分詞方法[J];燕山大學學報;2009年05期
7 湯國鋒;徐振偉;張華熊;;基于Lucene的中文分詞技術研究[J];電腦編程技巧與維護;2012年10期
8 劉強,宋曄,王濤;基于消息中間件的網(wǎng)絡報稅系統(tǒng)的設計與實現(xiàn)[J];電腦開發(fā)與應用;2004年09期
9 康松林;施榮華;;基于信息元的教學資源組織系統(tǒng)的設計與實現(xiàn)[J];電腦與信息技術;2006年04期
10 葉敏;范金鋒;;基于二叉排序樹及中文分詞的關鍵字過濾技術[J];電力信息化;2011年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 李珺;查先進;;基于信息資源整合技術的網(wǎng)絡信息資源配置研究——以“信息孤島”現(xiàn)象為例[A];信息資源配置理論與模型研究——2009信息化與信息資源管理學術研討會專集[C];2009年
2 王芳;萬常選;;基于互信息的中文完整詞自動識別模型[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2007年
3 祁昊穎;;大數(shù)據(jù)時代電信運營商文件系統(tǒng)新思考[A];2013年中國信息通信研究新進展論文集[C];2014年
4 喬媛媛;劉芳;凌艷;尹勁松;;云計算環(huán)境下MapReduce的資源建模與性能預測[A];2013年全國通信軟件學術會議論文集[C];2013年
5 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26屆中國控制與決策會議論文集[C];2014年
6 陳佐旗;余柏蒗;吳健平;;基于GPU通用計算的遙感數(shù)據(jù)處理——以計算地表太陽輻射值為例[A];第十八屆中國環(huán)境遙感應用技術論壇論文集[C];2014年
7 李天磊;馬兆豐;;應用層協(xié)議識別中AC算法的改進[A];第十九屆全國青年通信學術年會論文集[C];2014年
8 白永超;付偉;辛陽;;基于Hadoop和Nutch的分布式搜索引擎研究與仿真[A];第十九屆全國青年通信學術年會論文集[C];2014年
9 李超越;徐國勝;;Hadoop公平調(diào)度算法的改進[A];第十九屆全國青年通信學術年會論文集[C];2014年
10 汪中琳;喬自知;郭景贊;;移動運維支撐系統(tǒng)的互聯(lián)網(wǎng)思維重構[A];2014全國無線及移動通信學術大會論文集[C];2014年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 王曉輝;基于中間件技術的黃河水環(huán)境綜合信息服務平臺研究[D];西安理工大學;2006年
2 夏天;研究性學習支持系統(tǒng)[D];華東師范大學;2007年
3 楊傳耀;中文信息檢索索引模型及相關技術研究[D];復旦大學;2007年
4 謝夏;網(wǎng)格信息服務的性能及其模擬評估[D];華中科技大學;2006年
5 王少波;面向用水戶的水資源合理配置研究[D];西安理工大學;2007年
6 張楠;Web Services管理及其在網(wǎng)絡管理中的應用[D];北京郵電大學;2008年
7 聶曉文;DHT覆蓋網(wǎng)若干基礎性問題研究[D];電子科技大學;2009年
8 桂勁松;網(wǎng)格虛擬組織的聲譽評價與可信授權研究[D];中南大學;2008年
9 陶永才;網(wǎng)格環(huán)境下作業(yè)可靠調(diào)度機制的研究[D];華中科技大學;2009年
10 張浩;基于結構化對等網(wǎng)絡的高性能計算平臺關鍵技術研究[D];華中科技大學;2009年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 馮海瑛;《萬歷野獲編》分詞理論與實踐[D];廣西師范學院;2010年
2 張燕麗;基于Winnow算法和CAPTCHA的垃圾短信過濾研究[D];鄭州大學;2010年
3 劉國峰;數(shù)據(jù)模板匹配研究及在社保審計中的應用[D];哈爾濱工程大學;2010年
4 孔勝;文本資源的知識抽取研究[D];大連理工大學;2010年
5 申安來;網(wǎng)格環(huán)境下資源發(fā)現(xiàn)決策支持算法研究[D];遼寧師范大學;2010年
6 武曉鵬;消息服務組件隊列機制的研究與設計[D];華南理工大學;2010年
7 李丹;基于規(guī)則與統(tǒng)計的漢語自動分詞研究[D];長春工業(yè)大學;2010年
8 林淥;基于新聞主題模型的熱點工作挖掘系統(tǒng)[D];浙江大學;2011年
9 薛秀珍;結構化P2P網(wǎng)絡的復雜查詢機制研究[D];昆明理工大學;2010年
10 曹亞輝;非結構文本最佳近似匹配系統(tǒng)的研究與實現(xiàn)[D];東華大學;2011年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王俊生;施運梅;張仰森;;基于Hadoop的分布式搜索引擎關鍵技術[J];北京信息科技大學學報(自然科學版);2011年04期
2 王永成,沈州,許一震;改進的多模式匹配算法[J];計算機研究與發(fā)展;2002年01期
3 孫茂松,黃昌寧,鄒嘉彥,陸方,沈達陽;利用漢字二元語法關系解決漢語自動分詞中的交集型歧義[J];計算機研究與發(fā)展;1997年05期
4 李雪;薛一波;王春露;;一種適用于大規(guī)模特征集的快速匹配算法[J];計算機工程與應用;2007年34期
5 丁承,邵志清;基于字表的中文搜索引擎分詞系統(tǒng)的設計與實現(xiàn)[J];計算機工程;2001年02期
6 張鑫,譚建龍,程學旗;一種改進的Wu-Manber多關鍵詞匹配算法[J];計算機應用;2003年07期
7 楊寒冰;趙龍;賈金原;;HBase數(shù)據(jù)庫遷移工具的設計與實現(xiàn)[J];計算機科學與探索;2013年03期
8 周麗琴,楊季文,呂強;基于Web的字詞頻統(tǒng)計程序的設計與應用[J];蘇州大學學報(自然科學);2002年01期
9 呂增輝;陶振凱;唐靜;;基于Lucene.net的對象持久化的實現(xiàn)[J];吉林師范大學學報(自然科學版);2009年01期
10 李偉勛;;Mersenne數(shù)M_p都是孤立數(shù)[J];數(shù)學研究與評論;2007年04期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 余海燕,張仲義;基于單漢字索引的全文檢索系統(tǒng)的優(yōu)化研究[J];中文信息學報;2001年04期
2 孫詠波;郭紅鋒;;天文文獻全文檢索系統(tǒng)的研究與實現(xiàn)[J];天文研究與技術;2007年03期
3 莫夫;;基于通用全文檢索系統(tǒng)的需求分析[J];電腦知識與技術;2009年21期
4 劉成;張溯柳;范晶;;統(tǒng)一新聞全文檢索系統(tǒng)的探索與實踐[J];中國傳媒科技;2010年05期
5 李云帆;韓敏;;一個多文檔全文檢索系統(tǒng)的設計與實現(xiàn)[J];中小企業(yè)管理與科技(下旬刊);2010年05期
6 梁苑苑;何婉文;王佳;;全文檢索系統(tǒng)在網(wǎng)站中的應用研究[J];電腦知識與技術;2012年04期
7 劉寧;漢字全文檢索系統(tǒng)的分析、設計 從湖北省地方志全文檢索系統(tǒng)的研制談系統(tǒng)功能及設計方法[J];現(xiàn)代圖書情報技術;1988年02期
8 加貝;“湖北省地方志全文檢索系統(tǒng)”通過鑒定[J];圖書情報知識;1990年04期
9 陳睿,陳光祚,謝新洲;湖北省地方志全文檢索系統(tǒng)(上)[J];情報理論與實踐;1991年02期
10 趙捧來;;全文檢索系統(tǒng)的實現(xiàn)方法研究[J];西安電子科技大學學報;1992年01期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 趙慧;李春明;鮑可進;;一種基于DotLucene搜索引擎的知識庫中文全文檢索系統(tǒng)[A];第二十二屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2005年
2 周小庭;;用Info Digger全文檢索系統(tǒng)構建首都師大基教中心網(wǎng)上平臺[A];OA’99辦公自動化全國學術研討暨展示會論文集[C];1999年
中國重要報紙全文數(shù)據(jù)庫 前2條
1 肖詩斌;[N];中國計算機報;2003年
2 羅懿;[N];中國企業(yè)報;2000年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 吳煒;密文全文檢索系統(tǒng)中的索引機制研究[D];華中科技大學;2009年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 何勝利;礦山法律法規(guī)全文檢索系統(tǒng)的研究與應用[D];西安建筑科技大學;2005年
2 楊鎰菲;基于云存儲的分布式全文檢索系統(tǒng)的設計與實現(xiàn)[D];華南理工大學;2012年
3 蔡晶晶;多文檔全文檢索系統(tǒng)的設計與開發(fā)[D];電子科技大學;2013年
4 王紅勝;多文檔全文檢索系統(tǒng)的設計與開發(fā)[D];電子科技大學;2010年
5 劉超;專利全文檢索系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2010年
6 李秦;基于用戶行為的全文檢索系統(tǒng)個性化推薦研究[D];西南大學;2009年
7 席敏;基于單漢字索引的全文檢索系統(tǒng)的研究與實現(xiàn)[D];西安電子科技大學;2010年
8 王磊;基于本體的語義全文檢索系統(tǒng)的研究[D];哈爾濱工程大學;2013年
9 周宇;數(shù)字化法定公務文書全文檢索系統(tǒng)研究[D];鄭州大學;2007年
10 方艷芬;多源文檔全文檢索系統(tǒng)設計與實現(xiàn)[D];華中師范大學;2009年
本文關鍵詞:中文信息檢索索引模型及相關技術研究,,由筆耕文化傳播整理發(fā)布。
本文編號:65708
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/65708.html