基于Lucene的煙草個性化搜索引擎的研究與實現(xiàn)
本文關(guān)鍵詞:基于Lucene的煙草個性化搜索引擎的研究與實現(xiàn)
更多相關(guān)文章: 全文檢索 Lucene 垂直搜索引擎 煙草 個性化搜索 用戶興趣 海量數(shù)據(jù) 網(wǎng)絡(luò)爬蟲
【摘要】:研究了Lucene搜索引擎框架在煙草行業(yè)的信息獲取和搜索方面的系統(tǒng)應(yīng)用。如何在異構(gòu)的海量數(shù)據(jù)中獲取與煙草行業(yè)相關(guān)的數(shù)據(jù)是實現(xiàn)煙草行業(yè)信息化管理技術(shù)的一個重要分支。通過對不同文件格式的數(shù)據(jù)處理、煙草行業(yè)相關(guān)站點的數(shù)據(jù)抓取、搜索引擎創(chuàng)建和數(shù)據(jù)檢索四個模塊框架來實現(xiàn)系統(tǒng)。Web頁面基于Heritrix煙草信息數(shù)據(jù)抓取,其中的非結(jié)構(gòu)化數(shù)據(jù)或者半結(jié)構(gòu)化數(shù)據(jù)和不同的文件格式通過Tika工具統(tǒng)一轉(zhuǎn)為為文本,通過Lucene對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)建索引以實現(xiàn)數(shù)據(jù)檢索,由此實現(xiàn)煙草信息搜索引擎系統(tǒng)的實現(xiàn)。
【作者單位】: 浙江理工大學(xué)信息學(xué)院;杭州出入境檢驗檢疫局;浙江理工大學(xué)機械與自動控制學(xué)院;
【關(guān)鍵詞】: 全文檢索 Lucene 垂直搜索引擎 煙草 個性化搜索 用戶興趣 海量數(shù)據(jù) 網(wǎng)絡(luò)爬蟲
【基金】:國家自然科學(xué)基金項目(51475434) 浙江檢驗檢疫局科技計劃項目(2013-ZKZ-07)
【分類號】:TP391.3
【正文快照】: 隨著Internet的迅猛發(fā)展,煙草行業(yè)的信息化管理成為煙草行業(yè)的研究重點之一。實現(xiàn)煙草行業(yè)特定領(lǐng)域垂直信息搜索是本文研究的重點,如何在網(wǎng)絡(luò)中實現(xiàn)有關(guān)煙草行業(yè)的信息抓取和檢索,在包羅萬象的文檔資源中,如何處理不同格式的文檔,如何對不同的數(shù)據(jù)源進行索引管理,如果實現(xiàn)對索
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 宋佳;諸云強;劉潤達(dá);;一種基于Lucene改進的全文檢索工具包[J];計算機工程與應(yīng)用;2008年04期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 康亞娟;;淺談?wù)緝?nèi)信息搜索系統(tǒng)[J];硅谷;2011年13期
2 康亞娟;;站內(nèi)搜索的研究與實現(xiàn)[J];信息技術(shù);2011年08期
3 王遠(yuǎn)定;梁久禎;;利用關(guān)鍵詞倒排表實時檢索中文網(wǎng)頁[J];計算機工程與應(yīng)用;2010年28期
4 龔磊;武友新;;Lucene全文檢索系統(tǒng)的研究與實現(xiàn)[J];計算機與數(shù)字工程;2010年05期
5 周錦程;王丹;;基于Lucene的全文搜索引擎研究與應(yīng)用[J];黔南民族師范學(xué)院學(xué)報;2009年03期
6 賈桂霞;李祥林;馬宏鋒;;基于Lucene的中小型WEB應(yīng)用全文檢索引擎的研究[J];自動化與儀器儀表;2011年02期
7 黃承慧;印鑒;陸寄遠(yuǎn);;一種改進的Lucene語義相似度檢索算法[J];中山大學(xué)學(xué)報(自然科學(xué)版);2011年02期
8 張俊;李魯群;周熔;;基于Lucene的搜索引擎的研究與應(yīng)用[J];計算機技術(shù)與發(fā)展;2013年06期
9 溫慧明;宮曉輝;;基于Solr的科技成果查新系統(tǒng)的構(gòu)建研究[J];計算機技術(shù)與發(fā)展;2014年06期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計[D];哈爾濱工程大學(xué);2010年
2 王紅勝;多文檔全文檢索系統(tǒng)的設(shè)計與開發(fā)[D];電子科技大學(xué);2010年
3 武毅;基于Lucene.Net的全文檢索研究與應(yīng)用[D];國防科學(xué)技術(shù)大學(xué);2011年
4 張婷;分布式網(wǎng)絡(luò)搜索引擎的研究與實現(xiàn)[D];解放軍信息工程大學(xué);2011年
5 葉繼平;基于Lucene的全文信息檢索技術(shù)的研究與應(yīng)用[D];江南大學(xué);2012年
6 趙旭;搜索引擎關(guān)鍵技術(shù)研究及性能優(yōu)化[D];江南大學(xué);2008年
7 卿竹;重慶市標(biāo)準(zhǔn)管理系統(tǒng)的設(shè)計與實現(xiàn)[D];重慶大學(xué);2008年
8 王遠(yuǎn)定;中文搜索引擎的快速檢索方法研究[D];江南大學(xué);2009年
9 張琳;基于Lucene的電子公文檢索系統(tǒng)的研究與實現(xiàn)[D];沈陽理工大學(xué);2009年
10 劉鶯迎;基于lucene中文全文檢索系統(tǒng)的研究與實現(xiàn)[D];鄭州大學(xué);2009年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前8條
1 趙汀,孟祥武;基于LUCENEAPI的中文全文數(shù)據(jù)庫設(shè)計與實現(xiàn)[J];計算機工程與應(yīng)用;2003年20期
2 陳士杰,張sソ,
本文編號:1083713
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1083713.html