基于XML的全文檢索原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
[Abstract]:Aiming at the problems of low index speed, late updating and low retrieval efficiency in the search engine of the website of our country at present, this paper analyzes and studies the superior performance of Lucene and XML in establishing search engine, based on the deep analysis and research on the superior performance of such techniques as Lucene and XML in establishing the search engine. A full-text retrieval prototype system based on XML is constructed. Using XML as the general data interface and Lucene as the implementation platform, the system can achieve the purpose of fast and timely indexing and improving the retrieval efficiency.
【作者單位】: 華中師范大學(xué)信息管理系 華中師范大學(xué)信息管理系
【基金】:國(guó)家社會(huì)科學(xué)基金項(xiàng)目“基于中文XML文檔的全文檢索研究”(項(xiàng)目編號(hào):04CTQ005)的階段性研究成果之一
【分類號(hào)】:G354
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 魏應(yīng)彬,王娟;用JDOM處理XML文檔[J];福建電腦;2004年10期
2 劉群,張華平,俞鴻魁,程學(xué)旗;基于層疊隱馬模型的漢語(yǔ)詞法分析[J];計(jì)算機(jī)研究與發(fā)展;2004年08期
3 何偉;薛素靜;孔夢(mèng)榮;楊正黨;;基于Lucene的全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];情報(bào)雜志;2006年09期
4 周寧,谷宏群;基于Lucene/XML的全文檢索機(jī)制研究[J];圖書(shū)情報(bào)知識(shí);2005年03期
5 張華;董慧;;利用JDOM解析XML文檔及其在數(shù)據(jù)轉(zhuǎn)換上的應(yīng)用[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2005年11期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 于江德;王希杰;;詞位標(biāo)注漢語(yǔ)分詞技術(shù)詳解[J];安陽(yáng)師范學(xué)院學(xué)報(bào);2010年05期
2 馬志強(qiáng);周長(zhǎng)勝;丁維;楊娜;;校園網(wǎng)搜索引擎的研究與實(shí)現(xiàn)[J];北京機(jī)械工業(yè)學(xué)院學(xué)報(bào);2007年01期
3 李巍巍;;全文檢索引擎工具包Lucene的結(jié)構(gòu)與索引原理的研究[J];才智;2008年09期
4 傅鸝;孫堅(jiān);付春雷;;基于語(yǔ)義的音樂(lè)檢索系統(tǒng)[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期
5 高東平;;基于類型論的漢語(yǔ)分詞系統(tǒng)TTCS[J];重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué));2011年08期
6 曲維光;唐旭日;俞敬松;;超大規(guī)模語(yǔ)料庫(kù)精加工技術(shù)研究[J];當(dāng)代語(yǔ)言學(xué);2009年02期
7 張利;張立勇;張曉淼;耿鐵鎖;岳宗閣;;基于改進(jìn)BP網(wǎng)絡(luò)的中文歧義字段分詞方法研究[J];大連理工大學(xué)學(xué)報(bào);2007年01期
8 孫曉;黃德根;;基于最長(zhǎng)次長(zhǎng)匹配分詞的一體化中文詞法分析[J];大連理工大學(xué)學(xué)報(bào);2010年06期
9 周珍娟;張字平;陸玲;;基于Lucene2.0的電子文獻(xiàn)全文檢索系統(tǒng)[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年23期
10 魯強(qiáng);金偉祖;;基于FMM和CRFs雙層分詞模型的研究[J];電腦知識(shí)與技術(shù);2008年28期
相關(guān)會(huì)議論文 前10條
1 陳岳陽(yáng);馬學(xué)森;韓江洪;石雷;;基于JDOM實(shí)現(xiàn)XML數(shù)據(jù)備份的研究與實(shí)現(xiàn)?[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
2 于江德;王希杰;樊孝忠;;漢語(yǔ)詞法分析中上文和下文孰重孰輕[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 余驍捷;邵陽(yáng);吳及;王俠;;基于SVM和MMR融和的自動(dòng)文摘方法[A];第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(一)[C];2011年
4 李明宙;羅艷;王宗義;;Lucene全文檢索引擎的研究及應(yīng)用[A];廣西計(jì)算機(jī)學(xué)會(huì)2010年學(xué)術(shù)年會(huì)論文集[C];2010年
5 申兵一;鞏青歌;;基于Lucene桌面搜索引擎系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[A];江蘇省電子學(xué)會(huì)2010年學(xué)術(shù)年會(huì)論文集[C];2010年
6 俞鴻魁;張華平;劉群;呂學(xué)強(qiáng);施水才;;基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)'2005論文集(下冊(cè))[C];2005年
7 宋柔;;自然語(yǔ)言處理中語(yǔ)言知識(shí)的基礎(chǔ)性地位[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
8 王芳;萬(wàn)常選;;基于可信度的中文完整詞自動(dòng)識(shí)別[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
9 李恒訓(xùn);張華平;秦鵬;于滿泉;劉金剛;;基于主題詞的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
10 秦鵬;李恒訓(xùn);張華平;劉金剛;;基于關(guān)鍵詞提取的搜索結(jié)果聚類研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
相關(guān)博士學(xué)位論文 前10條
1 楊抒;基于WEB的林產(chǎn)品信息資源整合方法研究[D];北京林業(yè)大學(xué);2011年
2 劉朝濤;中文問(wèn)答系統(tǒng)中的句型理論及其應(yīng)用研究[D];重慶大學(xué);2010年
3 朱鎖玲;命名實(shí)體識(shí)別在方志內(nèi)容挖掘中的應(yīng)用研究[D];南京農(nóng)業(yè)大學(xué);2011年
4 余傳明;基于本體的語(yǔ)義信息系統(tǒng)研究[D];武漢大學(xué);2005年
5 劉云峰;基于潛在語(yǔ)義分析的中文概念檢索研究[D];華中科技大學(xué);2005年
6 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2007年
7 高紅;基于統(tǒng)計(jì)語(yǔ)言模型的漢語(yǔ)淺層分析研究[D];大連理工大學(xué);2007年
8 傅魁;基于Web的本體學(xué)習(xí)研究[D];武漢理工大學(xué);2007年
9 秦穎;漢語(yǔ)詞和短語(yǔ)的歧義消解研究[D];北京郵電大學(xué);2008年
10 陳博;WEB文本情感分類中關(guān)鍵問(wèn)題的研究[D];北京郵電大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 陳曉慧;空間信息服務(wù)管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東科技大學(xué);2010年
2 于洪霞;基于SVM的中文垃圾郵件過(guò)濾[D];哈爾濱工程大學(xué);2009年
3 程波波;基于文本的茶學(xué)本體學(xué)習(xí)方法研究[D];安徽農(nóng)業(yè)大學(xué);2010年
4 陳旭;地理編碼引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];遼寧工程技術(shù)大學(xué);2009年
5 劉偉麗;基于粒子群算法和支持向量機(jī)的中文文本分類研究[D];河南工業(yè)大學(xué);2010年
6 潘正高;基于內(nèi)容的Web新聞文本自動(dòng)分類問(wèn)題研究[D];合肥工業(yè)大學(xué);2010年
7 常富國(guó);高技術(shù)虛擬企業(yè)談判支持問(wèn)題處理系統(tǒng)研究[D];哈爾濱理工大學(xué);2010年
8 張廬穎;基于粗糙集的K-means研究[D];北京交通大學(xué);2011年
9 樊春雷;基于語(yǔ)義分析的糖尿病健康教育系統(tǒng)研究與實(shí)現(xiàn)[D];華東理工大學(xué);2011年
10 邱艷霞;領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取及關(guān)系分類研究[D];昆明理工大學(xué);2009年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前6條
1 鮑玉來(lái);用JAVA+XML實(shí)現(xiàn)網(wǎng)站全文檢索[J];高校圖書(shū)館工作;2003年06期
2 張華平,劉群;基于角色標(biāo)注的中國(guó)人名自動(dòng)識(shí)別研究[J];計(jì)算機(jī)學(xué)報(bào);2004年01期
3 葛慧;Java與XML實(shí)現(xiàn)數(shù)據(jù)抽取[J];計(jì)算機(jī)與現(xiàn)代化;2003年01期
4 梁南元;書(shū)面漢語(yǔ)自動(dòng)分詞系統(tǒng)—CDWS[J];中文信息學(xué)報(bào);1987年02期
5 張華平,劉群;基于N-最短路徑方法的中文詞語(yǔ)粗分模型[J];中文信息學(xué)報(bào);2002年05期
6 馮京桉;XML與網(wǎng)絡(luò)環(huán)境下的全文檢索[J];情報(bào)雜志;2003年10期
相關(guān)會(huì)議論文 前1條
1 高山;張艷;徐波;宗成慶;韓兆兵;;基于三元統(tǒng)計(jì)模型的漢語(yǔ)分詞及標(biāo)注一體化研究[A];自然語(yǔ)言理解與機(jī)器翻譯——全國(guó)第六屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2001年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 郭一平;向暉;王亮;;基于Lucene的Ftp搜索引擎的設(shè)計(jì)[J];圖書(shū)情報(bào)工作;2006年04期
2 孔伯煊;李祥;;基于Lucene\XML技術(shù)的Web搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J];航空計(jì)算技術(shù);2006年04期
3 黃建崗;張愛(ài)華;;教務(wù)門(mén)戶網(wǎng)自動(dòng)問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2009年36期
4 買(mǎi)日旦·吾守爾;維尼拉·木沙江;;多文種多向電子詞典軟件系統(tǒng)關(guān)鍵技術(shù)研究[J];計(jì)算機(jī)應(yīng)用與軟件;2011年04期
5 李毅,楊善林,劉業(yè)政,顧鐵軍;基于XML的網(wǎng)絡(luò)課件環(huán)境中搜索引擎的實(shí)現(xiàn)[J];武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版);2003年03期
6 蔡小艷;寇應(yīng)展;沈巍;鄭偉;;漢語(yǔ)詞法分析系統(tǒng)ICTCLAS在Nutch-0.9中的應(yīng)用與實(shí)現(xiàn)[J];軍械工程學(xué)院學(xué)報(bào);2008年05期
7 吳於茜;在平面設(shè)計(jì)軟件中實(shí)現(xiàn)SVG格式文檔輸出[J];計(jì)算機(jī)工程與應(yīng)用;2001年09期
8 張偉都,周海東,鐘共鳴,張素偉;面向XML的數(shù)據(jù)管理系統(tǒng)[J];計(jì)算機(jī)工程與應(yīng)用;2001年20期
9 李天慶,張毅,張冰,胡東成;基于XML的體育數(shù)據(jù)規(guī)格化存儲(chǔ)技術(shù)研究[J];計(jì)算機(jī)工程與應(yīng)用;2001年22期
10 張曉林;基于XML的信息組織與處理:1.XML技術(shù)體系[J];情報(bào)科學(xué);2001年08期
相關(guān)會(huì)議論文 前10條
1 郭志懋;周傲英;;XML數(shù)據(jù)的在線過(guò)濾[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
2 何震瀛;李建中;王宏志;;XML數(shù)據(jù)的關(guān)系存儲(chǔ)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 丁峰;王煜;姚延濤;沈鈞毅;;從XML模式到數(shù)據(jù)庫(kù)模式[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
4 談子敬;施伯樂(lè);;XML導(dǎo)出數(shù)據(jù)庫(kù)表的實(shí)現(xiàn)與應(yīng)用[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
5 羅道峰;孟小峰;;一種面向XML文檔的基于角色的擴(kuò)展訪問(wèn)控制方法[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
6 鄭駿;王焱;錢(qián)衛(wèi)寧;周傲英;;XML相似相關(guān)結(jié)構(gòu)庫(kù)的構(gòu)造及其應(yīng)用[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
7 吳剛;于亞新;王國(guó)仁;于戈;;并行XML文檔數(shù)據(jù)分片技術(shù)研究[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
8 王靜;孟小峰;王珊;;以目標(biāo)節(jié)點(diǎn)為導(dǎo)向的XML路徑查詢處理[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年
9 王鵬飛;洪曉光;;基于XML大文檔的動(dòng)態(tài)索引[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
10 肖冰;廖湖聲;鄭玉明;;數(shù)據(jù)集成系統(tǒng)中的XML延遲處理技術(shù)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年
相關(guān)重要報(bào)紙文章 前10條
1 秦林;《XML完全探索》[N];中華讀書(shū)報(bào);2001年
2 本報(bào)記者 李瀛寰;XML推了網(wǎng)絡(luò)一把[N];中國(guó)計(jì)算機(jī)報(bào);2000年
3 ;分化并不能阻止XML發(fā)展[N];中國(guó)計(jì)算機(jī)報(bào);2000年
4 ;為XML標(biāo)準(zhǔn)定標(biāo)準(zhǔn)[N];中國(guó)計(jì)算機(jī)報(bào);2001年
5 IDG電訊;Microsoft、IBM共同制定XML標(biāo)準(zhǔn)[N];計(jì)算機(jī)世界;2000年
6 北京郵電大學(xué) 張劍;XML與HTML的結(jié)合(上)[N];計(jì)算機(jī)世界;2001年
7 本報(bào)記者 陸 杰;XML叢林的新秀[N];中華讀書(shū)報(bào);2002年
8 侯青;國(guó)際電子商務(wù)XML/EDI特點(diǎn)及現(xiàn)狀[N];國(guó)際商報(bào);2001年
9 北京郵電大學(xué) 張劍;XML技術(shù)預(yù)覽[N];計(jì)算機(jī)世界;2001年
10 北京郵電大學(xué) 張劍;XML與HTML的結(jié)合(下)[N];計(jì)算機(jī)世界;2001年
相關(guān)博士學(xué)位論文 前10條
1 沈潔;基于自動(dòng)機(jī)的XML數(shù)據(jù)過(guò)濾研究[D];哈爾濱工程大學(xué);2010年
2 葉曉峰;基于XML的沖壓模具設(shè)計(jì)知識(shí)重用技術(shù)研究[D];華中科技大學(xué);2010年
3 殷麗鳳;不完全信息環(huán)境下XML數(shù)據(jù)庫(kù)規(guī)范化問(wèn)題的研究[D];哈爾濱理工大學(xué);2009年
4 張晨靜;XML關(guān)鍵字過(guò)濾技術(shù)[D];復(fù)旦大學(xué);2011年
5 寧博;XML查詢模式匹配及文檔過(guò)濾技術(shù)研究[D];東北大學(xué);2009年
6 汪源;XML事務(wù)模型及并發(fā)控制研究[D];浙江大學(xué);2006年
7 許建軍;對(duì)結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵字搜索研究[D];復(fù)旦大學(xué);2007年
8 劉喜平;XML文檔搜索中的查詢處理技術(shù)研究[D];江西財(cái)經(jīng)大學(xué);2010年
9 陳廷斌;基于XML/Web服務(wù)的供應(yīng)鏈信息集成技術(shù)與方法研究[D];大連理工大學(xué);2005年
10 陳亞華;企業(yè)應(yīng)用集成架構(gòu)研究與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 王忠義;基于XML的全文檢索方法及原型系統(tǒng)實(shí)現(xiàn)研究[D];華中師范大學(xué);2009年
2 王冬坡;基于Lucene的主題搜索引擎的研究與實(shí)現(xiàn)[D];河北科技大學(xué);2010年
3 張彬;基于lucene的搜索引擎[D];上海師范大學(xué);2010年
4 高欣;基于Lucene的全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];天津師范大學(xué);2010年
5 聞崢;基于Lucene的搜索引擎優(yōu)化[D];北京交通大學(xué);2011年
6 杜先撰;基于Lucene全文索引系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];南京大學(xué);2011年
7 周月紅;基于Lucene的站內(nèi)搜索引擎的設(shè)計(jì)與開(kāi)發(fā)[D];華東理工大學(xué);2011年
8 徐財(cái)應(yīng);基于Lucene的搜索引擎技術(shù)的研究與改進(jìn)[D];長(zhǎng)春理工大學(xué);2010年
9 陳航哲;基于Lucene的垂直搜索引擎的研究與應(yīng)用[D];暨南大學(xué);2010年
10 岳莉;基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D];西安電子科技大學(xué);2010年
,本文編號(hào):2213874
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2213874.html