一個(gè)基于Lucene的維文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:一個(gè)基于Lucene的維文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 搜索引擎 維文 分詞 Lucene
【摘要】:目前針對維文搜索引擎的研究還比較少,本文在開源項(xiàng)目Lucene搜索引擎的基礎(chǔ)上,通過對數(shù)據(jù)源、分詞和停用詞的設(shè)置構(gòu)造了一個(gè)實(shí)驗(yàn)性的維文搜索引擎,并針對維文的特點(diǎn)改進(jìn)了搜索方法。在手工構(gòu)造的語料上的搜索實(shí)驗(yàn)表明,基于前綴匹配的搜索方法改進(jìn)了維文搜索引擎的效果。
【作者單位】: 蘇州大學(xué)自然語言處理實(shí)驗(yàn)室;蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【關(guān)鍵詞】: 搜索引擎 維文 分詞 Lucene
【分類號】:TP391.3
【正文快照】: 1引言隨著社會經(jīng)濟(jì)的發(fā)展,新疆的網(wǎng)絡(luò)事業(yè)也得到了很大的發(fā)展,出現(xiàn)了很多具有民族特色的維文網(wǎng)站,大大豐富了網(wǎng)絡(luò)上的維文文本信息,而目前的通用搜索引擎不能很好地適合維文的特點(diǎn),因此如何進(jìn)行維文文本搜索是目前迫切需要解決的問題[1][2]。目前網(wǎng)絡(luò)上的維文文本存在著種類繁
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 古麗拉·阿東別克,米吉提·阿布力米提;維吾爾語詞切分方法初探[J];中文信息學(xué)報(bào);2004年06期
2 薛化建;董興華;王磊;吐爾洪·吾司曼;蔣同海;;基于詞綴庫的非監(jiān)督維吾爾語詞切分方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年09期
3 艾賽提江·艾拜都拉;維文搜索引擎設(shè)計(jì)及實(shí)現(xiàn)[J];新疆教育學(xué)院學(xué)報(bào);2004年04期
4 亞森·艾則孜;迪里夏提·買買提;如先故力·阿布都熱西提;;基于Google Web API的單機(jī)版維文元搜索引擎技術(shù)研究[J];信息網(wǎng)絡(luò)安全;2011年05期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳鴿;王廷梅;趙瑋;;一種新的維漢英混排文本顯示模型的設(shè)計(jì)[J];硅谷;2012年16期
2 努爾麥麥提·尤魯瓦斯;吾守爾·斯拉木;熱依曼·吐爾遜;;維吾爾語大詞匯語音識別系統(tǒng)識別單元研究[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年01期
3 魏長春;;資料搜集過程中搜索引擎合理化選擇探討[J];信息通信;2011年05期
4 古麗拉·阿東別克,艾爾肯·伊米爾;維吾爾文校對中常見錯(cuò)誤分析[J];計(jì)算機(jī)工程與應(yīng)用;2005年27期
5 趙永進(jìn);郭大慶;盧有飛;李英凡;;維文軟件中排版關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2007年22期
6 蘇建輝;程晶;蔣同海;;維、哈、柯文版Linux操作系統(tǒng)關(guān)鍵技術(shù)的設(shè)計(jì)實(shí)現(xiàn)[J];計(jì)算機(jī)科學(xué);2008年10期
7 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;維、哈、柯全文搜索引擎檢索器的關(guān)鍵技術(shù)[J];計(jì)算機(jī)工程;2008年21期
8 薛化建;董興華;周喜;吐爾洪·吾司曼;李曉;;基于子字單元的維吾爾語語音識別研究[J];計(jì)算機(jī)工程;2011年20期
9 張偉;任大明;許曉輝;趙凡;張巖;;維、哈、柯文顯示及排版技術(shù)研究[J];計(jì)算機(jī)應(yīng)用研究;2008年03期
10 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;維、哈、柯多文種全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2009年06期
中國重要會議論文全文數(shù)據(jù)庫 前9條
1 維尼拉·木沙江;吳俊森;吐爾根·依布拉音;;維吾爾文搜索引擎的倒排索引設(shè)計(jì)與實(shí)現(xiàn)[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
2 吐爾地·托合提;維尼拉·木沙江;米吉提·阿不里米提;;維吾爾文搜索引擎Web Server的實(shí)現(xiàn)[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
3 米吉提·阿不里米提;艾斯卡爾·艾木都拉;吐爾地·托合提;;維語詞法分析器研究開發(fā)[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
4 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;維、哈、柯全文搜索引擎中查詢處理研究與實(shí)現(xiàn)[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
5 李文;李淼;張建;陳雷;雪艷;;一種帶權(quán)值參數(shù)的非監(jiān)督式形態(tài)切分方法[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
6 海麗且木·艾沙;維尼拉·木沙江;;Web文本分類及其維、哈、柯多文種信息檢索中的應(yīng)用研究[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
7 王珍;維尼拉·木沙江;趙麗紅;;維、哈、柯文搜索引擎中自動(dòng)分類技術(shù)的應(yīng)用研究[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
8 倪耀群;許洪波;譚婧霞;唐慧豐;程學(xué)旗;孟丹;;基于優(yōu)化維漢雙語詞典的多語言信息檢索系統(tǒng)[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
9 通拉嘎;;漢、蒙、藏、維分詞與詞性標(biāo)注技術(shù)發(fā)展現(xiàn)狀研究[A];第五屆全國青年計(jì)算語言學(xué)研討會論文集[C];2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 麥熱哈巴·艾力;基于實(shí)例的維漢機(jī)器翻譯若干關(guān)鍵問題研究[D];新疆大學(xué);2014年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 熱依瑪依·買買提;維、哈、柯搜索引擎中基于文本的圖像檢索技術(shù)的研究[D];新疆大學(xué);2011年
2 趙倩倩;維吾爾語信息檢索[D];天津大學(xué);2012年
3 陳麗珍;維文網(wǎng)絡(luò)中不良文本信息檢索、監(jiān)控系統(tǒng)的研究[D];新疆大學(xué);2006年
4 陳鵬;基于語料庫的維吾爾語詞干提取和詞性標(biāo)注[D];新疆大學(xué);2006年
5 馬歡;基于不定長拼接單元的維吾爾語文語轉(zhuǎn)換系統(tǒng)的研究與實(shí)現(xiàn)[D];新疆大學(xué);2006年
6 張冉;主題搜索引擎的研究與設(shè)計(jì)[D];新疆大學(xué);2006年
7 蔡琴;基于HTK的維吾爾語連續(xù)數(shù)字語音識別研究[D];新疆大學(xué);2007年
8 胡顏琪;維、漢多語種農(nóng)村信息化系統(tǒng)研究與實(shí)現(xiàn)[D];新疆大學(xué);2008年
9 王珍;維、哈、柯文搜索引擎中的自動(dòng)分類技術(shù)研究[D];新疆大學(xué);2010年
10 劉俊;基于windows7的維文多語種操作系統(tǒng)本地化的研究與實(shí)現(xiàn)[D];新疆大學(xué);2012年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 亞森·艾則孜;;基于Hook技術(shù)的維吾爾文直接輸入法的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦編程技巧與維護(hù);2006年04期
2 亞森·艾則孜;;基于維文信息的計(jì)算機(jī)取證輔助工具研究[J];計(jì)算機(jī)安全;2008年03期
3 亞森·艾則孜;王斌君;;計(jì)算機(jī)取證中維文信息代碼的分析方法研究[J];中國人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
4 殷建平;漢語自動(dòng)分詞方法[J];計(jì)算機(jī)工程與科學(xué);1998年03期
5 古麗拉·阿東別克,米吉提·阿布力米提;維吾爾語詞切分方法初探[J];中文信息學(xué)報(bào);2004年06期
6 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報(bào);2007年03期
7 阿孜古麗·夏力甫;;維吾爾語動(dòng)詞附加語素的復(fù)雜特征研究[J];中文信息學(xué)報(bào);2008年03期
8 米熱古麗·艾力;米吉提·阿不力米提;艾斯卡爾·艾木都拉;;基于詞法分析的維吾爾語元音弱化算法研究[J];中文信息學(xué)報(bào);2008年04期
9 孫茂松,左正平,鄒嘉彥;高頻最大交集型歧義切分字段在漢語自動(dòng)分詞中的作用[J];中文信息學(xué)報(bào);1999年01期
10 阿布力米提.阿不都熱依木;維吾爾文信息處理平臺Open Type字體制作技術(shù)[J];計(jì)算機(jī)工程與設(shè)計(jì);2005年11期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 余川江;;基于Lucene的垂直搜索引擎的研究與實(shí)現(xiàn)[J];經(jīng)營管理者;2014年11期
2 孔維亭;閆宏印;;基于Lucene的自動(dòng)答疑系統(tǒng)的設(shè)計(jì)[J];電腦開發(fā)與應(yīng)用;2012年04期
3 喻金平;譚鳴;夏小云;;基于Lucene技術(shù)的垂直搜索引擎的研究[J];軟件導(dǎo)刊;2008年03期
4 陳忱;;Lucene排序算法的個(gè)性化改進(jìn)[J];科技與企業(yè);2012年02期
5 阮曙芬;;基于Lucene的全文搜索排序算法的研究與改進(jìn)[J];武漢紡織大學(xué)學(xué)報(bào);2013年06期
6 葛振國;李建;何林糠;吳軍;;基于Lucene的Oracle數(shù)據(jù)庫全文檢索[J];信息技術(shù);2010年03期
7 楊元峰;趙敏涯;廖黎莉;;基于Lucene的客服知識庫系統(tǒng)結(jié)構(gòu)設(shè)計(jì)[J];福建電腦;2012年01期
8 馮宇;;基于模糊層次分析法的Lucene網(wǎng)頁排序算法研究[J];計(jì)算機(jī)與現(xiàn)代化;2011年01期
9 裴志松;;基于Lucene的畢業(yè)論文相似性檢測[J];長春工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2013年04期
10 陳艷春;李雙平;;基于Lucene的企業(yè)級搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2007年08期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 朱高平;樂嘉錦;;基于刻面分類和Lucene架構(gòu)的Web服務(wù)發(fā)現(xiàn)技術(shù)的研究[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2007年
2 劉壽強(qiáng);;基于Lucene的分級鑒權(quán)企業(yè)搜索引擎研究與設(shè)計(jì)[A];第二十一次全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集[C];2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 于雪麗;LUCENE中文分詞在科研文檔全文檢索系統(tǒng)的應(yīng)用研究[D];青島大學(xué);2011年
2 孫靜;基于Lucene的手機(jī)查詢軟件的研究與實(shí)現(xiàn)[D];重慶大學(xué);2014年
3 文義;基于LUCENE的群體個(gè)性化搜索引擎研究[D];武漢理工大學(xué);2010年
4 張彬;基于lucene的搜索引擎[D];上海師范大學(xué);2010年
5 花潔;基于Lucene的搜索引擎應(yīng)用與研究[D];湖北工業(yè)大學(xué);2009年
6 成銳;基于lucene面向主題的手機(jī)搜索引擎的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2012年
7 黃江平;基于Lucene的桌面搜索引擎的研究與應(yīng)用[D];浙江理工大學(xué);2012年
8 張正龍;基于LUCENE的主題搜索引擎研究與實(shí)現(xiàn)[D];重慶大學(xué);2008年
9 楊光偉;基于Lucene的個(gè)性化搜索引擎的研究與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2009年
10 姜華;基于Lucene面向主題搜索引擎的研究與設(shè)計(jì)[D];華東師范大學(xué);2007年
,本文編號:1012559
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1012559.html