基于Lucene的中文分詞技術(shù)研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Lucene的中文分詞技術(shù)研究與實(shí)現(xiàn)
更多相關(guān)文章: 中文分詞 Lucene 哈希 排序算法
【摘要】:信息技術(shù)的快速發(fā)展推動(dòng)了互聯(lián)網(wǎng)的信息的不斷豐富和搜索引擎技術(shù)的加速發(fā)展,作為信息檢索之一的中文分詞技術(shù)顯得尤為重要,中文分詞技術(shù)促進(jìn)了全文檢索技術(shù)的發(fā)展。Lucene便是隨著這一過(guò)程而產(chǎn)生發(fā)展的。Lucene是由apache公司開(kāi)發(fā)的一個(gè)開(kāi)源工具包,其目的是為了實(shí)現(xiàn)全文檢索。但在具體的實(shí)現(xiàn)上,它仍有很多改進(jìn)的地方,尤其是在對(duì)中文信息的處理上。所以本文的研究重點(diǎn)是Lucene的中文分詞技術(shù)。 在對(duì)Lucene進(jìn)行深入研究后,本文提出Lucene的字符串匹配的改進(jìn)算法——正向最大增字匹配算法,該算法分詞結(jié)果更加準(zhǔn)確,在此基礎(chǔ)上,下文構(gòu)造一種Lucene的分析器MyChAnalzyer,該分析器的核心模塊是基于詞前綴的哈希逐字匹配算法的中文分詞器,通過(guò)多種方法測(cè)試該分析器的分詞性能,主要考察分詞速度和分詞精度兩個(gè)方面,其中,分詞精度方面又通過(guò)兩種測(cè)試方案來(lái)測(cè)試。從實(shí)驗(yàn)的結(jié)果來(lái)看準(zhǔn)確率比lucene自帶的分析器有較大的提高。本文最后一章提出改進(jìn)的排序結(jié)果算法,該算法是將Lucene自帶的排序結(jié)果算法與PageRank算法結(jié)合并改進(jìn)的,通過(guò)測(cè)試10個(gè)用戶(hù)對(duì)三個(gè)算法的平均滿意度來(lái)說(shuō)明改進(jìn)算法的優(yōu)越性。 最后,總結(jié)全文,對(duì)未來(lái)要進(jìn)行的工作提出了展望。
【關(guān)鍵詞】:中文分詞 Lucene 哈希 排序算法
【學(xué)位授予單位】:浙江工商大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 摘要2-4
- ABSTRACT4-8
- 第1章 緒論8-15
- 1.1 中文分詞8
- 1.2 中文分詞的研究背景8-9
- 1.3 中文分詞的研究現(xiàn)狀及意義9-11
- 1.3.1 中文分詞的處理方法9-10
- 1.3.2 中文分詞中的難題10-11
- 1.4 中文分詞的研究現(xiàn)狀及意義11-12
- 1.5 中文分詞應(yīng)用的當(dāng)前主流搜索引擎簡(jiǎn)介12-14
- 1.6 本文主要工作和思路14-15
- 第2章 Lucene分析與設(shè)計(jì)15-34
- 2.1 Lucene簡(jiǎn)介15
- 2.2 Lucene的主要功能及特點(diǎn)15-16
- 2.3 Lucene包結(jié)構(gòu)16-17
- 2.4 Lucene的系統(tǒng)結(jié)構(gòu)圖17-19
- 2.5 Lucene的索引結(jié)構(gòu)19-26
- 2.5.1 Lucene的索引分析19-23
- 2.5.2 使用Lucene進(jìn)行索引的核心算法23-24
- 2.5.3 使用Lucene實(shí)現(xiàn)檢索的核心算法24-25
- 2.5.4 Lucene索引文件格式25
- 2.5.5 倒排索引原理25-26
- 2.6 Lucene的分析器26-30
- 2.6.1 Lucene自帶的中文分詞算法26-27
- 2.6.2 改進(jìn)的中文分詞算法27-30
- 2.7 實(shí)驗(yàn)結(jié)果30-33
- 2.7.1 準(zhǔn)備工作30
- 2.7.2 運(yùn)行環(huán)境30-33
- 2.7.3 結(jié)果比較33
- 2.8 本章小結(jié)33-34
- 第3章 中文分詞模塊的設(shè)計(jì)34-50
- 3.1 MyChAnalyzer的構(gòu)造過(guò)程34-36
- 3.2 分詞詞典的構(gòu)造與維護(hù)36-39
- 3.3 分詞算法詳述39-43
- 3.3.1 變量說(shuō)明39
- 3.3.2 算法主要核心思想39-40
- 3.3.3 算法實(shí)現(xiàn)40-43
- 3.4 實(shí)驗(yàn)結(jié)果43-49
- 3.4.1 分詞器速度測(cè)試43-44
- 3.4.2 精度測(cè)試44-48
- 3.4.3 分詞系統(tǒng)比較48-49
- 3.5 本章小結(jié)49-50
- 第4章 Lucene的結(jié)果排序算法改進(jìn)50-58
- 4.1 以頁(yè)面內(nèi)容為基礎(chǔ)的算法50-51
- 4.2 PageRank算法的提出51-52
- 4.3 PageRank基本原理52-54
- 4.4 Direct Hit算法54-55
- 4.5 Lucene排序結(jié)果的改進(jìn)算法55-56
- 4.6 算法分析56-58
- 第5章 總結(jié)與展望58-59
- 5.1 總結(jié)58
- 5.2 展望58-59
- 參考文獻(xiàn)59-62
- 附錄A:中文分詞程序62-66
- 本文作者碩士期間的科研成果66-67
- 致謝67-68
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李向陽(yáng),張亞非;一種Hash高速分詞算法[J];解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年02期
2 羅智勇;宋柔;;現(xiàn)代漢語(yǔ)通用分詞系統(tǒng)中歧義切分的實(shí)用技術(shù)[J];計(jì)算機(jī)研究與發(fā)展;2006年06期
3 譚瓊,史忠植;分詞中的歧義處理[J];計(jì)算機(jī)工程與應(yīng)用;2002年11期
4 郎小偉;王申康;;基于Lucene的全文檢索系統(tǒng)研究與開(kāi)發(fā)[J];計(jì)算機(jī)工程;2006年04期
5 馬玉春,宋瀚濤;Web中文文本分詞技術(shù)研究[J];計(jì)算機(jī)應(yīng)用;2004年04期
6 李志蜀,李果;中文搜索引擎的原理剖析及開(kāi)發(fā)實(shí)現(xiàn)技術(shù)[J];計(jì)算機(jī)應(yīng)用研究;2001年11期
7 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機(jī)制——雙字哈希機(jī)制[J];中文信息學(xué)報(bào);2003年04期
8 韓艷;林煜熙;姚建民;;基于統(tǒng)計(jì)信息的未登錄詞的擴(kuò)展識(shí)別方法[J];中文信息學(xué)報(bào);2009年03期
9 孫西全;馬瑞芳;李燕靈;;基于Lucene的信息檢索的研究與應(yīng)用[J];情報(bào)理論與實(shí)踐;2006年01期
10 閆引堂,周曉強(qiáng);交集型歧義字段切分方法研究[J];情報(bào)學(xué)報(bào);2000年06期
,本文編號(hào):698123
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/698123.html