天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于JAVA的小型中文分詞系統(tǒng)

發(fā)布時(shí)間:2017-09-25 14:18

  本文關(guān)鍵詞:基于JAVA的小型中文分詞系統(tǒng)


  更多相關(guān)文章: 中文分詞 詞典 最大匹配 雙哈希


【摘要】:互聯(lián)網(wǎng)信息飛速增長,網(wǎng)絡(luò)資源不斷增加,于是搜索引擎應(yīng)運(yùn)而生,它的出現(xiàn)為我們在網(wǎng)絡(luò)上搜集我們所需要的資源提供了很大的方便,但是人們并不滿足于早期的搜索引擎的功能和速度,于是搜索引擎開始不斷地被更新和完善,而分詞對于搜索引擎的更新和完善起著很重要的作用。分詞作為搜索引擎的重要組成部分,對搜索引擎的查找正確率以及查找速度具有很大的影響。它將用戶輸入的語句分割成一個(gè)個(gè)詞語和單字,這樣檢索程序就能很容易地理解用戶所需要的信息,從而為用戶返回正確且有價(jià)值的信息資料。本文通過對正向最大匹配、逆向最大匹配等分詞算法以及詞典的整詞二分、TRIE索引樹、逐字二分和雙哈希構(gòu)造方法進(jìn)行理論分析,了解各種分詞算法和詞典構(gòu)造方法的優(yōu)點(diǎn)和缺點(diǎn),并用Java編程實(shí)現(xiàn)正向最大匹配、逆向最大匹配的分詞算法以及一維線性表、首字哈希、雙哈希三種詞典構(gòu)造方法,最終整合實(shí)現(xiàn)了Java分詞系統(tǒng)。
【作者單位】: 河北大學(xué)附屬醫(yī)院;
【關(guān)鍵詞】中文分詞 詞典 最大匹配 雙哈希
【分類號(hào)】:TP391.1
【正文快照】: 一、緒論對于搜索引擎來說,最重要的并不是找到所有結(jié)果,因?yàn)樵谏习賰|的網(wǎng)頁中找到所有結(jié)果沒有太多的意義,也沒有人能看得完,最重要的是把最相關(guān)的結(jié)果排在最前面,這也稱為相關(guān)度排序。中文分詞的準(zhǔn)確與否,常常直接影響到對搜索結(jié)果的相關(guān)度排序。例如在搜索引擎上輸入“和

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前4條

1 孫茂松,左正平,黃昌寧;漢語自動(dòng)分詞詞典機(jī)制的實(shí)驗(yàn)研究[J];中文信息學(xué)報(bào);2000年01期

2 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機(jī)制——雙字哈希機(jī)制[J];中文信息學(xué)報(bào);2003年04期

3 李江波;周強(qiáng);陳祖舜;;漢語詞典的快速查詢算法研究[J];中文信息學(xué)報(bào);2006年05期

4 陳小荷;自動(dòng)分詞中未登錄詞問題的一攬子解決方案[J];語言文字應(yīng)用;1999年03期

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 高艷萍;于紅;尹祥貴;綦孝姬;王春永;趙志強(qiáng);;基于雙數(shù)組Trie樹的漁業(yè)領(lǐng)域分詞研究[J];安徽農(nóng)業(yè)科學(xué);2008年11期

2 胡錫衡;;正向最大匹配法在中文分詞技術(shù)中的應(yīng)用[J];鞍山師范學(xué)院學(xué)報(bào);2008年02期

3 胡順義;趙曉凡;;基于PB的漢語電子詞典管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];安陽師范學(xué)院學(xué)報(bào);2010年05期

4 馬志強(qiáng);周長勝;丁維;楊娜;;校園網(wǎng)搜索引擎的研究與實(shí)現(xiàn)[J];北京機(jī)械工業(yè)學(xué)院學(xué)報(bào);2007年01期

5 張林曼;吳升;;地理編碼系統(tǒng)中地名地址分詞算法研究[J];測繪科學(xué);2010年02期

6 周蕾;;基于碎片分詞的未登錄詞識(shí)別方法[J];常熟理工學(xué)院學(xué)報(bào);2007年02期

7 張霄軍;陳小荷;;面向世博語言信息處理的漢英機(jī)器詞典[J];辭書研究;2007年04期

8 田占霄;韓憲忠;王克儉;;一種改進(jìn)的長詞優(yōu)先逆向最大匹配分詞消歧策略[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2009年04期

9 趙春紅;高希龍;王檸;趙威;劉國華;;一種應(yīng)用分治策略的中文分詞方法[J];燕山大學(xué)學(xué)報(bào);2009年05期

10 于源,衣襲;中文全切分快速分詞方法[J];大連鐵道學(xué)院學(xué)報(bào);2005年02期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條

1 黃建華;常守鋒;董晶晶;;面向北斗短報(bào)文的中文分詞及壓縮編碼算法[A];第三屆中國衛(wèi)星導(dǎo)航學(xué)術(shù)年會(huì)電子文集——S02衛(wèi)星導(dǎo)航信號(hào)體制及兼容與互操作[C];2012年

2 徐艷華;;面向自動(dòng)分詞的三音節(jié)新詞語構(gòu)詞法研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

3 周蕾;李培峰;朱巧明;楊季文;;碎片分詞與詞結(jié)合提取的未登錄詞識(shí)別方法[A];第六屆漢語詞匯語義學(xué)研討會(huì)論文集[C];2005年

4 陳曉;;中文文本自動(dòng)分詞研究述要[A];第四屆全國語言文字應(yīng)用學(xué)術(shù)研討會(huì)論文集[C];2005年

5 王建民;陳佳鵬;由芳;丁衛(wèi)彬;;嵌入式電子詞典快速查詢模型的研究與設(shè)計(jì)[A];第四屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2008年

6 何偉;侯敏;;利用詞匯時(shí)間分布信息提取未登錄詞[A];第九屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2007年

7 蘇亮;孫斌;;一種基于Lucene的Hash改進(jìn)中文分詞算法的實(shí)現(xiàn)[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會(huì)議論文集(上冊)[C];2007年

8 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機(jī)制[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊)[C];2007年

9 穆飛;李維佳;薛巍;舒繼武;;一種分布式信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊)[C];2007年

10 何燕;;基于單字詞轉(zhuǎn)移概率的未登錄詞識(shí)別[A];自然語言理解與機(jī)器翻譯——全國第六屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2001年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 黃水清;非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)方法及在農(nóng)業(yè)經(jīng)濟(jì)學(xué)中的應(yīng)用[D];南京農(nóng)業(yè)大學(xué);2010年

2 何婷婷;語料庫研究[D];華中師范大學(xué);2003年

3 李慶虎;基于P2P架構(gòu)的網(wǎng)格文件系統(tǒng)研究[D];清華大學(xué);2004年

4 楊雨圖;支持雙語的協(xié)同CAPP系統(tǒng)若干關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2006年

5 馮敏萱;論漢英平行語料的平行處理[D];南京師范大學(xué);2006年

6 李曉光;XML非完全結(jié)構(gòu)查詢處理中若干關(guān)鍵技術(shù)的研究[D];東北大學(xué);2006年

7 張春霞;領(lǐng)域文本知識(shí)獲取方法研究及其在考古領(lǐng)域中的應(yīng)用[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年

8 姜韶華;科研項(xiàng)目管理中的文本挖掘方法研究及應(yīng)用[D];大連理工大學(xué);2006年

9 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2007年

10 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 郭瞳康;基于詞典的中文分詞技術(shù)研究[D];哈爾濱理工大學(xué);2010年

2 葛世海;基于J2EE的站群管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2010年

3 甄濤;基于社團(tuán)發(fā)現(xiàn)的Blog信息收集原型系統(tǒng)的研究[D];解放軍信息工程大學(xué);2009年

4 蔡蕊;一種新的搜索引擎分詞詞典的研究[D];山東大學(xué);2010年

5 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年

6 曹亞輝;非結(jié)構(gòu)文本最佳近似匹配系統(tǒng)的研究與實(shí)現(xiàn)[D];東華大學(xué);2011年

7 陳磊;用例圖到順序圖轉(zhuǎn)換的研究[D];西安電子科技大學(xué);2009年

8 蘭沖;基于統(tǒng)計(jì)規(guī)則的中文分詞研究[D];西安電子科技大學(xué);2011年

9 喬小斐;中文自動(dòng)文摘關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年

10 王荔;統(tǒng)計(jì)全切分中文分詞系統(tǒng)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年

【二級(jí)參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 王秀坤,李政,簡幼良,劉劍;基于Hash方法的機(jī)器翻譯詞典的組織與構(gòu)造[J];大連理工大學(xué)學(xué)報(bào);1996年03期

2 梁南元;書面漢語自動(dòng)分詞系統(tǒng)—CDWS[J];中文信息學(xué)報(bào);1987年02期

3 張俊盛,陳舜德,鄭縈,劉顯仲,柯淑津;多語料庫作法之中文姓名辨識(shí)[J];中文信息學(xué)報(bào);1992年03期

4 沈達(dá)陽,孫茂松,黃昌寧;漢語分詞系統(tǒng)中的信息集成和最佳路徑搜索方法[J];中文信息學(xué)報(bào);1997年02期

5 孫茂松,左正平,黃昌寧;漢語自動(dòng)分詞詞典機(jī)制的實(shí)驗(yàn)研究[J];中文信息學(xué)報(bào);2000年01期

6 楊文峰,陳光英,李星;基于PATRICIA tree的漢語自動(dòng)分詞詞典機(jī)制[J];中文信息學(xué)報(bào);2001年03期

7 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機(jī)制——雙字哈希機(jī)制[J];中文信息學(xué)報(bào);2003年04期

8 孫茂松,黃昌寧,高海燕,方捷;中文姓名的自動(dòng)辨識(shí)[J];中文信息學(xué)報(bào);1995年02期

9 張小衡,王玲玲;中文機(jī)構(gòu)名稱的識(shí)別與分析[J];中文信息學(xué)報(bào);1997年04期

10 孫茂松,,鄒嘉彥;漢語自動(dòng)分詞研究中的苦干理論問題[J];語言文字應(yīng)用;1995年04期

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 李躍民;王浩;趙生慧;;有詞典中文分詞算法研究[J];滁州學(xué)院學(xué)報(bào);2008年03期

2 陳燁彬;黃琳;;基于Lucene.Net的知識(shí)檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2008年11期

3 趙艷紅,費(fèi)洪曉;一個(gè)基于改進(jìn)的反序分詞詞典的中文分詞算法[J];深圳職業(yè)技術(shù)學(xué)院學(xué)報(bào);2004年04期

4 蔡勇智;基于最大匹配分詞算法的中文詞語粗分模型[J];福建電腦;2005年09期

5 孫霞,鄭慶華,王朝靜,張素娟;一種基于生語料的領(lǐng)域詞典生成方法[J];小型微型計(jì)算機(jī)系統(tǒng);2005年06期

6 陳飛;王秀峰;饒一梅;;一種混合的中文分詞算法[J];南開大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年05期

7 張恒;楊文昭;屈景輝;盧虹冰;張亮;趙飛;;基于詞典和詞頻的中文分詞方法[J];微計(jì)算機(jī)信息;2008年03期

8 梁卓明;陳炬樺;;基于專有名詞優(yōu)先的快速中文分詞[J];計(jì)算機(jī)技術(shù)與發(fā)展;2008年03期

9 黃德根;焦世斗;周惠巍;;基于子詞的雙層CRFs中文分詞[J];計(jì)算機(jī)研究與發(fā)展;2010年05期

10 王堅(jiān),趙恒永;專業(yè)搜索引擎中文分詞算法的實(shí)現(xiàn)與研究[J];福建電腦;2005年07期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條

1 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

2 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

3 王屹林;朱慕華;朱靖波;;針對SVM中文分詞特性的個(gè)性化后處理設(shè)計(jì)[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

4 蘇亮;孫斌;;一種基于Lucene的Hash改進(jìn)中文分詞算法的實(shí)現(xiàn)[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會(huì)議論文集(上冊)[C];2007年

5 王曄;黃上騰;;基于n-gram相鄰字的中文文本特征提取算法[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

6 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實(shí)現(xiàn)[A];2010年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集[C];2010年

7 穆飛;李維佳;薛巍;舒繼武;;一種分布式信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊)[C];2007年

8 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會(huì)議論文摘要集[C];2011年

9 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計(jì)量的多領(lǐng)域適應(yīng)性中文分詞方法[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

10 曾華琳;李堂秋;曹冬林;;機(jī)器輔助翻譯系統(tǒng)用詞典的管理[A];第二屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2004年

中國重要報(bào)紙全文數(shù)據(jù)庫 前10條

1 范力;有道推出桌面詞典企業(yè)版[N];科技日報(bào);2009年

2 本報(bào)記者 李響;丁磊:全力打造中文搜索引擎[N];計(jì)算機(jī)世界;2008年

3 記者 吳苡婷;用技術(shù)挖出網(wǎng)絡(luò)信息中“金子”[N];上?萍紙(bào);2009年

4 中科院計(jì)算技術(shù)研究所 呂雅娟邋付雷 黃瑾 何中軍 劉群;化繁為簡的統(tǒng)計(jì)機(jī)器翻譯技術(shù)[N];中國計(jì)算機(jī)報(bào);2007年

5 本報(bào)記者 廖劍鋒;詞典軟件告別盒裝 用戶盡享免費(fèi)翻譯服務(wù)[N];通信信息報(bào);2011年

6 ;中英文互譯,Word XP就能干[N];中國計(jì)算機(jī)報(bào);2005年

7 寧海偉;名人CE開啟嶄新的windows學(xué)英語時(shí)代[N];中國電腦教育報(bào);2006年

8 王志軍;Google輸入法的六大特色功能[N];中國電腦教育報(bào);2007年

9 余海玲 本報(bào)記者  馬里;金山詞霸用十年典藏版賀歲[N];大眾科技報(bào);2006年

10 高雪娟;企業(yè)搜索要為決策服務(wù)[N];中國計(jì)算機(jī)報(bào);2006年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年

2 孫越恒;基于統(tǒng)計(jì)的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年

3 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年

4 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

5 陳博;WEB文本情感分類中關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年

6 丁建完;陳述式仿真模型相容性分析與約簡方法研究[D];華中科技大學(xué);2006年

7 杜偉夫;文本傾向性分析中的情感詞典構(gòu)建技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年

8 任飛亮;高適應(yīng)性基于實(shí)例的機(jī)器翻譯中關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年

9 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2006年

10 龍騰;旋轉(zhuǎn)方向無關(guān)的無約束手寫中文詞組識(shí)別[D];華南理工大學(xué);2008年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 蘇亮;基于多級(jí)Hash分詞的全文搜索引擎的研究[D];北京郵電大學(xué);2008年

2 郭慶賀;中文文本姓名識(shí)別的研究[D];東北師范大學(xué);2009年

3 崔明明;基于機(jī)器學(xué)習(xí)的中文分詞的研究與實(shí)現(xiàn)[D];沈陽工業(yè)大學(xué);2009年

4 李宏波;綜合字典和統(tǒng)計(jì)分析的中文分詞系統(tǒng)的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2010年

5 岳中原;詞典與統(tǒng)計(jì)相結(jié)合的中文分詞的研究[D];武漢理工大學(xué);2010年

6 張淑梅;詞典與后綴數(shù)組相結(jié)合的中文分詞[D];吉林大學(xué);2006年

7 何愛元;基于詞典和概率統(tǒng)計(jì)的中文分詞算法研究[D];遼寧大學(xué);2011年

8 楊彥;基于Hash結(jié)構(gòu)的機(jī)械統(tǒng)計(jì)分詞系統(tǒng)[D];中南大學(xué);2005年

9 潘照明;智能中文搜索引擎若干關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[D];浙江大學(xué);2006年

10 全俊林;面向OA系統(tǒng)的個(gè)性化搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];武漢理工大學(xué);2007年



本文編號(hào):917816

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/917816.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0f03c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com