一種基于詞頻統(tǒng)計的中文分詞方法
本文關鍵詞:一種基于詞頻統(tǒng)計的中文分詞方法
更多相關文章: 分詞 基于統(tǒng)計 中文搜索引擎
【摘要】:中文分詞是中文搜索引擎中的基本任務,本文總結和分析了常用的中文分詞方法,并提出了一種基于統(tǒng)計的分詞算法。算法的原理是在文檔中抽取最長重復字串,進而得到索引項。這種分詞方法使得分詞更加簡單準確。
【作者單位】: 石家莊郵電職業(yè)技術學院;
【關鍵詞】: 分詞 基于統(tǒng)計 中文搜索引擎
【分類號】:TP391.3
【正文快照】: 1常用的文本自動標引技術在中文搜索引擎中,主題詞的自動標引一直是研究的熱點和難點。目前比較通用的自動標引技術有三種:單漢字標引,2元語法切分,分詞。單漢字標引法是用單個漢字做標引單元,采用后組配方式,標引時將概念詞分解成單個的漢字,然后在檢索時把單個漢字再組合成
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張博;姜建國;萬平國;;對互聯(lián)網(wǎng)環(huán)境下中文分詞系統(tǒng)的一種架構改進[J];計算機應用研究;2006年11期
2 夏新松;肖建國;;一種新的錯誤驅(qū)動學習方法在中文分詞中的應用[J];計算機科學;2006年03期
3 周軍;王艷紅;;一種基于詞典的中文分詞法的設計與實現(xiàn)[J];黑龍江科技信息;2008年25期
4 許高建;胡學鋼;路遙;王慶人;;一種改進的中文分詞歧義消除算法研究[J];合肥工業(yè)大學學報(自然科學版);2008年10期
5 張培穎;;運用有向圖進行中文分詞研究[J];計算機工程與應用;2009年22期
6 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機制[J];中國科學院研究生院學報;2009年05期
7 許華;;中文分詞系統(tǒng)設計之詞典構造[J];科技創(chuàng)新導報;2010年20期
8 韓月陽;鄧世昆;賈時銀;李遠方;;基于字分類的中文分詞的研究[J];計算機技術與發(fā)展;2011年07期
9 莫建文;鄭陽;首照宇;張順嵐;;改進的基于詞典的中文分詞方法[J];計算機工程與設計;2013年05期
10 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機制——雙字哈希機制[J];中文信息學報;2003年04期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設計[A];全國第22屆計算機技術與應用學術會議(CACIS·2011)暨全國第3屆安全關鍵技術與應用(SCA·2011)學術會議論文摘要集[C];2011年
2 黃昌寧;趙海;;由字構詞——中文分詞新方法[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
3 任飛亮;石磊;姚天順;;應用支持向量機進行中文分詞[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年
4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機制[A];全國網(wǎng)絡與信息安全技術研討會論文集(上冊)[C];2007年
5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細則[A];第五屆全國語言文字應用學術研討會論文集[C];2007年
6 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
7 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機:中文分詞研究的新思維[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
8 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
9 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結合的領域自適應中文分詞[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
10 王屹林;朱慕華;朱靖波;;針對SVM中文分詞特性的個性化后處理設計[A];第三屆學生計算語言學研討會論文集[C];2006年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 王荔;統(tǒng)計全切分中文分詞系統(tǒng)的研究與實現(xiàn)[D];西安電子科技大學;2009年
2 黃翼彪;開源中文分詞器的比較研究[D];鄭州大學;2013年
3 許華婷;基于Active Learning的中文分詞領域自適應方法的研究[D];北京交通大學;2015年
4 周祺;基于統(tǒng)計與詞典相結合的中文分詞的研究與實現(xiàn)[D];哈爾濱工業(yè)大學;2015年
5 曹衛(wèi)峰;中文分詞關鍵技術研究[D];南京理工大學;2009年
6 許順;中文分詞規(guī)范可計算化的研究與實現(xiàn)[D];蘇州大學;2006年
7 魏博誠;中文分詞交集型歧義處理研究[D];安徽大學;2011年
8 代聰;基于英漢平行語料的中文分詞研究與應用[D];大連理工大學;2012年
9 顧輝;基于中文分詞的購物中心微信平臺購物導航的設計與實現(xiàn)[D];華中師范大學;2015年
10 王為磊;基于多目標優(yōu)化的中文分詞模型的研究[D];蘇州大學;2008年
,本文編號:965494
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/965494.html