天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向信息檢索的自適應(yīng)中文分詞系統(tǒng)

發(fā)布時(shí)間:2018-12-10 11:08
【摘要】:新詞的識(shí)別和歧義的消解是影響信息檢索系統(tǒng)準(zhǔn)確度的重要因素.提出了一種基于統(tǒng)計(jì)模型的、面向信息檢索的自適應(yīng)中文分詞算法.基于此算法,設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)全新的分詞系統(tǒng)BUAASEISEG.它能夠識(shí)別任意領(lǐng)域的各類新詞,也能進(jìn)行歧義消解和切分任意合理長(zhǎng)度的詞.它采用迭代式二元切分方法,對(duì)目標(biāo)文檔進(jìn)行在線詞頻統(tǒng)計(jì),使用離線詞頻詞典或搜索引擎的倒排索引,篩選候選詞并進(jìn)行歧義消解.在統(tǒng)計(jì)模型的基礎(chǔ)上,采用姓氏列表、量詞表以及停詞列表進(jìn)行后處理,進(jìn)一步提高了準(zhǔn)確度.通過與著名的ICTCLAS分詞系統(tǒng)針對(duì)新聞和論文進(jìn)行對(duì)比評(píng)測(cè),表明BUAASEISEG在新詞識(shí)別和歧義消解方面有明顯的優(yōu)勢(shì).
[Abstract]:The recognition of new words and the resolution of ambiguity are important factors affecting the accuracy of information retrieval system. An adaptive Chinese word segmentation algorithm based on statistical model and oriented to information retrieval is proposed. Based on this algorithm, a new word segmentation system BUAASEISEG. is designed and implemented. It can recognize all kinds of new words in any field, but also can disambiguate and divide words of any reasonable length. It uses iterative binary segmentation method to calculate the online word frequency of the target document and uses the inverted index of off-line word frequency dictionary or search engine to filter candidate words and resolve ambiguity. On the basis of the statistical model, the last name list, classifier table and stop word list are adopted to further improve the accuracy. By comparing with the famous ICTCLAS word segmentation system for news and papers, it shows that BUAASEISEG has obvious advantages in neologism recognition and ambiguity resolution.
【作者單位】: 北京航空航天大學(xué)計(jì)算機(jī)學(xué)院 北京航空航天大學(xué)計(jì)算機(jī)學(xué)院 北京航空航天大學(xué)計(jì)算機(jī)學(xué)院 北京航空航天大學(xué)計(jì)算機(jī)學(xué)院
【基金】:國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863)~~
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 張華平,劉群;基于N-最短路徑方法的中文詞語粗分模型[J];中文信息學(xué)報(bào);2002年05期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張鋒,樊孝忠;基于最大熵模型的交集型切分歧義消解[J];北京理工大學(xué)學(xué)報(bào);2005年07期

2 孫茂松,鄒嘉彥;漢語自動(dòng)分詞研究評(píng)述[J];當(dāng)代語言學(xué);2001年01期

3 周俊生;戴新宇;尹存燕;陳家駿;;基于層疊條件隨機(jī)場(chǎng)模型的中文機(jī)構(gòu)名自動(dòng)識(shí)別[J];電子學(xué)報(bào);2006年05期

4 蔡勇智;基于最大匹配分詞算法的中文詞語粗分模型[J];福建電腦;2005年09期

5 王錫江;王啟祥;陳家駿;;基于鄰接知識(shí)的漢語自動(dòng)分詞系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;1992年11期

6 劉群,張華平,俞鴻魁,程學(xué)旗;基于層疊隱馬模型的漢語詞法分析[J];計(jì)算機(jī)研究與發(fā)展;2004年08期

7 殷峰,何克抗;語句級(jí)拼音┐漢字轉(zhuǎn)換系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)研究與發(fā)展;1997年05期

8 陳其暉,應(yīng)志偉,柴佩琪;基于歧義二叉樹的漢語分詞方法[J];計(jì)算機(jī)輔助工程;1999年04期

9 李文翔,晏蒲柳,張濱,夏德麟;基于語料庫的關(guān)聯(lián)詞識(shí)別方法[J];計(jì)算機(jī)工程與應(yīng)用;2004年07期

10 張素娟,鄭慶華,胡云華,孫霞;一種面向網(wǎng)絡(luò)答疑的漢語切分歧義消除算法[J];計(jì)算機(jī)工程與應(yīng)用;2004年25期

相關(guān)會(huì)議論文 前10條

1 鄧攀;劉功申;;基于標(biāo)引信息的網(wǎng)絡(luò)新概念發(fā)現(xiàn)算法[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年

2 孫茂松;;漢語自動(dòng)分詞研究的若干最新進(jìn)展——清華大學(xué)相關(guān)工作簡(jiǎn)介[A];輝煌二十年——中國(guó)中文信息學(xué)會(huì)二十周年學(xué)術(shù)會(huì)議論文集[C];2001年

3 劉群;張浩;白碩;;中文信息處理開放平臺(tái)的設(shè)計(jì)[A];第一屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2002年

4 董強(qiáng);郝長(zhǎng)伶;董振東;;基于《知網(wǎng)》的中文語塊抽取器[A];語言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

5 李斌;;中文單字國(guó)名簡(jiǎn)稱的自動(dòng)識(shí)別[A];第二屆全國(guó)學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2004年

6 李斌;陳小荷;方芳;徐艷華;;高頻最大交集型歧義字段問題研究[A];全國(guó)第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

7 林小俊;田浩;王馨浩;杜蘊(yùn)璇;許敏;吳璽宏;遲惠生;;語言模型訓(xùn)練語料處理方法及解碼詞典的設(shè)計(jì)[A];第八屆全國(guó)人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2005年

8 孫承杰;黃昌寧;關(guān)毅;;基于標(biāo)注語料庫的組合歧義檢測(cè)與消解[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

9 何中軍;劉群;林守勛;;統(tǒng)計(jì)機(jī)器翻譯中短語切分的新方法[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

10 陳曉蘇;鄒園斌;張文珂;;全切分圖與路徑表達(dá)式在分詞算法中的應(yīng)用[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

相關(guān)博士學(xué)位論文 前10條

1 鄭澤芝;基于動(dòng)態(tài)流通語料庫(DCC)的漢語字母詞語識(shí)別及考察研究[D];北京語言大學(xué);2005年

2 王建會(huì);中文信息處理中若干關(guān)鍵技術(shù)的研究[D];復(fù)旦大學(xué);2004年

3 余傳明;基于本體的語義信息系統(tǒng)研究[D];武漢大學(xué);2005年

4 賀前華;漢語自動(dòng)分詞及機(jī)器翻譯研究[D];華南理工大學(xué);1993年

5 曹海龍;基于詞匯化統(tǒng)計(jì)模型的漢語句法分析研究[D];哈爾濱工業(yè)大學(xué);2006年

6 馮敏萱;論漢英平行語料的平行處理[D];南京師范大學(xué);2006年

7 張亮;面向開放域的中文問答系統(tǒng)問句處理相關(guān)技術(shù)研究[D];南京理工大學(xué);2006年

8 張華平;語言淺層分析與句子級(jí)新信息檢測(cè)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年

9 郭永輝;英漢機(jī)器翻譯系統(tǒng)關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2006年

10 趙小兵;基于動(dòng)態(tài)流通語料庫的現(xiàn)代漢語基本詞匯自動(dòng)識(shí)別與提取方法研究[D];北京語言大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 李曉丹;限定領(lǐng)域內(nèi)基于web的智能問答系統(tǒng)[D];內(nèi)蒙古大學(xué);2005年

2 袁亮;一個(gè)基于WEB的信息組織與檢索模型(WIORS)研究[D];武漢大學(xué);2005年

3 何燕;任意類型的未登錄詞的識(shí)別研究[D];北京語言文化大學(xué);2000年

4 婁(王廷);現(xiàn)代漢語分詞系統(tǒng)通用性設(shè)計(jì)及切分歧義處理[D];北京工業(yè)大學(xué);2000年

5 黃艷;面向數(shù)字化產(chǎn)品的自然語言查詢技術(shù)的研究與開發(fā)[D];浙江大學(xué);2002年

6 繆曉陽;WebCM:一種基于搜索引擎的網(wǎng)絡(luò)內(nèi)容監(jiān)控系統(tǒng)的研究[D];浙江大學(xué);2002年

7 廉竹鈞;漢語組合型切分歧義字段消歧方法研究[D];北京語言文化大學(xué);2002年

8 馬東坡;Internet中文智能搜索引擎漢語自動(dòng)分詞系統(tǒng)設(shè)計(jì)[D];廣西師范大學(xué);2002年

9 胡蓉;中文Web文檔傾向性自動(dòng)分類研究[D];四川大學(xué);2003年

10 劉建舟;術(shù)語自動(dòng)抽取系統(tǒng)的設(shè)計(jì)及關(guān)鍵技術(shù)研究[D];華中師范大學(xué);2004年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 周強(qiáng);規(guī)則和統(tǒng)計(jì)相結(jié)合的漢語詞類標(biāo)注方法[J];中文信息學(xué)報(bào);1995年03期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李學(xué)俊;;基于分詞算法&VSM的文本主觀題自動(dòng)評(píng)分算法研究[J];電腦知識(shí)與技術(shù);2011年25期

2 史曉東;盧亞軍;;央金藏文分詞系統(tǒng)[J];中文信息學(xué)報(bào);2011年04期

3 申兵一;鞏青歌;;中文分詞技術(shù)在搜索引擎中的應(yīng)用研究[J];計(jì)算機(jī)與網(wǎng)絡(luò);2010年01期

4 周拴龍;;Lucene.net中文分詞算法分析[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2011年03期

5 高東平;;基于類型論的漢語分詞系統(tǒng)TTCS[J];重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué));2011年08期

6 趙珂;逯鵬;李永強(qiáng);;基于Lucene的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2011年16期

7 劉新生;厲錕;;基于BP神經(jīng)網(wǎng)絡(luò)的旅游突發(fā)事件文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2011年07期

8 達(dá)吾勒·阿布都哈依爾;海拉提·克孜爾別克;;基于規(guī)則的哈薩克語詞干提取算法的研究[J];新疆大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期

9 劉興林;鄭啟倫;馬千里;;中文合成詞識(shí)別及分詞修正[J];計(jì)算機(jī)應(yīng)用研究;2011年08期

10 陳國(guó)華;湯庸;彭澤武;李建國(guó);;基于學(xué)術(shù)社區(qū)的學(xué)術(shù)搜索引擎設(shè)計(jì)[J];計(jì)算機(jī)科學(xué);2011年08期

相關(guān)會(huì)議論文 前10條

1 孫茂松;;分詞國(guó)際標(biāo)準(zhǔn)中的核心概念體系[A];民族語言文字信息技術(shù)研究——第十一屆全國(guó)民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

2 王蘭成;田梅;侯雙;;PLS:一種基于信息自動(dòng)標(biāo)引的最小推進(jìn)分詞算法及其實(shí)現(xiàn)[A];第十九屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

3 杜超華;沈威;姚雙云;;基于復(fù)句語料庫的分詞系統(tǒng)的研究[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

4 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機(jī):中文分詞研究的新思維[A];中國(guó)計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

5 蘇亮;孫斌;;一種基于Lucene的Hash改進(jìn)中文分詞算法的實(shí)現(xiàn)[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2007年

6 何賽克;王小捷;董遠(yuǎn);張韜政;白雪;;歸一化的鄰接類別方法在基于條件隨機(jī)場(chǎng)的中文分詞中的應(yīng)用[A];中國(guó)計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

7 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

8 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國(guó)計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

9 王屹林;朱慕華;朱靖波;;針對(duì)SVM中文分詞特性的個(gè)性化后處理設(shè)計(jì)[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

10 陳曉;;中文文本自動(dòng)分詞研究述要[A];第四屆全國(guó)語言文字應(yīng)用學(xué)術(shù)研討會(huì)論文集[C];2005年

相關(guān)博士學(xué)位論文 前6條

1 張京楣;基于統(tǒng)計(jì)方法的文本風(fēng)格分析研究[D];山東大學(xué);2012年

2 劉濤;現(xiàn)代信息檢索中的文本分類及圖像恢復(fù)研究[D];北京郵電大學(xué);2006年

3 陳博;WEB文本情感分類中關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年

4 黃魏;植物營(yíng)養(yǎng)診斷自動(dòng)應(yīng)答網(wǎng)絡(luò)專家系統(tǒng)研究[D];華中農(nóng)業(yè)大學(xué);2007年

5 李志國(guó);面向分布式文本知識(shí)管理的中文分詞與文本分類研究[D];重慶大學(xué);2008年

6 田學(xué)東;光學(xué)公式識(shí)別技術(shù)研究[D];河北大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 林冬盛;中文分詞算法的研究與實(shí)現(xiàn)[D];西北大學(xué);2011年

2 刁毓;基于本體的中文分詞算法的研究與實(shí)現(xiàn)[D];曲阜師范大學(xué);2012年

3 朱世猛;中文分詞算法的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2011年

4 韓雪冬;基于CRFs的中文分詞算法研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2010年

5 王凱;中文分詞算法在工程建設(shè)材料搜索中的研究與應(yīng)用[D];大連交通大學(xué);2010年

6 馬東;基于Nutch搜索引擎的中文分詞算法研究與實(shí)現(xiàn)[D];內(nèi)蒙古農(nóng)業(yè)大學(xué);2011年

7 張小歡;中文分詞系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D];電子科技大學(xué);2010年

8 劉延吉;基于詞典的中文分詞歧義算法研究[D];東北師范大學(xué);2009年

9 付敏;一個(gè)改進(jìn)的中文分詞算法及其在Lucene中的應(yīng)用[D];華中科技大學(xué);2010年

10 賀艷艷;基于詞表結(jié)構(gòu)的中文分詞算法研究[D];中國(guó)地質(zhì)大學(xué)(北京);2007年

,

本文編號(hào):2370467

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2370467.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3807a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com