基于單字特征和搜索引擎的新詞識別
本文選題:新詞識別 切入點(diǎn):單字詞 出處:《武漢大學(xué)學(xué)報(bào)(理學(xué)版)》2010年06期
【摘要】:新詞識別是影響搜索準(zhǔn)確率以及速率的重要因素.本文提出了一種基于統(tǒng)計(jì)模型和詞語搭配的中文新詞自動識別方法.采用條件概率的方法提取單字詞搭配特征和臨界詞特征,并采用層次結(jié)構(gòu)實(shí)現(xiàn)新詞定位以及識別.首先采用雙向最大匹配相結(jié)合的方法對文本進(jìn)行詞法粗切分,然后根據(jù)單字詞搭配得到候選新詞的位置,用臨界詞方法確定候選新詞的邊界,采用改進(jìn)Nagao串頻統(tǒng)計(jì)方法對新詞候選詞在本文內(nèi)進(jìn)行重復(fù)串統(tǒng)計(jì),對于只在文中出現(xiàn)一次的新詞則借助搜索引擎進(jìn)行確定.對新浪網(wǎng)近期的網(wǎng)絡(luò)文章進(jìn)行測試,結(jié)果表明,基于本文方法設(shè)計(jì)的系統(tǒng)可以識別不同領(lǐng)域的新詞,在低頻詞、較長的詞以及新詞語搭配方面取得了良好的效果.單字詞搭配檢查發(fā)現(xiàn)新詞位置綜合指標(biāo)F值達(dá)到96.8%.
[Abstract]:Neologism recognition is an important factor affecting search accuracy and speed.This paper presents a new Chinese word recognition method based on statistical model and word collocation.The method of conditional probability is used to extract the collocation feature and critical word feature of single word, and the hierarchical structure is used to locate and recognize new words.First of all, the text is divided into lexical coarse segments by using bidirectional maximum matching method, and then the boundary of candidate neologisms is determined by critical word method according to the location of candidate neologisms according to the collocation of single word words.The improved Nagao string frequency statistics method is used to make repeated string statistics of new word candidates in this paper, and the search engine is used to determine the new words that appear only once in this paper.The results show that the system based on this method can identify new words in different fields and has good results in low frequency words, long words and collocation.Single word collocation check found that the comprehensive index F value of neologism reached 96.8%.
【作者單位】: 武漢大學(xué)計(jì)算機(jī)學(xué)院;
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 崔世起;劉群;孟遙;于浩;西野文人;;基于大規(guī)模語料庫的新詞檢測[J];計(jì)算機(jī)研究與發(fā)展;2006年05期
2 張華平,劉群;基于N-最短路徑方法的中文詞語粗分模型[J];中文信息學(xué)報(bào);2002年05期
3 鄒綱,劉洋,劉群,孟遙,于浩,西野文人,亢世勇;面向Internet的中文新詞語檢測[J];中文信息學(xué)報(bào);2004年06期
4 王素格;楊軍玲;張武;;自動獲取漢語詞語搭配[J];中文信息學(xué)報(bào);2006年06期
5 曹勇剛;曹羽中;金茂忠;劉超;;面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J];軟件學(xué)報(bào);2006年03期
6 鄭家恒,李文花;基于構(gòu)詞法的網(wǎng)絡(luò)新詞自動識別初探[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年02期
7 王大亮;涂序彥;鄭雪峰;佟子健;;多策略融合的搭配抽取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 羅智勇;宋柔;;基于多特征的自適應(yīng)新詞識別[J];北京工業(yè)大學(xué)學(xué)報(bào);2007年07期
2 耿增民;劉萬春;朱玉文;;受限領(lǐng)域的自動文摘方法研究[J];北京理工大學(xué)學(xué)報(bào);2006年08期
3 李鈍;曹元大;萬月亮;;Internet中的新詞識別[J];北京郵電大學(xué)學(xué)報(bào);2008年01期
4 張榕;宋柔;;一種被定義項(xiàng)的識別策略[J];當(dāng)代語言學(xué);2007年01期
5 高俊波;楊靜;;在線論壇中的意見領(lǐng)袖分析[J];電子科技大學(xué)學(xué)報(bào);2007年06期
6 胡_g;蘇雪峰;;特定主題的相關(guān)概念挖掘研究與實(shí)現(xiàn)[J];電腦開發(fā)與應(yīng)用;2007年02期
7 李六杏;區(qū)鳳霞;;基于最優(yōu)屬性約簡的中文郵件過濾系統(tǒng)[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年05期
8 魏曉寧;;基于隱馬爾科夫模型的中文分詞研究[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年21期
9 張磊;張代遠(yuǎn);;中文分詞算法解析[J];電腦知識與技術(shù);2009年01期
10 劉韜;;設(shè)立切分標(biāo)志法在中文地址自動分詞中的改進(jìn)與應(yīng)用[J];電腦知識與技術(shù);2009年11期
相關(guān)會議論文 前10條
1 沈煥生;朱磊;;基于信息內(nèi)容的關(guān)鍵詞抽取研究[A];中國電子學(xué)會第十五屆信息論學(xué)術(shù)年會暨第一屆全國網(wǎng)絡(luò)編碼學(xué)術(shù)年會論文集(上冊)[C];2008年
2 趙燕平;許榕生;;基于Web的智能電子商務(wù)信息咨詢系統(tǒng)[A];第11屆全國計(jì)算機(jī)在現(xiàn)代科學(xué)技術(shù)領(lǐng)域應(yīng)用學(xué)術(shù)會議論文集[C];2003年
3 朱春江;陸宇e,
本文編號:1710144
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1710144.html