信息檢索用漢語(yǔ)分詞與未登錄詞識(shí)別技術(shù)研究
【學(xué)位單位】:南京農(nóng)業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2007
【中圖分類】:G354
【部分圖文】:
總詞數(shù)/總詞頻 55630100882942100根據(jù)表3一1對(duì)1998年1月份人民日?qǐng)?bào)語(yǔ)料庫(kù)中詞的統(tǒng)計(jì)數(shù)據(jù),楊超等人得到該語(yǔ)料庫(kù)中出現(xiàn)的詞條數(shù)的分布信息如圖3一3所示,詞頻數(shù)的分布信息如圖3一4所示:四字及四字單字詞以上詞三字詞19%二字詞56%國(guó)國(guó)單字詞 詞...二字詞 詞口口三字詞 詞口口四字及四字以上詞詞圖3一3人民日?qǐng)?bào)語(yǔ)料庫(kù)中詞數(shù)的分布信息口三字詞口四字及四目單字詞.二字詞字以上詞田田單字詞 詞...二字詞 詞口口三字詞 詞口口四字及四字以上詞詞圖3一4人民日?qǐng)?bào)語(yǔ)料庫(kù)中詞頻的分布信息以上統(tǒng)計(jì)數(shù)據(jù)表明,在漢語(yǔ)中,單字詞與二字詞占有絕大多數(shù)。因此快速判斷單字詞與二字詞,對(duì)提高漢語(yǔ)分詞效率起著至關(guān)重要的作用。由于在漢語(yǔ)自適應(yīng)分詞算法使用的是最長(zhǎng)匹配法,以及識(shí)別的候選未登錄詞短語(yǔ)長(zhǎng)度一般都大于2,所以詞串查詢大部分為二字長(zhǎng)以上的字串在詞表里進(jìn)行局部查詢。從上面的數(shù)據(jù)統(tǒng)計(jì)分
總詞數(shù)/總詞頻 55630100882942100根據(jù)表3一1對(duì)1998年1月份人民日?qǐng)?bào)語(yǔ)料庫(kù)中詞的統(tǒng)計(jì)數(shù)據(jù),楊超等人得到該語(yǔ)料庫(kù)中出現(xiàn)的詞條數(shù)的分布信息如圖3一3所示,詞頻數(shù)的分布信息如圖3一4所示:四字及四字單字詞以上詞三字詞19%二字詞56%國(guó)國(guó)單字詞 詞...二字詞 詞口口三字詞 詞口口四字及四字以上詞詞圖3一3人民日?qǐng)?bào)語(yǔ)料庫(kù)中詞數(shù)的分布信息口三字詞口四字及四目單字詞.二字詞字以上詞田田單字詞 詞...二字詞 詞口口三字詞 詞口口四字及四字以上詞詞圖3一4人民日?qǐng)?bào)語(yǔ)料庫(kù)中詞頻的分布信息以上統(tǒng)計(jì)數(shù)據(jù)表明,在漢語(yǔ)中,單字詞與二字詞占有絕大多數(shù)。因此快速判斷單字詞與二字詞,對(duì)提高漢語(yǔ)分詞效率起著至關(guān)重要的作用。由于在漢語(yǔ)自適應(yīng)分詞算法使用的是最長(zhǎng)匹配法,以及識(shí)別的候選未登錄詞短語(yǔ)長(zhǎng)度一般都大于2,所以詞串查詢大部分為二字長(zhǎng)以上的字串在詞表里進(jìn)行局部查詢。從上面的數(shù)據(jù)統(tǒng)計(jì)分
圖4--7Car.系統(tǒng)主界面圖在分詞之前,需要進(jìn)行相關(guān)的基本配置:1)分詞算法選擇選擇分詞系統(tǒng)使用的算法,缺省為漢語(yǔ)自適應(yīng)分詞算法,也可以選擇逆向最長(zhǎng)或是正向最長(zhǎng)分詞算法。如下圖:
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張鋒,樊孝忠;基于最大熵模型的交集型切分歧義消解[J];北京理工大學(xué)學(xué)報(bào);2005年07期
2 王顯芳,杜利民;一種能夠檢測(cè)所有交叉歧義的漢語(yǔ)分詞算法[J];電子學(xué)報(bào);2004年01期
3 盧微;;隱馬爾可夫模型在自然語(yǔ)言理解研究中的應(yīng)用[J];電腦與信息技術(shù);2007年01期
4 馮素琴;陳惠明;;利用上下文信息解決漢語(yǔ)組合型歧義[J];電腦開(kāi)發(fā)與應(yīng)用;2007年01期
5 王秀坤,李政,簡(jiǎn)幼良,劉劍;基于Hash方法的機(jī)器翻譯詞典的組織與構(gòu)造[J];大連理工大學(xué)學(xué)報(bào);1996年03期
6 孫茂松,鄒嘉彥;漢語(yǔ)自動(dòng)分詞研究評(píng)述[J];當(dāng)代語(yǔ)言學(xué);2001年01期
7 揭春雨 ,劉源 ,梁南元;論漢語(yǔ)自動(dòng)分詞方法[J];中文信息學(xué)報(bào);1989年01期
8 梁南元;漢語(yǔ)計(jì)算機(jī)自動(dòng)分詞知識(shí)[J];中文信息學(xué)報(bào);1990年02期
9 孫茂松,左正平,黃昌寧;漢語(yǔ)自動(dòng)分詞詞典機(jī)制的實(shí)驗(yàn)研究[J];中文信息學(xué)報(bào);2000年01期
10 沈達(dá)陽(yáng),孫茂松,黃昌寧;漢語(yǔ)分詞系統(tǒng)中的信息集成和最佳路徑搜索方法[J];中文信息學(xué)報(bào);1997年02期
相關(guān)碩士學(xué)位論文 前2條
1 張俊;基于內(nèi)容的漢語(yǔ)文獻(xiàn)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京農(nóng)業(yè)大學(xué);2006年
2 何燕;任意類型的未登錄詞的識(shí)別研究[D];北京語(yǔ)言文化大學(xué);2000年
本文編號(hào):2869897
本文鏈接:http://www.sikaile.net/tushudanganlunwen/2869897.html