基于N-gram的維、哈、柯文網(wǎng)頁文種識別研究
發(fā)布時間:2017-04-03 07:07
本文關(guān)鍵詞:基于N-gram的維、哈、柯文網(wǎng)頁文種識別研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:文種識別(Language Identification,簡稱LID)是一種識別已用于書寫各種類型的文檔的預(yù)定義的語言的過程,經(jīng)常被用作機器翻譯,分類,搜索,信息檢索中的文本處理系統(tǒng)的第一步。在我們做諸如生成詞典,配置文件,停用詞列表等一系列相關(guān)工作之前需要知道給定文本的語言類別。維吾爾文、哈薩克文和柯爾克孜文(簡稱維、哈、柯文)是新疆少數(shù)民族最常使用的三種語言,三者同屬阿爾泰語系突厥語族,屬黏著型語言,單詞的形態(tài)變化十分豐富,導(dǎo)致使用者難以避免拼寫和語法錯誤;谏鲜銮闆r,本文使用了基于N-gram的三種方法對維、哈、柯文網(wǎng)頁的文種識別進行研究,因為基于N-gram的方法是可靠的,對拼寫錯誤、語法錯誤和其它各種文本錯誤的容錯能力強,無需了解語言相關(guān)知識。本文從互聯(lián)網(wǎng)上提取2512篇維吾爾文,2137篇哈薩克文,1274篇柯爾克孜文網(wǎng)頁文本文檔,均以.txt文本格式進行保存,形成了原始的語料集。之后大致按照2:1的比例將這三種語言的語料集分成了訓(xùn)練集和測試集兩部分,分別選用N=2,3,4,5項,使用頻率統(tǒng)計方法構(gòu)建了每種語言的N-gram特征庫。使用了基于距離測量的ONG方法,基于布爾匹配的MNG方法,以及同時使用了N-gram頻率和N-gram位置的ING方法,分別選取了這三種語言N-gram特征庫中的前100,200,300,400,500個特征進行了維、哈、柯文網(wǎng)頁文種識別實驗,并使用精度、召回率和F1方法評估了這三種方法的有效性。實驗結(jié)果表明,MNG方法對三種語言的識別性能最佳,ING方法次之,ONG方法識別效果最差。整體來說,參數(shù)N=2時,三種方法的識別效果都是最好的,且三種方法均對維文的識別性能最好,哈文次之,對柯文的識別最差。基于上述工作,本文設(shè)計并實現(xiàn)了一個基于N-gram的維、哈、柯文網(wǎng)頁文種識別系統(tǒng)。
【關(guān)鍵詞】:維吾爾文、哈薩克文、柯爾克孜文 網(wǎng)頁文種識別 N-gram方法
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092;TP391.1
本文關(guān)鍵詞:基于N-gram的維、哈、柯文網(wǎng)頁文種識別研究,由筆耕文化傳播整理發(fā)布。
本文編號:283898
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/283898.html
最近更新
教材專著