【摘要】:當(dāng)今時代隨著互聯(lián)網(wǎng)的迅速發(fā)展,我們要面對的數(shù)據(jù)信息量日漸龐大,,怎樣才能從海量的數(shù)據(jù)中選擇出我們需要的、感興趣的信息已經(jīng)成為了迫切需要解決的問題。數(shù)據(jù)挖掘技術(shù)在選擇與提取方面的重要性日漸凸現(xiàn)出來。文本挖掘是數(shù)據(jù)挖掘中的重要組成部分之一,而關(guān)鍵詞抽取是文本挖掘的重要內(nèi)容。所謂關(guān)鍵詞抽取,是指通過文本分析技術(shù),自動提取出最具有代表性的關(guān)鍵集合。關(guān)鍵詞抽取技術(shù)對自然語言處理、文本自動摘要生成、文本分類、文本聚類和信息檢索等研究都具有重要意義。當(dāng)前絕大多數(shù)關(guān)鍵詞提取技術(shù)關(guān)注對文本內(nèi)容的摘要性描述,本文研究區(qū)分性關(guān)鍵詞提取技術(shù),即所提取的關(guān)鍵詞目的是對文本具有更強的分類能力,而不是表達文本內(nèi)容本身,這一研究對稀疏性文本分類具有重要意義。 本文首先從維吾爾文網(wǎng)站中下載了1000篇文檔(500篇屬于健康類的,500篇屬于教育、計算機、軍事、房地產(chǎn)、歷史、地理等類)建立了文本語料庫。 在特征詞語提取方面,本文首先使用了基于TextRank的多文檔關(guān)鍵詞提取方法。用這一方法選出的100個關(guān)鍵詞為特征項的分類結(jié)果為80%。為了進一步提高分類精度,本文又研究了基于詞頻率/逆文檔頻率(TF/IDF)區(qū)分性統(tǒng)計信息的關(guān)鍵詞選擇方法。其中包含了10種基于TF/IDF的區(qū)分信息:DF差異,DF絕對差異,TF差異,TF絕對差異,TF*DF差異,TF*DF絕對差異,TF*IDF差異,TF*IDF絕對差異,TF*DF*IDF差異,TF*DF*IDF絕對差異。實驗證明第二種方法選出的關(guān)鍵詞具有更為明顯的分類能力,在100個關(guān)鍵詞為特征項的實驗中分類準(zhǔn)確率可達98%。 在開發(fā)工具和編程語言方面:在開源的TextRank和LIBSVM工具軟件平臺基礎(chǔ)上,通過Perl和Python實現(xiàn)了以上維吾爾文區(qū)分性關(guān)鍵性詞語提取系統(tǒng),并對系統(tǒng)運行結(jié)果進行了分析。
[Abstract]:......
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前4條
1 都云琪,肖詩斌;基于支持向量機的中文文本自動分類研究[J];計算機工程;2002年11期
2 張玉芳;彭時名;呂佳;;基于文本分類TFIDF方法的改進與應(yīng)用[J];計算機工程;2006年19期
3 鄭家恒,盧嬌麗;關(guān)鍵詞抽取方法的研究[J];計算機工程;2005年18期
4 索紅光;劉玉樹;曹淑英;;一種基于詞匯鏈的關(guān)鍵詞抽取方法[J];中文信息學(xué)報;2006年06期
相關(guān)碩士學(xué)位論文 前9條
1 石佑紅;基于支持向量機的文本分類的研究[D];北京交通大學(xué);2007年
2 葉志剛;SVM在文本分類中的應(yīng)用[D];哈爾濱工程大學(xué);2006年
3 杜圣東;基于多類支持向量機的文本分類研究[D];重慶大學(xué);2007年
4 應(yīng)偉;基于支持向量機的文本分類方法研究[D];天津大學(xué);2006年
5 鄒漢斌;支持向量機在文本分類中的應(yīng)用[D];江南大學(xué);2006年
6 代亮;基于支持向量機的文本分類問題研究[D];大連海事大學(xué);2007年
7 馬忠寶;基于支持向量機的中文文本分類系統(tǒng)研究[D];武漢理工大學(xué);2006年
8 陳超;基于支持向量機的中文文本分類的系統(tǒng)研究[D];武漢理工大學(xué);2007年
9 牛肖瀟;支持向量機及用于文本分類的研究[D];武漢理工大學(xué);2006年
本文編號:
2467858
本文鏈接:http://www.sikaile.net/jingjilunwen/fangdichanjingjilunwen/2467858.html