天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

文本聚類中特征選擇方法研究

發(fā)布時(shí)間:2017-05-18 00:07

  本文關(guān)鍵詞:文本聚類中特征選擇方法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展和廣泛普及,網(wǎng)絡(luò)上的信息資源日益豐富和龐大,想要合理地有效地管理這些海量繁雜的信息變得越來(lái)越困難。大部分?jǐn)?shù)據(jù)信息被存儲(chǔ)在電子媒體上,其中有許多數(shù)據(jù)都是以非結(jié)構(gòu)化的文本形式存在的,這在數(shù)據(jù)分析和處理方面增加了難度,因此人們很難從中挖掘出有價(jià)值的資源。文本聚類技術(shù)作為一種重要的技術(shù)在數(shù)據(jù)挖掘領(lǐng)域中能夠?qū)崿F(xiàn)這一目標(biāo)。文本聚類技術(shù)通過(guò)對(duì)大量的非結(jié)構(gòu)化的文本數(shù)據(jù)信息進(jìn)行組織,使其轉(zhuǎn)換為少數(shù)有意義的簇,方便用戶發(fā)現(xiàn)其中有價(jià)值的信息。因此,文本聚類技術(shù)成為了熱點(diǎn)研究。本文對(duì)此所做的研究工作具體如下:(1)對(duì)文本聚類中的相關(guān)的技術(shù)做了系統(tǒng)性的介紹,并詳細(xì)地闡述了幾種用于文本聚類中的無(wú)監(jiān)督的特征選擇方法,以及各自的優(yōu)點(diǎn)和缺點(diǎn);然后,深入研究了文檔頻數(shù)(DF)算法和單詞貢獻(xiàn)度(TC)算法,對(duì)它們各自的優(yōu)點(diǎn)和缺點(diǎn)進(jìn)行了深入剖析;最后,本文考慮特征詞的語(yǔ)義信息對(duì)文本的重要性,引入了詞性權(quán)值因子和詞長(zhǎng)權(quán)值因子對(duì)文檔頻數(shù)算法做出改進(jìn),并結(jié)合了TC算法完成了特征選擇的步驟,提出了基于DF和TC的聯(lián)合特征選擇方法;(2)簡(jiǎn)單地闡述了幾類常見(jiàn)的文本聚類算法,并深入研究了K-means聚類算法,分析了它的優(yōu)點(diǎn)和缺點(diǎn)。K-means是一種簡(jiǎn)單、高效的聚類算法,但其對(duì)于初始聚類中心有著極大的依賴性,當(dāng)初始聚類中心選擇不當(dāng)時(shí),最終得到的聚類結(jié)果可能是局部最優(yōu)解,而非全局最優(yōu)解。為此,本文結(jié)合了“距離優(yōu)化法”和“密度法”選取更優(yōu)的初始聚類中心以提高K-means的文本聚類效果,并提出了改進(jìn)的K-means方法;(3)設(shè)計(jì)了一個(gè)由文本預(yù)處理模塊、文本表示模塊、聚類分析模塊等基本功能模塊組成的中文文本聚類系統(tǒng)實(shí)驗(yàn)平臺(tái),通過(guò)實(shí)驗(yàn)將本文提出的改進(jìn)方法與其原方法進(jìn)行比較,并利用查準(zhǔn)率、查全率、F1值等性能評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)實(shí)驗(yàn)結(jié)果。根據(jù)實(shí)驗(yàn)比較得出,本文的改進(jìn)方法的聚類效果更優(yōu)。
【關(guān)鍵詞】:文本聚類 特征選擇方法 聚類算法
【學(xué)位授予單位】:湖北工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要4-5
  • Abstract5-8
  • 第1章 引言8-12
  • 1.1 研究背景和意義8-9
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-11
  • 1.2.1 國(guó)內(nèi)研究現(xiàn)狀9-10
  • 1.2.2 國(guó)外研究現(xiàn)狀10-11
  • 1.3 本文研究?jī)?nèi)容和組織結(jié)構(gòu)11-12
  • 1.3.1 本文研究?jī)?nèi)容11
  • 1.3.2 本文組織結(jié)構(gòu)11-12
  • 第2章 文本聚類概述12-18
  • 2.1 文本聚類定義12
  • 2.2 文本聚類流程12-13
  • 2.3 文本預(yù)處理13
  • 2.4 文本表示13-15
  • 2.5 特征降維15
  • 2.6 特征權(quán)重計(jì)算15-16
  • 2.7 文本相似度計(jì)算16-17
  • 2.8 本章小結(jié)17-18
  • 第3章 特征選擇方法18-24
  • 3.1 無(wú)監(jiān)督特征選擇方法18-20
  • 3.1.1 文檔頻數(shù)18-19
  • 3.1.2 單詞權(quán)19
  • 3.1.3 單詞熵19-20
  • 3.1.4 單詞貢獻(xiàn)度20
  • 3.2 基于DF和TC的聯(lián)合特征選擇方法20-23
  • 3.2.1 DF和TC算法分析20-21
  • 3.2.2 改進(jìn)的DF算法21-23
  • 3.2.3 聯(lián)合特征選擇方法23
  • 3.3 本章小結(jié)23-24
  • 第4章 文本聚類算法24-31
  • 4.1 常用的文本聚類算法24-26
  • 4.1.1 劃分聚類法24
  • 4.1.2 層次聚類法24-25
  • 4.1.3 基于密度的聚類方法25-26
  • 4.1.4 基于網(wǎng)格的聚類方法26
  • 4.2 K-MEANS算法分析26-28
  • 4.2.1 K-means算法描述26-27
  • 4.2.2 K-means算法的優(yōu)缺點(diǎn)27-28
  • 4.3 改進(jìn)的K-MEANS算法28-30
  • 4.3.1 目前已有的初始聚類中心選擇方法28
  • 4.3.2 優(yōu)化初始聚類中心選擇方法28-30
  • 4.3.3 改進(jìn)的K-means算法30
  • 4.4 本章小結(jié)30-31
  • 第5章 實(shí)驗(yàn)方法與實(shí)驗(yàn)結(jié)果分析31-42
  • 5.1 實(shí)驗(yàn)方法31-36
  • 5.1.1 中文文本聚類系統(tǒng)實(shí)驗(yàn)流程31-33
  • 5.1.2 系統(tǒng)基本功能實(shí)現(xiàn)33-35
  • 5.1.3 實(shí)驗(yàn)數(shù)據(jù)集35
  • 5.1.4 實(shí)驗(yàn)采用的評(píng)價(jià)指標(biāo)35-36
  • 5.2 實(shí)驗(yàn)結(jié)果分析36-40
  • 5.2.1 特征選擇方法的對(duì)比實(shí)驗(yàn)及結(jié)果分析36-39
  • 5.2.2 聚類算法的對(duì)比實(shí)驗(yàn)及結(jié)果分析39-40
  • 5.3 本章小結(jié)40-42
  • 第6章 總結(jié)與展望42-43
  • 6.1 總結(jié)42
  • 6.2 展望42-43
  • 參考文獻(xiàn)43-46
  • 致謝46

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 趙亞琴;周獻(xiàn)中;;一種基于小生境遺傳算法的中文文本聚類新方法[J];計(jì)算機(jī)工程;2006年06期

2 劉務(wù)華;羅鐵堅(jiān);王文杰;;文本聚類技術(shù)的有效性驗(yàn)證[J];計(jì)算機(jī)工程;2007年01期

3 丁X;許侃;;基于文本聚類方法的我國(guó)科技管理研究領(lǐng)域的計(jì)量研究[J];科學(xué)學(xué)研究;2007年S1期

4 孫愛(ài)香;楊鑫華;;關(guān)于文本聚類有效性評(píng)價(jià)的研究[J];山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年05期

5 丘志宏;宮雷光;;利用上下文提高文本聚類的效果[J];中文信息學(xué)報(bào);2007年06期

6 吳啟明;易云飛;;文本聚類綜述[J];河池學(xué)院學(xué)報(bào);2008年02期

7 李江華;楊書(shū)新;劉利峰;;基于概念格的文本聚類[J];計(jì)算機(jī)應(yīng)用;2008年09期

8 趙文鵬;;淺談文本聚類研究[J];企業(yè)家天地下半月刊(理論版);2009年02期

9 章成志;;文本聚類結(jié)果描述研究綜述[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2009年02期

10 馬娜;;文本聚類研究[J];電腦知識(shí)與技術(shù);2009年20期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年

2 王洪俊;俞士汶;蘇祺;施水才;肖詩(shī)斌;;中文文本聚類的特征單元比較[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

3 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 王明文;付劍波;羅遠(yuǎn)勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

6 張猛;王大玲;于戈;;一種基于自動(dòng)閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

7 王樂(lè);田李;賈焰;韓偉紅;;一個(gè)并行的文本聚類混合算法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年

8 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年

9 張寶艷;王慶輝;;中文文本聚類的研究與實(shí)現(xiàn)[A];第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2002年

10 章成志;;基于多語(yǔ)文本聚類的主題層次體系生成研究1)[A];國(guó)家自然科學(xué)基金委員會(huì)管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會(huì)論文集[C];2010年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年

2 高茂庭;文本聚類分析若干問(wèn)題研究[D];天津大學(xué);2007年

3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 康健;基于Multi-agent和群體智能的藏文網(wǎng)絡(luò)輿情管理研究[D];西南交通大學(xué);2015年

2 張培偉;基于改進(jìn)Single-Pass算法的熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2015年

3 郭士串;結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用[D];江西理工大學(xué);2015年

4 邵明來(lái);中文文本聚類關(guān)鍵技術(shù)研究[D];廣西大學(xué);2015年

5 王恒靜;基于詞類和搭配的微博輿情文本聚類方法研究[D];江蘇科技大學(xué);2015年

6 吳潔潔;基于RI方法的文本聚類研究[D];南昌大學(xué);2015年

7 樊兆欣;個(gè)性化新聞推薦系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];北京理工大學(xué);2015年

8 蘇圣瞳;微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2014年

9 孫東普;融合屬性抽取的多粒度專利文本聚類研究[D];大連理工大學(xué);2015年

10 李蕓;基于爬蟲(chóng)和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年


  本文關(guān)鍵詞:文本聚類中特征選擇方法研究,由筆耕文化傳播整理發(fā)布。

,

本文編號(hào):374756

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/374756.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bd2e4***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com