結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用
發(fā)布時(shí)間:2017-10-08 04:27
本文關(guān)鍵詞:結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用
更多相關(guān)文章: 文本聚類 權(quán)重因子 特征向量 遺傳K-均值 遺傳控制因子 輿情
【摘要】:文本聚類是通過聚類算法將同類的文本劃分到同一簇的過程,該過程涉及到文本預(yù)處理和文本聚類算法執(zhí)行兩個(gè)方面。文本聚類方法目前已經(jīng)被廣泛的應(yīng)用于輿情分析、搜索引擎、電子圖書等服務(wù)。文本聚類過程屬于典型的無監(jiān)督學(xué)習(xí)方法,在聚類之前無需知道每個(gè)類別的描述信息。這也是文本聚類的難點(diǎn),眾多研究者都對其進(jìn)行研究,并取的了豐富的研究成果。在文本進(jìn)行聚類之前需對文本進(jìn)行預(yù)處理,需要通過使用數(shù)學(xué)的方法表示文本,一般通過向量空間模型對文本進(jìn)行表示。通過該模型表示的文本都是由文本本身的特征詞與其權(quán)重構(gòu)成的向量。但通過傳統(tǒng)方法計(jì)算的特征詞權(quán)重在表示文本時(shí)有一定的局限性,不能通過特征詞權(quán)重充分體現(xiàn)文本間的差異性。而且在傳統(tǒng)模型中不會(huì)考慮特征詞出現(xiàn)的先后順序,更不會(huì)考慮特征詞在不同位置出現(xiàn)代表的意義是否相同。還有文本聚類算法的選擇對聚類效果影響也很大,多數(shù)聚類算法不能很好的結(jié)合文本的編碼方案。本文主要對文本聚類方法的改進(jìn)和應(yīng)用做了如下研究:1、首先分析了傳統(tǒng)特征詞權(quán)重計(jì)算方法對通過特征詞權(quán)重表示文本的局限性,并且通過權(quán)重因子對特征詞權(quán)重計(jì)算方法做出了改進(jìn)。該方法強(qiáng)調(diào)了特征詞權(quán)重在文本集合中的重要性,而不是單純的想通過特征詞權(quán)重表示文本,增強(qiáng)了同類文本之間的相似度。并在對文本進(jìn)行編碼時(shí)修改了傳統(tǒng)的VSM編碼方案,使文本向量由四條特征向量組成,并對特征向量加上位置權(quán)重信息。最后考慮到文本編碼方案的修改對文本間相似度計(jì)算的影響,重構(gòu)了文本相似度計(jì)算公式。2、其次根據(jù)改進(jìn)的文本預(yù)處理和編碼方案,通過遺傳控制因子(GCF)對遺傳K-均值文本聚類算法進(jìn)行改進(jìn)。使用GCF對遺傳算子操作進(jìn)行控制,使得算子中的優(yōu)質(zhì)個(gè)體一定被引入下一代,從而克服了遺傳K-均值算法算子操作的低效性。使其應(yīng)用到本文改進(jìn)的文本編碼方案中能更好的改進(jìn)聚類效果并且提高聚類精度。最后對改進(jìn)的文本聚類方法進(jìn)行實(shí)驗(yàn)分析,證明了改進(jìn)的方法在文本聚類精度上有明顯提高。3、最后將結(jié)合權(quán)重因子和特征向量改進(jìn)的文本聚類算法應(yīng)用到輿情熱點(diǎn)發(fā)現(xiàn)中,對具體應(yīng)用做了詳細(xì)分析和流程安排。實(shí)驗(yàn)結(jié)果表明,改進(jìn)方法對輿情熱點(diǎn)的趨勢和預(yù)警研究很有幫助。
【關(guān)鍵詞】:文本聚類 權(quán)重因子 特征向量 遺傳K-均值 遺傳控制因子 輿情
【學(xué)位授予單位】:江西理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-10
- 第一章 緒論10-15
- 1.1 課題研究的背景及意義10-11
- 1.2 研究現(xiàn)狀與困難11-13
- 1.2.1 國內(nèi)外研究現(xiàn)狀11
- 1.2.2 面臨的困難11-13
- 1.3 本論文的主要工作和結(jié)構(gòu)安排13-15
- 1.3.1 本論文的主要研究內(nèi)容13
- 1.3.2 文章的結(jié)構(gòu)安排13-15
- 第二章 文本聚類相關(guān)技術(shù)概述15-25
- 2.1 文本預(yù)處理15-18
- 2.1.1 文本分詞技術(shù)16-17
- 2.1.2 去除停用詞和低頻詞17-18
- 2.1.3 同義詞的并歸18
- 2.2 文本特征選擇18-20
- 2.2.1 特征選擇方法18-20
- 2.3 降維處理20
- 2.4 文本聚類方法20-21
- 2.5 聚類統(tǒng)計(jì)量和評估21-23
- 2.5.1 統(tǒng)計(jì)量21-22
- 2.5.2 聚類評估22-23
- 2.6 聚類評價(jià)函數(shù)23-24
- 2.6.1 F1-measue指標(biāo)23-24
- 2.6.2 平均準(zhǔn)確率24
- 2.7 小結(jié)24-25
- 第三章 結(jié)合權(quán)重因子與特征向量改進(jìn)的文本預(yù)處理方法25-35
- 3.1 文本的表示方法25-26
- 3.2 特征詞權(quán)重的計(jì)算方法26-27
- 3.3 文本相似度計(jì)算方法27-28
- 3.4 改進(jìn)的文本預(yù)處理方法28-30
- 3.4.1 通過權(quán)重因子改進(jìn)TF-IDF算法28
- 3.4.2 根據(jù)特征向量修改表示方法28-29
- 3.4.3 重構(gòu)余弦相似度計(jì)算方法29
- 3.4.4 聚類步驟及流程圖29-30
- 3.5 實(shí)驗(yàn)分析30-34
- 3.5.1 特征詞選取和測試環(huán)境30-31
- 3.5.2 測試標(biāo)準(zhǔn)31
- 3.5.3 實(shí)驗(yàn)過程31-32
- 3.5.4 實(shí)驗(yàn)結(jié)果分析32-34
- 3.6 小結(jié)34-35
- 第四章 遺傳控制因子改進(jìn)的遺傳K均值文本聚類算法35-51
- 4.1 遺傳K-均值35-38
- 4.1.1 K-均值35-36
- 4.1.2 遺傳算法36-37
- 4.1.3 遺傳K-均值算法37-38
- 4.2 GGKM文本聚類算法38-45
- 4.2.1 遺傳控制因子(GCF)39-40
- 4.2.2 適應(yīng)度函數(shù)設(shè)計(jì)40
- 4.2.3 GGKM算法算子操作40-42
- 4.2.4 準(zhǔn)則函數(shù)設(shè)計(jì)與終止條件42-43
- 4.2.5 GGKM步驟及流程圖43-45
- 4.3 文本聚類方法實(shí)驗(yàn)45-50
- 4.3.1 實(shí)驗(yàn)設(shè)計(jì)45
- 4.3.2 評價(jià)標(biāo)準(zhǔn)和參數(shù)設(shè)置45-46
- 4.3.3 降維處理46
- 4.3.4 實(shí)驗(yàn)步驟與結(jié)果分析46-50
- 4.4 小結(jié)50-51
- 第五章GGKM在輿情熱點(diǎn)發(fā)現(xiàn)的應(yīng)用51-55
- 5.1 輿情熱點(diǎn)發(fā)現(xiàn)51-52
- 5.1.1 輿情分析步驟51
- 5.1.2 輿情熱點(diǎn)發(fā)現(xiàn)與流程圖51-52
- 5.2 實(shí)驗(yàn)分析52-54
- 5.2.1 實(shí)驗(yàn)介紹52-53
- 5.2.2 結(jié)果分析53-54
- 5.3 小結(jié)54-55
- 第六章 結(jié)論與展望55-56
- 參考文獻(xiàn)56-59
- 致謝59-60
- 攻讀學(xué)位期間的研究成果60-61
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 王炳章;非參數(shù)回歸函數(shù)的k_n近鄰估計(jì)的漸近性質(zhì)及其Bootstrap逼近[J];應(yīng)用數(shù)學(xué)學(xué)報(bào);2001年03期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 何金鳳;基于中文信息檢索的文本預(yù)處理研究[D];電子科技大學(xué);2008年
,本文編號:991997
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/991997.html
最近更新
教材專著