結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用

發(fā)布時(shí)間：2017-10-08 04:27

本文關(guān)鍵詞：結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用

【摘要】：文本聚類是通過聚類算法將同類的文本劃分到同一簇的過程,該過程涉及到文本預(yù)處理和文本聚類算法執(zhí)行兩個(gè)方面。文本聚類方法目前已經(jīng)被廣泛的應(yīng)用于輿情分析、搜索引擎、電子圖書等服務(wù)。文本聚類過程屬于典型的無監(jiān)督學(xué)習(xí)方法,在聚類之前無需知道每個(gè)類別的描述信息。這也是文本聚類的難點(diǎn),眾多研究者都對其進(jìn)行研究,并取的了豐富的研究成果。在文本進(jìn)行聚類之前需對文本進(jìn)行預(yù)處理,需要通過使用數(shù)學(xué)的方法表示文本,一般通過向量空間模型對文本進(jìn)行表示。通過該模型表示的文本都是由文本本身的特征詞與其權(quán)重構(gòu)成的向量。但通過傳統(tǒng)方法計(jì)算的特征詞權(quán)重在表示文本時(shí)有一定的局限性,不能通過特征詞權(quán)重充分體現(xiàn)文本間的差異性。而且在傳統(tǒng)模型中不會(huì)考慮特征詞出現(xiàn)的先后順序,更不會(huì)考慮特征詞在不同位置出現(xiàn)代表的意義是否相同。還有文本聚類算法的選擇對聚類效果影響也很大,多數(shù)聚類算法不能很好的結(jié)合文本的編碼方案。本文主要對文本聚類方法的改進(jìn)和應(yīng)用做了如下研究:1、首先分析了傳統(tǒng)特征詞權(quán)重計(jì)算方法對通過特征詞權(quán)重表示文本的局限性,并且通過權(quán)重因子對特征詞權(quán)重計(jì)算方法做出了改進(jìn)。該方法強(qiáng)調(diào)了特征詞權(quán)重在文本集合中的重要性,而不是單純的想通過特征詞權(quán)重表示文本,增強(qiáng)了同類文本之間的相似度。并在對文本進(jìn)行編碼時(shí)修改了傳統(tǒng)的VSM編碼方案,使文本向量由四條特征向量組成,并對特征向量加上位置權(quán)重信息。最后考慮到文本編碼方案的修改對文本間相似度計(jì)算的影響,重構(gòu)了文本相似度計(jì)算公式。2、其次根據(jù)改進(jìn)的文本預(yù)處理和編碼方案,通過遺傳控制因子(GCF)對遺傳K-均值文本聚類算法進(jìn)行改進(jìn)。使用GCF對遺傳算子操作進(jìn)行控制,使得算子中的優(yōu)質(zhì)個(gè)體一定被引入下一代,從而克服了遺傳K-均值算法算子操作的低效性。使其應(yīng)用到本文改進(jìn)的文本編碼方案中能更好的改進(jìn)聚類效果并且提高聚類精度。最后對改進(jìn)的文本聚類方法進(jìn)行實(shí)驗(yàn)分析,證明了改進(jìn)的方法在文本聚類精度上有明顯提高。3、最后將結(jié)合權(quán)重因子和特征向量改進(jìn)的文本聚類算法應(yīng)用到輿情熱點(diǎn)發(fā)現(xiàn)中,對具體應(yīng)用做了詳細(xì)分析和流程安排。實(shí)驗(yàn)結(jié)果表明,改進(jìn)方法對輿情熱點(diǎn)的趨勢和預(yù)警研究很有幫助。
【關(guān)鍵詞】：文本聚類 權(quán)重因子 特征向量 遺傳K-均值 遺傳控制因子 輿情
【學(xué)位授予單位】：江西理工大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：TP391.1
【目錄】：

摘要4-5
Abstract5-10
第一章緒論10-15
1.1 課題研究的背景及意義10-11
1.2 研究現(xiàn)狀與困難11-13
1.2.1 國內(nèi)外研究現(xiàn)狀11
1.2.2 面臨的困難11-13
1.3 本論文的主要工作和結(jié)構(gòu)安排13-15
1.3.1 本論文的主要研究內(nèi)容13
1.3.2 文章的結(jié)構(gòu)安排13-15
第二章文本聚類相關(guān)技術(shù)概述15-25
2.1 文本預(yù)處理15-18
2.1.1 文本分詞技術(shù)16-17
2.1.2 去除停用詞和低頻詞17-18
2.1.3 同義詞的并歸18
2.2 文本特征選擇18-20
2.2.1 特征選擇方法18-20
2.3 降維處理20
2.4 文本聚類方法20-21
2.5 聚類統(tǒng)計(jì)量和評估21-23
2.5.1 統(tǒng)計(jì)量21-22
2.5.2 聚類評估22-23
2.6 聚類評價(jià)函數(shù)23-24
2.6.1 F1-measue指標(biāo)23-24
2.6.2 平均準(zhǔn)確率24
2.7 小結(jié)24-25
第三章結(jié)合權(quán)重因子與特征向量改進(jìn)的文本預(yù)處理方法25-35
3.1 文本的表示方法25-26
3.2 特征詞權(quán)重的計(jì)算方法26-27
3.3 文本相似度計(jì)算方法27-28
3.4 改進(jìn)的文本預(yù)處理方法28-30
3.4.1 通過權(quán)重因子改進(jìn)TF-IDF算法28
3.4.2 根據(jù)特征向量修改表示方法28-29
3.4.3 重構(gòu)余弦相似度計(jì)算方法29
3.4.4 聚類步驟及流程圖29-30
3.5 實(shí)驗(yàn)分析30-34
3.5.1 特征詞選取和測試環(huán)境30-31
3.5.2 測試標(biāo)準(zhǔn)31
3.5.3 實(shí)驗(yàn)過程31-32
3.5.4 實(shí)驗(yàn)結(jié)果分析32-34
3.6 小結(jié)34-35
第四章遺傳控制因子改進(jìn)的遺傳K均值文本聚類算法35-51
4.1 遺傳K-均值35-38
4.1.1 K-均值35-36
4.1.2 遺傳算法36-37
4.1.3 遺傳K-均值算法37-38
4.2 GGKM文本聚類算法38-45
4.2.1 遺傳控制因子(GCF)39-40
4.2.2 適應(yīng)度函數(shù)設(shè)計(jì)40
4.2.3 GGKM算法算子操作40-42
4.2.4 準(zhǔn)則函數(shù)設(shè)計(jì)與終止條件42-43
4.2.5 GGKM步驟及流程圖43-45
4.3 文本聚類方法實(shí)驗(yàn)45-50
4.3.1 實(shí)驗(yàn)設(shè)計(jì)45
4.3.2 評價(jià)標(biāo)準(zhǔn)和參數(shù)設(shè)置45-46
4.3.3 降維處理46
4.3.4 實(shí)驗(yàn)步驟與結(jié)果分析46-50
4.4 小結(jié)50-51
第五章GGKM在輿情熱點(diǎn)發(fā)現(xiàn)的應(yīng)用51-55
5.1 輿情熱點(diǎn)發(fā)現(xiàn)51-52
5.1.1 輿情分析步驟51
5.1.2 輿情熱點(diǎn)發(fā)現(xiàn)與流程圖51-52
5.2 實(shí)驗(yàn)分析52-54
5.2.1 實(shí)驗(yàn)介紹52-53
5.2.2 結(jié)果分析53-54
5.3 小結(jié)54-55
第六章結(jié)論與展望55-56
參考文獻(xiàn)56-59
致謝59-60
攻讀學(xué)位期間的研究成果60-61

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前1條

1 王炳章;非參數(shù)回歸函數(shù)的k_n近鄰估計(jì)的漸近性質(zhì)及其Bootstrap逼近[J];應(yīng)用數(shù)學(xué)學(xué)報(bào);2001年03期

中國碩士學(xué)位論文全文數(shù)據(jù)庫前1條

1 何金鳳;基于中文信息檢索的文本預(yù)處理研究[D];電子科技大學(xué);2008年

，

本文編號：991997

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/991997.html

上一篇：云環(huán)境下流數(shù)據(jù)關(guān)鍵字的實(shí)時(shí)查詢處理技術(shù)研究
下一篇：搜索引擎動(dòng)態(tài)摘要技術(shù)淺析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用