天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用

發(fā)布時間:2017-10-08 04:27

  本文關(guān)鍵詞:結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用


  更多相關(guān)文章: 文本聚類 權(quán)重因子 特征向量 遺傳K-均值 遺傳控制因子 輿情


【摘要】:文本聚類是通過聚類算法將同類的文本劃分到同一簇的過程,該過程涉及到文本預處理和文本聚類算法執(zhí)行兩個方面。文本聚類方法目前已經(jīng)被廣泛的應(yīng)用于輿情分析、搜索引擎、電子圖書等服務(wù)。文本聚類過程屬于典型的無監(jiān)督學習方法,在聚類之前無需知道每個類別的描述信息。這也是文本聚類的難點,眾多研究者都對其進行研究,并取的了豐富的研究成果。在文本進行聚類之前需對文本進行預處理,需要通過使用數(shù)學的方法表示文本,一般通過向量空間模型對文本進行表示。通過該模型表示的文本都是由文本本身的特征詞與其權(quán)重構(gòu)成的向量。但通過傳統(tǒng)方法計算的特征詞權(quán)重在表示文本時有一定的局限性,不能通過特征詞權(quán)重充分體現(xiàn)文本間的差異性。而且在傳統(tǒng)模型中不會考慮特征詞出現(xiàn)的先后順序,更不會考慮特征詞在不同位置出現(xiàn)代表的意義是否相同。還有文本聚類算法的選擇對聚類效果影響也很大,多數(shù)聚類算法不能很好的結(jié)合文本的編碼方案。本文主要對文本聚類方法的改進和應(yīng)用做了如下研究:1、首先分析了傳統(tǒng)特征詞權(quán)重計算方法對通過特征詞權(quán)重表示文本的局限性,并且通過權(quán)重因子對特征詞權(quán)重計算方法做出了改進。該方法強調(diào)了特征詞權(quán)重在文本集合中的重要性,而不是單純的想通過特征詞權(quán)重表示文本,增強了同類文本之間的相似度。并在對文本進行編碼時修改了傳統(tǒng)的VSM編碼方案,使文本向量由四條特征向量組成,并對特征向量加上位置權(quán)重信息。最后考慮到文本編碼方案的修改對文本間相似度計算的影響,重構(gòu)了文本相似度計算公式。2、其次根據(jù)改進的文本預處理和編碼方案,通過遺傳控制因子(GCF)對遺傳K-均值文本聚類算法進行改進。使用GCF對遺傳算子操作進行控制,使得算子中的優(yōu)質(zhì)個體一定被引入下一代,從而克服了遺傳K-均值算法算子操作的低效性。使其應(yīng)用到本文改進的文本編碼方案中能更好的改進聚類效果并且提高聚類精度。最后對改進的文本聚類方法進行實驗分析,證明了改進的方法在文本聚類精度上有明顯提高。3、最后將結(jié)合權(quán)重因子和特征向量改進的文本聚類算法應(yīng)用到輿情熱點發(fā)現(xiàn)中,對具體應(yīng)用做了詳細分析和流程安排。實驗結(jié)果表明,改進方法對輿情熱點的趨勢和預警研究很有幫助。
【關(guān)鍵詞】:文本聚類 權(quán)重因子 特征向量 遺傳K-均值 遺傳控制因子 輿情
【學位授予單位】:江西理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要4-5
  • Abstract5-10
  • 第一章 緒論10-15
  • 1.1 課題研究的背景及意義10-11
  • 1.2 研究現(xiàn)狀與困難11-13
  • 1.2.1 國內(nèi)外研究現(xiàn)狀11
  • 1.2.2 面臨的困難11-13
  • 1.3 本論文的主要工作和結(jié)構(gòu)安排13-15
  • 1.3.1 本論文的主要研究內(nèi)容13
  • 1.3.2 文章的結(jié)構(gòu)安排13-15
  • 第二章 文本聚類相關(guān)技術(shù)概述15-25
  • 2.1 文本預處理15-18
  • 2.1.1 文本分詞技術(shù)16-17
  • 2.1.2 去除停用詞和低頻詞17-18
  • 2.1.3 同義詞的并歸18
  • 2.2 文本特征選擇18-20
  • 2.2.1 特征選擇方法18-20
  • 2.3 降維處理20
  • 2.4 文本聚類方法20-21
  • 2.5 聚類統(tǒng)計量和評估21-23
  • 2.5.1 統(tǒng)計量21-22
  • 2.5.2 聚類評估22-23
  • 2.6 聚類評價函數(shù)23-24
  • 2.6.1 F1-measue指標23-24
  • 2.6.2 平均準確率24
  • 2.7 小結(jié)24-25
  • 第三章 結(jié)合權(quán)重因子與特征向量改進的文本預處理方法25-35
  • 3.1 文本的表示方法25-26
  • 3.2 特征詞權(quán)重的計算方法26-27
  • 3.3 文本相似度計算方法27-28
  • 3.4 改進的文本預處理方法28-30
  • 3.4.1 通過權(quán)重因子改進TF-IDF算法28
  • 3.4.2 根據(jù)特征向量修改表示方法28-29
  • 3.4.3 重構(gòu)余弦相似度計算方法29
  • 3.4.4 聚類步驟及流程圖29-30
  • 3.5 實驗分析30-34
  • 3.5.1 特征詞選取和測試環(huán)境30-31
  • 3.5.2 測試標準31
  • 3.5.3 實驗過程31-32
  • 3.5.4 實驗結(jié)果分析32-34
  • 3.6 小結(jié)34-35
  • 第四章 遺傳控制因子改進的遺傳K均值文本聚類算法35-51
  • 4.1 遺傳K-均值35-38
  • 4.1.1 K-均值35-36
  • 4.1.2 遺傳算法36-37
  • 4.1.3 遺傳K-均值算法37-38
  • 4.2 GGKM文本聚類算法38-45
  • 4.2.1 遺傳控制因子(GCF)39-40
  • 4.2.2 適應(yīng)度函數(shù)設(shè)計40
  • 4.2.3 GGKM算法算子操作40-42
  • 4.2.4 準則函數(shù)設(shè)計與終止條件42-43
  • 4.2.5 GGKM步驟及流程圖43-45
  • 4.3 文本聚類方法實驗45-50
  • 4.3.1 實驗設(shè)計45
  • 4.3.2 評價標準和參數(shù)設(shè)置45-46
  • 4.3.3 降維處理46
  • 4.3.4 實驗步驟與結(jié)果分析46-50
  • 4.4 小結(jié)50-51
  • 第五章GGKM在輿情熱點發(fā)現(xiàn)的應(yīng)用51-55
  • 5.1 輿情熱點發(fā)現(xiàn)51-52
  • 5.1.1 輿情分析步驟51
  • 5.1.2 輿情熱點發(fā)現(xiàn)與流程圖51-52
  • 5.2 實驗分析52-54
  • 5.2.1 實驗介紹52-53
  • 5.2.2 結(jié)果分析53-54
  • 5.3 小結(jié)54-55
  • 第六章 結(jié)論與展望55-56
  • 參考文獻56-59
  • 致謝59-60
  • 攻讀學位期間的研究成果60-61

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 王炳章;非參數(shù)回歸函數(shù)的k_n近鄰估計的漸近性質(zhì)及其Bootstrap逼近[J];應(yīng)用數(shù)學學報;2001年03期

中國碩士學位論文全文數(shù)據(jù)庫 前1條

1 何金鳳;基于中文信息檢索的文本預處理研究[D];電子科技大學;2008年



本文編號:991997

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/991997.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e5e7e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com