天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用

發(fā)布時(shí)間:2017-10-08 04:27

  本文關(guān)鍵詞:結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用


  更多相關(guān)文章: 文本聚類 權(quán)重因子 特征向量 遺傳K-均值 遺傳控制因子 輿情


【摘要】:文本聚類是通過聚類算法將同類的文本劃分到同一簇的過程,該過程涉及到文本預(yù)處理和文本聚類算法執(zhí)行兩個(gè)方面。文本聚類方法目前已經(jīng)被廣泛的應(yīng)用于輿情分析、搜索引擎、電子圖書等服務(wù)。文本聚類過程屬于典型的無監(jiān)督學(xué)習(xí)方法,在聚類之前無需知道每個(gè)類別的描述信息。這也是文本聚類的難點(diǎn),眾多研究者都對其進(jìn)行研究,并取的了豐富的研究成果。在文本進(jìn)行聚類之前需對文本進(jìn)行預(yù)處理,需要通過使用數(shù)學(xué)的方法表示文本,一般通過向量空間模型對文本進(jìn)行表示。通過該模型表示的文本都是由文本本身的特征詞與其權(quán)重構(gòu)成的向量。但通過傳統(tǒng)方法計(jì)算的特征詞權(quán)重在表示文本時(shí)有一定的局限性,不能通過特征詞權(quán)重充分體現(xiàn)文本間的差異性。而且在傳統(tǒng)模型中不會(huì)考慮特征詞出現(xiàn)的先后順序,更不會(huì)考慮特征詞在不同位置出現(xiàn)代表的意義是否相同。還有文本聚類算法的選擇對聚類效果影響也很大,多數(shù)聚類算法不能很好的結(jié)合文本的編碼方案。本文主要對文本聚類方法的改進(jìn)和應(yīng)用做了如下研究:1、首先分析了傳統(tǒng)特征詞權(quán)重計(jì)算方法對通過特征詞權(quán)重表示文本的局限性,并且通過權(quán)重因子對特征詞權(quán)重計(jì)算方法做出了改進(jìn)。該方法強(qiáng)調(diào)了特征詞權(quán)重在文本集合中的重要性,而不是單純的想通過特征詞權(quán)重表示文本,增強(qiáng)了同類文本之間的相似度。并在對文本進(jìn)行編碼時(shí)修改了傳統(tǒng)的VSM編碼方案,使文本向量由四條特征向量組成,并對特征向量加上位置權(quán)重信息。最后考慮到文本編碼方案的修改對文本間相似度計(jì)算的影響,重構(gòu)了文本相似度計(jì)算公式。2、其次根據(jù)改進(jìn)的文本預(yù)處理和編碼方案,通過遺傳控制因子(GCF)對遺傳K-均值文本聚類算法進(jìn)行改進(jìn)。使用GCF對遺傳算子操作進(jìn)行控制,使得算子中的優(yōu)質(zhì)個(gè)體一定被引入下一代,從而克服了遺傳K-均值算法算子操作的低效性。使其應(yīng)用到本文改進(jìn)的文本編碼方案中能更好的改進(jìn)聚類效果并且提高聚類精度。最后對改進(jìn)的文本聚類方法進(jìn)行實(shí)驗(yàn)分析,證明了改進(jìn)的方法在文本聚類精度上有明顯提高。3、最后將結(jié)合權(quán)重因子和特征向量改進(jìn)的文本聚類算法應(yīng)用到輿情熱點(diǎn)發(fā)現(xiàn)中,對具體應(yīng)用做了詳細(xì)分析和流程安排。實(shí)驗(yàn)結(jié)果表明,改進(jìn)方法對輿情熱點(diǎn)的趨勢和預(yù)警研究很有幫助。
【關(guān)鍵詞】:文本聚類 權(quán)重因子 特征向量 遺傳K-均值 遺傳控制因子 輿情
【學(xué)位授予單位】:江西理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要4-5
  • Abstract5-10
  • 第一章 緒論10-15
  • 1.1 課題研究的背景及意義10-11
  • 1.2 研究現(xiàn)狀與困難11-13
  • 1.2.1 國內(nèi)外研究現(xiàn)狀11
  • 1.2.2 面臨的困難11-13
  • 1.3 本論文的主要工作和結(jié)構(gòu)安排13-15
  • 1.3.1 本論文的主要研究內(nèi)容13
  • 1.3.2 文章的結(jié)構(gòu)安排13-15
  • 第二章 文本聚類相關(guān)技術(shù)概述15-25
  • 2.1 文本預(yù)處理15-18
  • 2.1.1 文本分詞技術(shù)16-17
  • 2.1.2 去除停用詞和低頻詞17-18
  • 2.1.3 同義詞的并歸18
  • 2.2 文本特征選擇18-20
  • 2.2.1 特征選擇方法18-20
  • 2.3 降維處理20
  • 2.4 文本聚類方法20-21
  • 2.5 聚類統(tǒng)計(jì)量和評估21-23
  • 2.5.1 統(tǒng)計(jì)量21-22
  • 2.5.2 聚類評估22-23
  • 2.6 聚類評價(jià)函數(shù)23-24
  • 2.6.1 F1-measue指標(biāo)23-24
  • 2.6.2 平均準(zhǔn)確率24
  • 2.7 小結(jié)24-25
  • 第三章 結(jié)合權(quán)重因子與特征向量改進(jìn)的文本預(yù)處理方法25-35
  • 3.1 文本的表示方法25-26
  • 3.2 特征詞權(quán)重的計(jì)算方法26-27
  • 3.3 文本相似度計(jì)算方法27-28
  • 3.4 改進(jìn)的文本預(yù)處理方法28-30
  • 3.4.1 通過權(quán)重因子改進(jìn)TF-IDF算法28
  • 3.4.2 根據(jù)特征向量修改表示方法28-29
  • 3.4.3 重構(gòu)余弦相似度計(jì)算方法29
  • 3.4.4 聚類步驟及流程圖29-30
  • 3.5 實(shí)驗(yàn)分析30-34
  • 3.5.1 特征詞選取和測試環(huán)境30-31
  • 3.5.2 測試標(biāo)準(zhǔn)31
  • 3.5.3 實(shí)驗(yàn)過程31-32
  • 3.5.4 實(shí)驗(yàn)結(jié)果分析32-34
  • 3.6 小結(jié)34-35
  • 第四章 遺傳控制因子改進(jìn)的遺傳K均值文本聚類算法35-51
  • 4.1 遺傳K-均值35-38
  • 4.1.1 K-均值35-36
  • 4.1.2 遺傳算法36-37
  • 4.1.3 遺傳K-均值算法37-38
  • 4.2 GGKM文本聚類算法38-45
  • 4.2.1 遺傳控制因子(GCF)39-40
  • 4.2.2 適應(yīng)度函數(shù)設(shè)計(jì)40
  • 4.2.3 GGKM算法算子操作40-42
  • 4.2.4 準(zhǔn)則函數(shù)設(shè)計(jì)與終止條件42-43
  • 4.2.5 GGKM步驟及流程圖43-45
  • 4.3 文本聚類方法實(shí)驗(yàn)45-50
  • 4.3.1 實(shí)驗(yàn)設(shè)計(jì)45
  • 4.3.2 評價(jià)標(biāo)準(zhǔn)和參數(shù)設(shè)置45-46
  • 4.3.3 降維處理46
  • 4.3.4 實(shí)驗(yàn)步驟與結(jié)果分析46-50
  • 4.4 小結(jié)50-51
  • 第五章GGKM在輿情熱點(diǎn)發(fā)現(xiàn)的應(yīng)用51-55
  • 5.1 輿情熱點(diǎn)發(fā)現(xiàn)51-52
  • 5.1.1 輿情分析步驟51
  • 5.1.2 輿情熱點(diǎn)發(fā)現(xiàn)與流程圖51-52
  • 5.2 實(shí)驗(yàn)分析52-54
  • 5.2.1 實(shí)驗(yàn)介紹52-53
  • 5.2.2 結(jié)果分析53-54
  • 5.3 小結(jié)54-55
  • 第六章 結(jié)論與展望55-56
  • 參考文獻(xiàn)56-59
  • 致謝59-60
  • 攻讀學(xué)位期間的研究成果60-61

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前1條

1 王炳章;非參數(shù)回歸函數(shù)的k_n近鄰估計(jì)的漸近性質(zhì)及其Bootstrap逼近[J];應(yīng)用數(shù)學(xué)學(xué)報(bào);2001年03期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 何金鳳;基于中文信息檢索的文本預(yù)處理研究[D];電子科技大學(xué);2008年



本文編號:991997

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/991997.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e5e7e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com