改進的密度峰值算法應用于文本聚類問題研究
發(fā)布時間:2020-08-06 21:23
【摘要】:在當今大數據的時代中,信息技術也已經滲透到各行各業(yè)。隨著對信息需求的增多,如何幫助用戶將繁多的數據處理成邏輯化的形式就成了亟待解決的問題。目前最核心信息載體就是中文文本,文本聚類也成為快速組織和分析用戶感興趣的文本信息的重要途徑之一。通過預處理和聚類分析操作,對原本無結構的文本數據形式化描述,最終按照相似度的大小聚成不同類簇,對信息檢索、新聞話題發(fā)現等具有重要的理論意義。在深入研究的基礎上,本文選取了具有參數少、原理簡單、易于實現等優(yōu)點的密度峰值算法用于文本聚類。針對密度峰值算法聚類中心點選擇問題,對粒子群算法作出改進,并與之結合,應用在文本聚類中,旨在提高聚類效果。主要做了以下兩部分的研究工作:(1)在對標準粒子群算法的各個參數尤其是慣性權重的深入研究上,提出了一種動態(tài)調節(jié)慣性權重策略,綜合考慮粒子適應度值賦予不同的慣性權重,平衡算法在不同迭代時期的全局搜索和局部搜索能力;研究分析了粒子在高維多峰函數尋優(yōu)時易陷入局部最優(yōu)的問題,提出了一種由柯西算子構成的擾動因子策略增強種群變異性,拓寬最優(yōu)粒子搜索空間,幫助逃離局部最優(yōu)。綜合以上兩點,提出一種自適應指數慣性權重粒子群優(yōu)化算法;最后在不同測試函數上進行對比實驗,實驗結果表明:算法精度和穩(wěn)定性有所提高。(2)提出了一種新的適應度函數構造方法作為結合AEW-PSO和密度峰值算法的橋梁,綜合考慮了局部密度、距離參數以及類內離散度等,更科學的指導聚類中心的選擇,提高了算法效果。將基于AEW-PSO優(yōu)化的密度峰值算法應用在文本聚類中,采用更符合文本距離計算的余弦距離代替原本的歐式距離度量,并提出了算法的整體框架。最后通過對比實驗驗證了本文提出的算法在準確率、召回率、F1值等三個評價指標上整體取得了最優(yōu)值,有效實現了文本聚類。
【學位授予單位】:哈爾濱工程大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.1
【圖文】:
第 1 章 緒論究的背景及意義網等新興媒體的普及,人們能獲取到的信息內容更加豐富,獲取。對于熱點事件來說,從發(fā)生到傳播幾乎呈現指數型的速率。與信息過載和信息冗余等問題。尤其是在網絡人口基數較大的中國根據中國互聯網絡信息中心第 40 次《中國互聯網發(fā)展狀況統計017 年我國網民的數量已達將近 8 億人,互聯網普及率為 54.3%
第 2 章 相關理論和方法類預處理技術類作為文本挖掘與信息檢索的重要研究領域之一,有著廣泛用途,統、新聞熱搜等應用中都有著文本聚類的影子。在眾多網絡信息中薦今日的熱點話題,或者是根據用戶瀏覽習慣所推測出其可能感興聚類的幫助。聚類分析作為一種無監(jiān)督的學習,和分類最大的區(qū)別數據的特征和屬性進行訓練和學習。一個高效的文本聚類方法可以構的數據最終處理為一個個簇內相似度較高的數據集,方便用戶對本聚類的大概流程如下:
≥<=(())()()(())()idididididididPbestfXtfPbestXtfXtfPbestPbest 步驟法的步驟如下:化粒子,種群規(guī)模設置為M(一般設置粒子數為 20-5 [,]minmaxV V內隨機生成粒子的初始位置 (0)idX 和初始子等參數。每個粒子 X(t)id的適應度值。公式(2-18)更新每個粒子的idPbest 和種群的 Gbest 。迭代公式(2-16)和(2-17)更新粒子速度和位置即 V(tid是否達到終止條件即滿足迭代次數或者適應度精度1,返回步驟 2。圖如下:
本文編號:2782984
【學位授予單位】:哈爾濱工程大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.1
【圖文】:
第 1 章 緒論究的背景及意義網等新興媒體的普及,人們能獲取到的信息內容更加豐富,獲取。對于熱點事件來說,從發(fā)生到傳播幾乎呈現指數型的速率。與信息過載和信息冗余等問題。尤其是在網絡人口基數較大的中國根據中國互聯網絡信息中心第 40 次《中國互聯網發(fā)展狀況統計017 年我國網民的數量已達將近 8 億人,互聯網普及率為 54.3%
第 2 章 相關理論和方法類預處理技術類作為文本挖掘與信息檢索的重要研究領域之一,有著廣泛用途,統、新聞熱搜等應用中都有著文本聚類的影子。在眾多網絡信息中薦今日的熱點話題,或者是根據用戶瀏覽習慣所推測出其可能感興聚類的幫助。聚類分析作為一種無監(jiān)督的學習,和分類最大的區(qū)別數據的特征和屬性進行訓練和學習。一個高效的文本聚類方法可以構的數據最終處理為一個個簇內相似度較高的數據集,方便用戶對本聚類的大概流程如下:
≥<=(())()()(())()idididididididPbestfXtfPbestXtfXtfPbestPbest 步驟法的步驟如下:化粒子,種群規(guī)模設置為M(一般設置粒子數為 20-5 [,]minmaxV V內隨機生成粒子的初始位置 (0)idX 和初始子等參數。每個粒子 X(t)id的適應度值。公式(2-18)更新每個粒子的idPbest 和種群的 Gbest 。迭代公式(2-16)和(2-17)更新粒子速度和位置即 V(tid是否達到終止條件即滿足迭代次數或者適應度精度1,返回步驟 2。圖如下:
【參考文獻】
相關期刊論文 前10條
1 周晨曦;梁循;齊金山;;基于約束動態(tài)更新的半監(jiān)督層次聚類算法[J];自動化學報;2015年07期
2 孟祥武;劉樹棟;張玉潔;胡勛;;社會化推薦系統研究[J];軟件學報;2015年06期
3 陳壽文;;基于質心和自適應指數慣性權重改進的粒子群算法[J];計算機應用;2015年03期
4 熊眾望;羅可;;基于改進的簡化粒子群聚類算法[J];計算機應用研究;2014年12期
5 文順;趙杰煜;朱紹軍;;基于貝葉斯和諧度的層次聚類[J];模式識別與人工智能;2013年12期
6 翟東海;魚江;高飛;于磊;丁鋒;;最大距離法選取初始簇中心的K-means文本聚類算法的研究[J];計算機應用研究;2014年03期
7 劉海峰;蘇展;劉守生;;一種基于詞頻信息的改進CHI文本特征選擇[J];計算機工程與應用;2013年22期
8 王民;尹超;王稚慧;要趁紅;高婧;;Binary-Positive下的并行化CURE算法[J];計算機工程與應用;2014年11期
9 郝文寧;馮波;陳剛;靳大尉;趙水寧;;基于領域本體的文檔向量空間模型構建[J];計算機應用研究;2013年03期
10 吳曉軍;李峰;馬悅;辛云宏;;均勻搜索粒子群算法的收斂性分析[J];電子學報;2012年06期
相關碩士學位論文 前1條
1 何晏成;基于近鄰傳播和凝聚層次的文本聚類方法[D];哈爾濱工業(yè)大學;2010年
本文編號:2782984
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2782984.html