基于改進(jìn)LDA和K-means算法的主題句聚類(lèi)
本文關(guān)鍵詞:基于改進(jìn)LDA和K-means算法的主題句聚類(lèi) 出處:《計(jì)算機(jī)應(yīng)用》2016年S2期 論文類(lèi)型:期刊論文
更多相關(guān)文章: 潛在狄立克雷分布 K-means算法 最小描述長(zhǎng)度算法 句子聚類(lèi)
【摘要】:針對(duì)隱含狄利克雷分布(LDA)主題個(gè)數(shù)的隨機(jī)選定和傳統(tǒng)K-means算法初始聚類(lèi)中心選擇的隨機(jī)性等缺陷,提出一種新穎啟發(fā)式的主題句聚類(lèi)方法。該方法利用文檔集聚類(lèi)簇?cái)?shù)與拆分為句子集中隱藏的主題數(shù)目一致特點(diǎn),先通過(guò)層次聚類(lèi)分析出文檔集聚類(lèi)簇,采用最小描述長(zhǎng)度(MDL)剪枝算法來(lái)確定最佳聚類(lèi)數(shù)n個(gè),然后將n作為隱含狄利克雷分布的主題數(shù)目的先驗(yàn)參數(shù),計(jì)算n個(gè)主題所在維度上的重要句子作為初始聚類(lèi)中心,最終完成隱含主題句聚類(lèi)。實(shí)驗(yàn)結(jié)果表明改進(jìn)后聚類(lèi)算法克服了噪聲數(shù)據(jù)的干擾,避免了主題數(shù)的經(jīng)驗(yàn)誤差,聚類(lèi)結(jié)果更精確。
【作者單位】: 重慶大學(xué)計(jì)算機(jī)學(xué)院;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(60873200,90818028)
【分類(lèi)號(hào)】:TP391.1
【正文快照】: 0引言隨著移動(dòng)互聯(lián)網(wǎng)的蓬勃發(fā)展,網(wǎng)絡(luò)信息量以指數(shù)級(jí)增加,特別是文本信息,如何精準(zhǔn)有效地發(fā)現(xiàn)、組織和利用海量文本背后的有用信息成為一個(gè)熱門(mén)話(huà)題[1]。句子聚類(lèi)技術(shù)作為自然語(yǔ)言處理(Natural Language Processing,NLP)的預(yù)處理步驟,對(duì)文本進(jìn)一步分析和處理產(chǎn)生了重要的影響,
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 張亞萍;胡學(xué)鋼;;基于K-means的樸素貝葉斯分類(lèi)算法的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年11期
2 劉運(yùn);殷建平;程杰仁;蔡志平;;基于k-Means改進(jìn)算法的分布式拒絕服務(wù)攻擊檢測(cè)[J];計(jì)算機(jī)工程與科學(xué);2008年12期
3 張濟(jì)強(qiáng);高玉良;;遺傳模擬退火算法在k-means聚類(lèi)中的應(yīng)用[J];電腦知識(shí)與技術(shù);2012年07期
4 賈花萍;李堯龍;哈渭濤;史曉影;;K-means聚類(lèi)神經(jīng)網(wǎng)絡(luò)分類(lèi)器在睡眠腦電分期中的應(yīng)用研究[J];河南科學(xué);2012年06期
5 李學(xué)勇;高國(guó)紅;孫甲霞;;基于互信息和K-means聚類(lèi)的信息安全風(fēng)險(xiǎn)評(píng)估[J];河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期
6 郁雪;李敏強(qiáng);;一種結(jié)合有效降維和K-means聚類(lèi)的協(xié)同過(guò)濾推薦模型[J];計(jì)算機(jī)應(yīng)用研究;2009年10期
7 屈新懷;高萬(wàn)里;丁必榮;李朕;;基于聚類(lèi)數(shù)和初始值的K-means算法改進(jìn)研究[J];組合機(jī)床與自動(dòng)化加工技術(shù);2011年04期
8 邊鵬;趙妍;蘇玉召;;一種改進(jìn)的K-means算法最佳聚類(lèi)數(shù)確定方法[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2011年09期
9 宗瑜;金萍;李明楚;;BK-means:骨架初始解K-means[J];計(jì)算機(jī)工程與應(yīng)用;2009年14期
10 韓凌波;;一種新的K-means最佳聚類(lèi)數(shù)確定方法[J];現(xiàn)代計(jì)算機(jī);2013年30期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條
1 楊青;劉曄;張東旭;劉暢;;快速查找最優(yōu)初始聚類(lèi)數(shù)K的改進(jìn)K-means算法[A];中國(guó)自動(dòng)化學(xué)會(huì)控制理論專(zhuān)業(yè)委員會(huì)A卷[C];2011年
2 陳磊;胡佳敏;嚴(yán)華;;K-means算法在散貨船代貨運(yùn)系統(tǒng)中的應(yīng)用[A];全國(guó)第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國(guó)第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2009年
3 鄭建軍;甘仞初;賀躍;畢思飛;;一種基于k-means的聚類(lèi)集成方法[A];全國(guó)第九屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)會(huì)議論文集[C];2005年
4 張望;王輝;;個(gè)性化服務(wù)中的并行K-Means聚類(lèi)算法[A];2007年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2007年
5 江華;王翰虎;陳梅;;一種基于K-means聚類(lèi)分組的P2P超結(jié)點(diǎn)模型[A];2005年全國(guó)開(kāi)放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年
6 王守強(qiáng);朱大銘;史士英;;基于輸入點(diǎn)集求解k-Means聚類(lèi)算法[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陳智;基于K-means聚類(lèi)算法的機(jī)會(huì)網(wǎng)絡(luò)群組移動(dòng)模型及其長(zhǎng)相關(guān)性研究[D];湘潭大學(xué);2015年
2 許允棟;K-means聚類(lèi)算法的改進(jìn)與應(yīng)用[D];廣西師范大學(xué);2015年
3 丁斌;基于布谷鳥(niǎo)算法的K-means聚類(lèi)挖掘算法研究[D];合肥工業(yè)大學(xué);2015年
4 梁云昭;基于K-means的圍棋特征提取方法研究[D];北京理工大學(xué);2015年
5 于洋洋;基于并行K-MEANS聚類(lèi)分析的社群發(fā)現(xiàn)算法研究[D];東北大學(xué);2012年
6 崔曉麗;基于MapReduce的海量數(shù)據(jù)K-means聚類(lèi)算法研究[D];大連理工大學(xué);2014年
7 高存彬;基于K-Means聚類(lèi)法的水團(tuán)劃分算法和可視化研究[D];中國(guó)海洋大學(xué);2008年
8 劉建國(guó);改進(jìn)的K-means算法及其在采油數(shù)據(jù)分析中的應(yīng)用[D];北京郵電大學(xué);2010年
9 陳翠卓;移動(dòng)平臺(tái)下基于K-means的租房信息聚類(lèi)算法研究與實(shí)現(xiàn)[D];華中師范大學(xué);2014年
10 高利軍;基于K-Means聚類(lèi)算法的智能化站點(diǎn)設(shè)計(jì)與實(shí)現(xiàn)[D];河南科技大學(xué);2007年
,本文編號(hào):1317306
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1317306.html