基于MapReduce的并行LAD模型評(píng)論主題提取算法研究

發(fā)布時(shí)間：2017-11-23 07:01

本文關(guān)鍵詞：基于MapReduce的并行LAD模型評(píng)論主題提取算法研究

更多相關(guān)文章： LAD模型 MapReduce 評(píng)論主題 k-均值聚類算法

【摘要】：針對(duì)傳統(tǒng)的潛在狄利克雷分析(LDA)模型在提取評(píng)論主題時(shí)存在著計(jì)算時(shí)間長(zhǎng)、計(jì)算效率低的問(wèn)題,提出基于MapReduce架構(gòu)的并行LAD模型建立方法.在文本預(yù)處理的基礎(chǔ)上,得到文檔-主題分布和主題-特征詞分布,分別計(jì)算主題相似度和特征詞權(quán)重,結(jié)合k-均值聚類算法,實(shí)現(xiàn)評(píng)論主題提取的并行化.通過(guò)Hadoop并行計(jì)算平臺(tái)進(jìn)行實(shí)驗(yàn),結(jié)果表明,該方法在處理大規(guī)模文本時(shí)能獲得接近線性的加速比,對(duì)主題模型的建立效果也有提高.
【作者單位】：武警工程大學(xué)研究生管理大隊(duì);福州大學(xué)物理與信息工程學(xué)院;
【基金】：國(guó)家自然科學(xué)基金資助項(xiàng)目(61471124)
【分類號(hào)】：TP391.1
【正文快照】： 0引言主題模型是一種能夠從大規(guī)模文本中發(fā)現(xiàn)文本潛在主題的概率模型,近年來(lái)在文本挖掘領(lǐng)域逐漸成為研究的熱點(diǎn)[1].主題模型起源于潛在語(yǔ)義索引,它的發(fā)展經(jīng)歷了向量空間模型、潛在語(yǔ)義分析模型[2]、概率潛在語(yǔ)義分析模型[3]、LDA模型及LDA擴(kuò)展模型的過(guò)程.主題模型可以形象地表，

本文編號(hào)：1217575

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1217575.html

上一篇：臨床手術(shù)信息采集和分析系統(tǒng)
下一篇：基于隱私保護(hù)的序列模式挖掘

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于MapReduce的并行LAD模型評(píng)論主題提取算法研究