基于MapReduce的并行LAD模型評(píng)論主題提取算法研究
發(fā)布時(shí)間:2017-11-23 07:01
本文關(guān)鍵詞:基于MapReduce的并行LAD模型評(píng)論主題提取算法研究
更多相關(guān)文章: LAD模型 MapReduce 評(píng)論主題 k-均值聚類算法
【摘要】:針對(duì)傳統(tǒng)的潛在狄利克雷分析(LDA)模型在提取評(píng)論主題時(shí)存在著計(jì)算時(shí)間長(zhǎng)、計(jì)算效率低的問(wèn)題,提出基于MapReduce架構(gòu)的并行LAD模型建立方法.在文本預(yù)處理的基礎(chǔ)上,得到文檔-主題分布和主題-特征詞分布,分別計(jì)算主題相似度和特征詞權(quán)重,結(jié)合k-均值聚類算法,實(shí)現(xiàn)評(píng)論主題提取的并行化.通過(guò)Hadoop并行計(jì)算平臺(tái)進(jìn)行實(shí)驗(yàn),結(jié)果表明,該方法在處理大規(guī)模文本時(shí)能獲得接近線性的加速比,對(duì)主題模型的建立效果也有提高.
【作者單位】: 武警工程大學(xué)研究生管理大隊(duì);福州大學(xué)物理與信息工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61471124)
【分類號(hào)】:TP391.1
【正文快照】: 0引言主題模型是一種能夠從大規(guī)模文本中發(fā)現(xiàn)文本潛在主題的概率模型,近年來(lái)在文本挖掘領(lǐng)域逐漸成為研究的熱點(diǎn)[1].主題模型起源于潛在語(yǔ)義索引,它的發(fā)展經(jīng)歷了向量空間模型、潛在語(yǔ)義分析模型[2]、概率潛在語(yǔ)義分析模型[3]、LDA模型及LDA擴(kuò)展模型的過(guò)程.主題模型可以形象地表,
本文編號(hào):1217575
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1217575.html
最近更新
教材專著