天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于LDA-HMM的知識流動模式發(fā)現(xiàn)研究

發(fā)布時間:2020-10-17 14:56
   【目的/意義】知識流動模式能夠動態(tài)反映知識形態(tài)在知識流動中發(fā)生的變化,體現(xiàn)學科系統(tǒng)中不同知識體系的發(fā)展規(guī)律,因此從科學文獻角度出發(fā)研究知識流動模式的發(fā)現(xiàn)具有重要意義。【方法/過程】以圖書情報學領域為例,設計一種組合方法,首先采用LDA(latent Dirichlet allocation,隱狄里克雷分布)主題模型進行領域內文獻的主題聚類,然后提取引用和被引用數(shù)據(jù)構成主題知識流入、流出特征,并作為HMM(Hidden Markov Model,隱馬爾可夫模型)訓練模型的觀測值序列,識別不同的隱藏狀態(tài),進一步對模型的擬合效果進行評估,最后通過聚類分析將隱藏狀態(tài)序列與知識流動模式一一對應,揭示圖書情報學領域存在不同知識流動模式的差異性。【結果/結論】實驗結果顯示,不同類型的知識流動模式具有不同的表現(xiàn)形式,反映了領域內部主題研究的演變歷程,為理解和認識科學發(fā)展趨勢具有一定價值。
【部分圖文】:

模式圖,知識流動,模式,方法


本文以圖書情報領域期刊引用數(shù)據(jù)為例進行實證分析,通過LDA主題模型劃分知識單元,將知識流入、流出作為HMM模型訓練輸入?yún)?shù),對比不同主題知識流動表現(xiàn),以揭示圖書情報領域主要的知識流動過程及規(guī)律,為探究學科知識系統(tǒng)動態(tài)發(fā)展的理論和實踐方面提供一個新視角,具體過程如圖1。3.1 LDA主題模型

折線圖,主題,折線圖


首先,對圖書情報領域數(shù)據(jù)集進行主題生成,主題數(shù)K取5至120區(qū)間(步長為5),運行參數(shù)α為50/K(K為主題數(shù)),β為0.01,迭代次數(shù)為1000。然后,根據(jù)公式(1)計算不同主題數(shù)下的困惑度值,結果見圖2。橫坐標表示主題數(shù)K,縱坐標表示困惑度值Perplexity。圖中的曲線顯示,困惑度值隨著主題數(shù)的增加呈現(xiàn)出先減小后增加的趨勢,當主題數(shù)為25時,困惑度值達到最小值2.206。按照困惑度最小LDA聚類效果最佳的原則,本文取最優(yōu)主題數(shù)為25。5.1.2 LDA主題分類結果

等高線圖,概率密度函數(shù),等高線圖,狀態(tài)


HMM模型是一個雙重隨機過程,一重是描述隱狀態(tài)與觀測值之間的對應關系,另一重是描述狀態(tài)之間的轉移關系。本文Baum-Welch算法的實現(xiàn)是利用Python的隱馬爾科夫HMMLearn庫實現(xiàn),對表2中的樣本數(shù)據(jù)進行訓練,構建多維連續(xù)HMM模型。隱狀態(tài)的確定是HMM模型中的重要問題,根據(jù)公式(2)BIC準則計算公式,輸入不同隱狀態(tài)數(shù)訓練HMM并計算模型的BIC值,得到結果見表3。結果顯示,當狀態(tài)數(shù)為6時,BIC值達到最小為5125.72,因此根據(jù)“BIC值越小,模型越優(yōu)”的原則,取知識流動隱狀態(tài)數(shù)為6,模型適配度最好。設定隱狀態(tài)數(shù)為6,提取25個主題樣本的知識流入、流出特征,輸入到最終訓練的HMM值中進行識別,得到每個觀測值對應的隱狀態(tài)(狀態(tài)1至狀態(tài)6)。聚集不同隱狀態(tài)對應的知識流入、知識流出特征,繪制等高線圖,見圖3;圖3中橫、縱坐標為知識流入、流出自變量,因變量用二元偏態(tài)分布概率密度函數(shù)表示。
【相似文獻】

相關期刊論文 前1條

1 陳偉;林超然;李金秋;楊早立;;基于LDA-HMM的專利技術主題演化趨勢分析——以船用柴油機技術為例[J];情報學報;2018年07期



本文編號:2844941

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/tushudanganlunwen/2844941.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶d0fd3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com