基于LSTM和LDA的可再生能源領(lǐng)域主題分類研究
發(fā)布時(shí)間:2021-08-19 18:04
如今,各學(xué)科的科研文獻(xiàn)數(shù)量都呈現(xiàn)快速增長(zhǎng)的趨勢(shì),并且學(xué)科之間日益深化交叉,呈現(xiàn)出研究主題分支眾多,發(fā)展不平衡的狀態(tài),這種情況加重了科研人員精準(zhǔn)搜索信息的難度,也不利于科研人員理清學(xué)科的研究進(jìn)展和跟蹤領(lǐng)域前沿。本文以研究電氣電子學(xué)科可再生能源領(lǐng)域的文獻(xiàn)為例,作為這個(gè)重要領(lǐng)域的一個(gè)新嘗試,將隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)方法運(yùn)用到該領(lǐng)域的主題分布探測(cè)中,旨在為學(xué)術(shù)研究人員提供該領(lǐng)域最清晰的發(fā)展背景和組織結(jié)構(gòu)。首先,本文通過應(yīng)用統(tǒng)計(jì)分析,LDA主題模型和自回歸整合移動(dòng)平均模型(AutoRegressive Integrated Moving Average,ARIMA),將電氣電子學(xué)科可再生能源領(lǐng)域文獻(xiàn)劃分為29個(gè)不同的主題,并在兩個(gè)時(shí)間段內(nèi)分析主題的增長(zhǎng)特征。在此基礎(chǔ)上,根據(jù)每個(gè)主題的發(fā)展軌跡,預(yù)測(cè)它們未來的發(fā)展熱度,并分類為冷,熱和穩(wěn)定三種。本文還匯總了每個(gè)主題中最受歡迎的期刊和引文的統(tǒng)計(jì)數(shù)據(jù),從而使研究人員和期刊編輯易于欣賞和應(yīng)用,進(jìn)而本文結(jié)合現(xiàn)有技術(shù)和文獻(xiàn)分析...
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1連續(xù)詞袋模型的訓(xùn)練框架??CBOW模型是具有三層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò):輸入層,投影層和輸出層[35]
?yp{zx\dD)?■■■?p{zK\dD)y??每個(gè)主題i由大小為V的詞匯表(所有文檔中的單詞集合)的概率分布??確定,表示以主題T為條件在詞匯表中檢測(cè)單詞v的可能性。LDA??模型認(rèn)為一篇文檔是通過以下過程生成的:??第一步:從泊松分布中抽取文檔長(zhǎng)度??第二步:通過狄利克雷分布獲取文檔的主題分布0??第三步:生成一篇文檔的每一個(gè)詞時(shí)for?n=l?to?N:??(a):從文檔的主題分布中,抽取一個(gè)特定主題腦omz_a/(<9);??(b):從概率,約抽取一個(gè)單詞wn。??圖2-2為LDA概率模型圖,分為三層級(jí)別,參數(shù)a和戶是語(yǔ)料庫(kù)級(jí)的??參數(shù),在生成語(yǔ)料庫(kù)的時(shí)采樣一次。變量&是文檔級(jí)的變量,更薪每篇文檔??時(shí)采樣一次。\?和%?是單詞級(jí)變量,更新每個(gè)單詞時(shí)采樣一次。??a-ofo^tn??a?〇?z?w?n??D??圖2-2?LDA概率模型圖??10??
?山東大學(xué)碩士學(xué)位論文???根據(jù)圖2-2,可知戶(4?|?a)表示以a為條件觀察文檔d的主題分布&的概??率。;?(7,??丨&)表示在文檔的主題分布條件概率下,文檔d中單詞XI的主題??是的概率。最終在和/?的條件概率下,第d篇文章第n個(gè)單詞的概??率是通過計(jì)算所有可能的主題分配、文檔中所有單詞的乘??積和文本中所有文檔的乘積之和,語(yǔ)料庫(kù)生成的概率為公式P-5)。??D?f?N,?)??Y[p^ed?I??)?nZ^,??I?&j)P(Wd,n?I?■?(2-5)??j=i?Vn=l?Zd-??y????LDA建模的目標(biāo)是找到每篇文檔中每個(gè)單詞的最佳主題分配,以及最??大化每個(gè)主題的最佳單詞概率,若直接求解需要將所有文檔中所有單詞的所??有可能主題分配相加,然而計(jì)算上無(wú)法實(shí)現(xiàn),因此,LDA的核心推理問題??是確定給定文檔的潛在變量的后驗(yàn)分布[9],如公式(2-6)。??p^Z\W,a,P)?=?P^zMa^)?(2-6)??p{w\a,P)??David?Blie提出的利用變分推理方法為近似似然和后驗(yàn)分布求解提供了??一種確定性方法[37]。變分推理的基礎(chǔ)是基于凸函數(shù)Jensen不等式的性質(zhì),??通過近似LDA后驗(yàn)分布從而將計(jì)算問題重新表述為一個(gè)優(yōu)化問題,近似后??驗(yàn)分布的變分分布概率模型圖如圖2-3所示,近似分布的分布特征為式P-7):??q{0,?z\/,</>)?=?q{61?r)Yl^zn?1(2-7)??'.爾?.???D_??圖2-3近似LDA后驗(yàn)的變分分布概率模型圖??最后利用EM算法在E步中找到變分參數(shù)最優(yōu)化值。在M步中最??大化對(duì)數(shù)似然,求解模型的a和0參數(shù)。?
【參考文獻(xiàn)】:
期刊論文
[1]轉(zhuǎn)型時(shí)代能源安全問題思考與中國(guó)方案[J]. 李俊峰,江思羽. 中國(guó)能源. 2020(01)
[2]專業(yè)社交媒體中的主題知識(shí)元抽取方法研究[J]. 林杰,苗潤(rùn)生,張振宇. 圖書情報(bào)工作. 2019(14)
[3]整合主題的學(xué)科知識(shí)網(wǎng)絡(luò)構(gòu)建與演化分析框架研究[J]. 關(guān)鵬,王曰芬,曹嘉君. 情報(bào)科學(xué). 2018(09)
[4]基于CTM模型的觀點(diǎn)挖掘和可視化[J]. 馬長(zhǎng)林,謝羅迪,陳夢(mèng)麗. 計(jì)算機(jī)工程與科學(xué). 2018(04)
[5]基于word2vec和LSTM的飲食健康文本分類研究[J]. 趙明,杜會(huì)芳,董翠翠,陳長(zhǎng)松. 農(nóng)業(yè)機(jī)械學(xué)報(bào). 2017(10)
[6]時(shí)間序列數(shù)據(jù)挖掘綜述[J]. 賈澎濤,何華燦,劉麗,孫濤. 計(jì)算機(jī)應(yīng)用研究. 2007(11)
本文編號(hào):3351883
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1連續(xù)詞袋模型的訓(xùn)練框架??CBOW模型是具有三層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò):輸入層,投影層和輸出層[35]
?yp{zx\dD)?■■■?p{zK\dD)y??每個(gè)主題i由大小為V的詞匯表(所有文檔中的單詞集合)的概率分布??確定,表示以主題T為條件在詞匯表中檢測(cè)單詞v的可能性。LDA??模型認(rèn)為一篇文檔是通過以下過程生成的:??第一步:從泊松分布中抽取文檔長(zhǎng)度??第二步:通過狄利克雷分布獲取文檔的主題分布0??第三步:生成一篇文檔的每一個(gè)詞時(shí)for?n=l?to?N:??(a):從文檔的主題分布中,抽取一個(gè)特定主題腦omz_a/(<9);??(b):從概率,約抽取一個(gè)單詞wn。??圖2-2為LDA概率模型圖,分為三層級(jí)別,參數(shù)a和戶是語(yǔ)料庫(kù)級(jí)的??參數(shù),在生成語(yǔ)料庫(kù)的時(shí)采樣一次。變量&是文檔級(jí)的變量,更薪每篇文檔??時(shí)采樣一次。\?和%?是單詞級(jí)變量,更新每個(gè)單詞時(shí)采樣一次。??a-ofo^tn??a?〇?z?w?n??D??圖2-2?LDA概率模型圖??10??
?山東大學(xué)碩士學(xué)位論文???根據(jù)圖2-2,可知戶(4?|?a)表示以a為條件觀察文檔d的主題分布&的概??率。;?(7,??丨&)表示在文檔的主題分布條件概率下,文檔d中單詞XI的主題??是的概率。最終在和/?的條件概率下,第d篇文章第n個(gè)單詞的概??率是通過計(jì)算所有可能的主題分配、文檔中所有單詞的乘??積和文本中所有文檔的乘積之和,語(yǔ)料庫(kù)生成的概率為公式P-5)。??D?f?N,?)??Y[p^ed?I??)?nZ^,??I?&j)P(Wd,n?I?■?(2-5)??j=i?Vn=l?Zd-??y????LDA建模的目標(biāo)是找到每篇文檔中每個(gè)單詞的最佳主題分配,以及最??大化每個(gè)主題的最佳單詞概率,若直接求解需要將所有文檔中所有單詞的所??有可能主題分配相加,然而計(jì)算上無(wú)法實(shí)現(xiàn),因此,LDA的核心推理問題??是確定給定文檔的潛在變量的后驗(yàn)分布[9],如公式(2-6)。??p^Z\W,a,P)?=?P^zMa^)?(2-6)??p{w\a,P)??David?Blie提出的利用變分推理方法為近似似然和后驗(yàn)分布求解提供了??一種確定性方法[37]。變分推理的基礎(chǔ)是基于凸函數(shù)Jensen不等式的性質(zhì),??通過近似LDA后驗(yàn)分布從而將計(jì)算問題重新表述為一個(gè)優(yōu)化問題,近似后??驗(yàn)分布的變分分布概率模型圖如圖2-3所示,近似分布的分布特征為式P-7):??q{0,?z\/,</>)?=?q{61?r)Yl^zn?1(2-7)??'.爾?.???D_??圖2-3近似LDA后驗(yàn)的變分分布概率模型圖??最后利用EM算法在E步中找到變分參數(shù)最優(yōu)化值。在M步中最??大化對(duì)數(shù)似然,求解模型的a和0參數(shù)。?
【參考文獻(xiàn)】:
期刊論文
[1]轉(zhuǎn)型時(shí)代能源安全問題思考與中國(guó)方案[J]. 李俊峰,江思羽. 中國(guó)能源. 2020(01)
[2]專業(yè)社交媒體中的主題知識(shí)元抽取方法研究[J]. 林杰,苗潤(rùn)生,張振宇. 圖書情報(bào)工作. 2019(14)
[3]整合主題的學(xué)科知識(shí)網(wǎng)絡(luò)構(gòu)建與演化分析框架研究[J]. 關(guān)鵬,王曰芬,曹嘉君. 情報(bào)科學(xué). 2018(09)
[4]基于CTM模型的觀點(diǎn)挖掘和可視化[J]. 馬長(zhǎng)林,謝羅迪,陳夢(mèng)麗. 計(jì)算機(jī)工程與科學(xué). 2018(04)
[5]基于word2vec和LSTM的飲食健康文本分類研究[J]. 趙明,杜會(huì)芳,董翠翠,陳長(zhǎng)松. 農(nóng)業(yè)機(jī)械學(xué)報(bào). 2017(10)
[6]時(shí)間序列數(shù)據(jù)挖掘綜述[J]. 賈澎濤,何華燦,劉麗,孫濤. 計(jì)算機(jī)應(yīng)用研究. 2007(11)
本文編號(hào):3351883
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3351883.html
最近更新
教材專著