基于LDA模型的圖書情報學向計算機科學知識流動分析
【學位授予單位】:曲阜師范大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:G353.1
【圖文】:
圖 2-1 LD 模型概率公式圖 2-1 為 LDA 模型概率公式圖,“主題-詞語”矩陣代表每個主題中每個詞語出現(xiàn)“文檔-主題”矩陣代表每個文檔中的每個主題出現(xiàn)的概率!拔臋n-詞語”矩陣代表中每個詞語出現(xiàn)的概率。通過對大量文檔進行分詞工作,計算出每個詞語出現(xiàn)在中的概率,如圖中左側文檔-詞語矩陣。LDA 模型作為無監(jiān)督的學習模型,可以訓練,獲得例如圖中右側主題-詞語和文檔-主題矩陣;谏鲜鰞蓚矩陣,可以下一步研究。D.M.Blei 使用的是 Mean Field Variational 推理算法,將主題-文檔分布θ作為多維在隨機變量,引入超參數α來生成參數,但只對文檔-主題的混合參數加上了 Di,沒有對主題-詞語概率分布進行先驗假設。T.L.Giffiths 則在文獻中對主題-詞語上加上先驗,基于多項式分布和 Dirichlet 分布共軛特性,提出了 Gibbs 算法,并數 β 來生成參數,該模型原理見圖 2-2。
圖 2-2 LD 模型原理2 中,箭頭代表依賴關系,矩形方框代表矩形方框內的內容進隱含參數和變量,實心節(jié)點表示可被觀測值,由θ表示文檔的主詞分布的參數集合,每行代表某個主題的詞項概率,α則表示檔個數,K 表示主題數量;W 是關鍵詞,W 的主題序號是 接計算出θ和φ,通常情況下需要借助最大似然估計來完成參數aritionalinference 算法、EM 算法、Gibbs 算法,Gibbs 因其較而得到廣泛的應用。型的文檔生成結果如表 2-1 所示。表 2-1 LDA 模型文檔生成結果X.others保存與 LDA 模型相關參數X.phi保存詞在主題下的概率分布矩陣
圖 2-3 確定最優(yōu)主題數目方法常用的 3 種方法來獲取最優(yōu)主題數目都存在一定的不足,本文選取開源軟件不同主題數目下困惑度 (Perplexity) 的變化,來確定主題數目。開源軟件 R軟件 R 誕生于 1980 年左右,其統(tǒng)計分析和繪圖功能都非常強大,具有很多值點:首先,它的開發(fā)周期較短,在 CRAN 庫里包含有大量的函數包;其次,它
【相似文獻】
相關期刊論文 前10條
1 錢思晨;肖龍翔;岑炅蓮;;我國圖書情報學數據素養(yǎng)教育內容及框架研究[J];圖書館研究;2019年03期
2 孟巍;;大數據驅動下的圖書情報學科熱點領域挖掘[J];農業(yè)圖書情報學刊;2018年07期
3 劉波;;知識管理與圖書情報學的變革[J];傳媒論壇;2018年09期
4 姚川軍;;大數據背景下圖書情報學科人才培養(yǎng)模式研究[J];山東工業(yè)技術;2017年02期
5 ;歡迎訂閱2018年度《農業(yè)圖書情報學刊》[J];農業(yè)展望;2017年06期
6 劉忠寶;趙文娟;賈君枝;;深度學習及其對圖書情報學的啟示[J];情報工程;2017年04期
7 ;陜西省圖書館學會第十次圖書情報學學術成果評獎結果揭曉[J];當代圖書館;2017年03期
8 湯敬謙;楊鶴林;;熱點、網絡與態(tài)勢:國外圖書情報學領域元數據研究的知識圖譜分析[J];圖書館學研究;2016年06期
9 王紅;白才進;雷菊霞;;智庫視角下圖書情報學學科發(fā)展范式和未來變革趨勢[J];圖書館學研究;2016年13期
10 楊穎;;大數據背景下圖書情報學科教學模式創(chuàng)新研究[J];魅力中國;2017年05期
相關會議論文 前7條
1 劉宇;張云中;魏瑞斌;謝歡;;2012-2013年上海圖書情報學研究進展述評[A];上海學術報告(2012-2013)[C];2015年
2 李敏;;淺議圖書情報學的可持續(xù)發(fā)展[A];山西省科技情報學會2004年學術年會論文集[C];2005年
3 陳福蓉;李建霞;;基于圖書情報學的國家社科基金古籍保護立項分析[A];廣西圖書館學會2012年年會暨第30次科學討論會論文集[C];2012年
4 歐陽劍;周添良;胡雅瓊;;“互聯(lián)網+”視域下的我國圖書情報學教育模式變革探析[A];中國圖書館學會年會論文集(2017年卷)[C];2018年
5 張爾君;;加強行業(yè)協(xié)會組織建設 助推圖書情報事業(yè)發(fā)展——市地級圖書情報學會發(fā)展思考[A];全國中小型公共圖書館聯(lián)合會2015年研討會會議論文集(一)[C];2015年
6 ;提升公眾素養(yǎng) 造就文化強市[A];黑龍江省社科工作經驗交流會材料匯編[C];2010年
7 杜娜;;淺議圖書館館員的終身教育[A];新世界中國教育發(fā)展論壇 第二卷[C];2007年
相關重要報紙文章 前5條
1 湘潭大學公共管理學院 關影;從知識圖譜視角看中外圖書情報學科進展[N];新華書目報;2016年
2 圖娃;圖書情報學需建資格認證體系[N];中國社會科學報;2010年
3 中國科技信息研究所研究員 武夷山;不可忽視信息在文化產業(yè)中的作用[N];光明日報;2007年
4 實習生 李洪威 記者 張偉國;省社科院延邊州分院成立[N];吉林日報;2009年
5 記者 李思輝 王才忠;學術繁榮有新篇[N];湖北日報;2013年
相關博士學位論文 前1條
1 程妮;基于引文的知識轉移研究[D];武漢大學;2009年
相關碩士學位論文 前10條
1 倪弘;美國圖書情報學研究生教育對中國的啟示[D];山西財經大學;2019年
2 杜含雙;期刊引證視角下圖書情報學知識交流結構分析[D];西南科技大學;2019年
3 于娜;基于LDA模型的圖書情報學向計算機科學知識流動分析[D];曲阜師范大學;2019年
4 于舒曼;基于共詞聚類的圖書情報學與新聞傳播學學科交叉研究[D];曲阜師范大學;2019年
5 王佳佳;海峽兩岸圖書情報學領域博碩士學位論文對比研究[D];東北師范大學;2018年
6 郭驊祥;我國圖書情報學學科交叉計量分析[D];鄭州大學;2018年
7 劉敏;我國圖書情報學學科交叉知識網絡的構建及演化研究[D];曲阜師范大學;2018年
8 朱彥君;近十年圖書情報學科學結構及演進研究[D];曲阜師范大學;2018年
9 李小北;圖書情報學領域研究方法的效度研究[D];河北大學;2018年
10 武正谷;基于CiteSpace分析的我國圖書情報學科發(fā)展研究[D];山西醫(yī)科大學;2018年
本文編號:2777614
本文鏈接:http://www.sikaile.net/tushudanganlunwen/2777614.html