基于機器學習的文獻挖掘算法研究
發(fā)布時間:2021-10-10 03:58
隨著科研人員數(shù)量的不斷增長,學術文獻也是與日增長,這就使得對文獻分類具有十分重要的意義。應用于多領域文檔集合的分類算法種類繁多,應用廣泛,然而,諸如文本全是關于室內定位或者全是關于醫(yī)學等這樣窄領域的文獻分類應用,是一個極其困難的任務。盡管在科學研究中發(fā)揮著很重要的作用,卻沒有得到很好的研究。本文的研究重點是針對SpringerLink窄域文獻數(shù)據(jù)進行處理,提取出好的文本特征,并得到好的分類效果,主要工作如下:(1)本文在傳統(tǒng)LDA分類模型的基礎上,引入詞向量表示,融合詞向量語義,提出基于LDA和Word2vec特征擴展文本表示方法,分別從主題和詞語上下文語義上學習特征。在“indoor location”和“computer science”文獻語料下的實驗結果表明,基于LDA和Word2vec的特征擴展分類性能明顯優(yōu)于LDA、LDA-w2v兩種基礎模型,其更加精細地表達了短文本語義信息,一定程度上克服了短文本稀疏問題和主題聚焦性差的問題,并且基于LDA和Word2vec的特征擴展分類本質上是一種半監(jiān)督學習方法,無需大量標注語料集。(2)為了更好的解決主題聚焦性差問題,本文引入摘要提取...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
SpringerLink網頁結構圖
994-2018年“indoorlocation”、“computerscience”主題在各個研究方向的學術文獻發(fā)
摘要中句子間的距離示例
【參考文獻】:
期刊論文
[1]LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻為例[J]. 王婷婷,韓滿,王宇. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(01)
[2]基于主題相似度的宏觀篇章主次關系識別方法[J]. 蔣峰,褚曉敏,徐昇,李培峰,朱巧明. 中文信息學報. 2018(01)
[3]一種新型樸素貝葉斯文本分類算法[J]. 邸鵬,段利國. 數(shù)據(jù)采集與處理. 2014(01)
[4]基于LDA主題模型的短文本分類方法[J]. 張志飛,苗奪謙,高燦. 計算機應用. 2013(06)
[5]基于LDA模型的文本分類研究[J]. 姚全珠,宋志理,彭程. 計算機工程與應用. 2011(13)
[6]文本分類中基于基尼指數(shù)的特征選擇算法研究[J]. 尚文倩,黃厚寬,劉玉玲,林永民,瞿有利,董紅斌. 計算機研究與發(fā)展. 2006(10)
[7]中文文本分類中的特征選擇研究[J]. 周茜,趙明生,扈旻. 中文信息學報. 2004(03)
[8]基于最大熵模型的組塊分析[J]. 李素建,劉群,楊志峰. 計算機學報. 2003(12)
[9]分類法的發(fā)展趨勢簡論[J]. 侯漢清. 情報科學. 1981(01)
碩士論文
[1]文本表示模型和特征選擇算法研究[D]. 陳磊.中國科學技術大學 2017
本文編號:3427598
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
SpringerLink網頁結構圖
994-2018年“indoorlocation”、“computerscience”主題在各個研究方向的學術文獻發(fā)
摘要中句子間的距離示例
【參考文獻】:
期刊論文
[1]LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻為例[J]. 王婷婷,韓滿,王宇. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(01)
[2]基于主題相似度的宏觀篇章主次關系識別方法[J]. 蔣峰,褚曉敏,徐昇,李培峰,朱巧明. 中文信息學報. 2018(01)
[3]一種新型樸素貝葉斯文本分類算法[J]. 邸鵬,段利國. 數(shù)據(jù)采集與處理. 2014(01)
[4]基于LDA主題模型的短文本分類方法[J]. 張志飛,苗奪謙,高燦. 計算機應用. 2013(06)
[5]基于LDA模型的文本分類研究[J]. 姚全珠,宋志理,彭程. 計算機工程與應用. 2011(13)
[6]文本分類中基于基尼指數(shù)的特征選擇算法研究[J]. 尚文倩,黃厚寬,劉玉玲,林永民,瞿有利,董紅斌. 計算機研究與發(fā)展. 2006(10)
[7]中文文本分類中的特征選擇研究[J]. 周茜,趙明生,扈旻. 中文信息學報. 2004(03)
[8]基于最大熵模型的組塊分析[J]. 李素建,劉群,楊志峰. 計算機學報. 2003(12)
[9]分類法的發(fā)展趨勢簡論[J]. 侯漢清. 情報科學. 1981(01)
碩士論文
[1]文本表示模型和特征選擇算法研究[D]. 陳磊.中國科學技術大學 2017
本文編號:3427598
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3427598.html
最近更新
教材專著