天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于機器學習模型的論文自動分類模型研究

發(fā)布時間:2021-11-25 22:39
  隨著數(shù)字圖書館的發(fā)展,每年發(fā)表的論文數(shù)目也越來越大,為了方便大家查閱學習,論文的分類管理成為了亟待解決的問題。傳統(tǒng)的人工分類不僅耗費時間,而且會由于分類工作者的主觀因素導致分類結果出現(xiàn)偏差。因此尋找一個合適的機器學習模型來實現(xiàn)論文的自動分類成為了解決這一問題的最佳方法。本文主要通過分析容易被錯判的論文和被正確分類的論文之間的差別,尋找優(yōu)化模型的方法,以期可以得到一個理想的分類模型和論文分類管理方案。本文從中國知網(wǎng)上按照論文被索引次數(shù)的大小選取7000篇碩士論文作為樣本數(shù)據(jù)。通過Python中的分詞包對論文進行分詞,并以TF-IDF算法計算每個特征詞的權重。隨機森林算法、支持向量機算法和AdaBoost算法是文本挖掘領域應用最廣泛的三個模型,本文通過交叉驗證的方法,并以分類的準確率和模型訓練時間為評價指標從這三個模型中選擇出最適合的模型。在進行初步預測后,發(fā)現(xiàn)被誤判的論文的題名、關鍵字、摘要中包含的特征詞的均較少,導致變量不顯著而被錯分到比較接近的類別中去了。本文通過構建知識圖譜模型,并引用與論文關系最接近的論文中的特征詞補充到論文中去。再次對優(yōu)化后的模型進行預測,預測的正確率明顯提升,... 

【文章來源】:天津財經(jīng)大學天津市

【文章頁數(shù)】:58 頁

【學位級別】:碩士

【部分圖文】:

基于機器學習模型的論文自動分類模型研究


圖2.?1交叉驗證??

云圖,云圖,數(shù)學,論文


.?2.?4基于知識理解篩選特征詞??將分詞后的詞語以列表的形式保存,并分別統(tǒng)計各個類別的詞和對應的詞頻。分不同類別的論文做次云圖。再根據(jù)各學科領域的知識,篩選出能代表各個學科領特征詞。以下是對特征詞的篩選示例。??數(shù)學是研宄數(shù)量、結構、變化、空間以及信息等概念的一門學科。從數(shù)學類論文字詞云圖可以看出,數(shù)學論文高頻詞如全局、混合、邊值問題、混合、分支、信息熵量、整體、方程組、導數(shù)、相似、積極算子、相似性、指數(shù)函數(shù)、級數(shù)、可視化、研究、微積分、最優(yōu)控制等都是數(shù)量、結構、變化空間以及信息的范疇。其作為數(shù)論文的識別詞匯是較為合理的。數(shù)學作為一門基礎理論學科,在很多學科都有應用。??此有些詞匯如傳染病、捕食者、細胞、染色、媒體報道等。應是數(shù)學知識的應用領詞匯,他們的出現(xiàn)具有偶然性,不能作為數(shù)學的專有特征,因此不能放在數(shù)學關鍵頻詞包里。??

金融學,特征詞,貨幣資金,地球物理


;波導調制■劈熱%s辦,巧-|^itgnAb??麵探測超導體嘯1伊敦■■色散i藝太陽目匕??圖3.?2物理類論文特征詞詞云圖??從地球物理類論文的關鍵字的詞云圖可以看出,如地面、重力、拾取、地表水、體??積、速度、泥沙、面向變遷、盆地、面波位場、壓縮、磁測、黃河、構造、地幔、勘測??等都為都為地理類專業(yè)詞匯。如波形、磁法、電法、重力等均屬于物理學的專業(yè)詞匯。??這些詞均可以作為地球物理學的關鍵字高頻詞包。???往罌寒麵泥沙毫K靈?南》肩If場蔚重力??If師賴_^?篇—謹??巨!散__峨雜臓腿讓tefe界面任意…??&黯可舊遺警識睡澀3地?碧綐嬙??圖3.?3地球物理類論文特征詞詞云圖??金融學是以融資貨幣和貨幣資金的經(jīng)濟活動為研究對象的學科。如圖3.?4金融類論??文關鍵字詞云圖,金融類的關鍵字高頻的詞匯。如貿易、存貨、壟斷、協(xié)調效應、匯率、??征信、貨幣等都屬于金融學的專業(yè)詞匯。其中也有一些詞如熱情、畢業(yè)生并不屬于金融??學的專業(yè)范疇。??17??

【參考文獻】:
期刊論文
[1]基于數(shù)據(jù)倉庫的上海圖書館流通分析報告實踐[J]. 宋歌笙,劉靚洲.  圖書館雜志. 2015(02)
[2]基于OPAC日志用戶行為分析的圖書采購新方法[J]. 侯志江,侯玲娟.  圖書館建設. 2015(01)
[3]SVM核函數(shù)對分類精度影響的研究[J]. 劉大寧,楊永樂,白林.  佳木斯大學學報(自然科學版). 2012(04)
[4]一種基于粗糙集文本自動分類的改進算法[J]. 張保富,施化吉.  計算機工程與應用. 2011(24)
[5]基于概率潛在語義分析的中文文本分類研究[J]. 王奕.  甘肅聯(lián)合大學學報(自然科學版). 2011(04)
[6]基于粗糙集特征加權的文本分類[J]. 徐欣,黃理燦,趙玉虹.  浙江理工大學學報. 2011(04)
[7]基于支持向量機的醫(yī)學期刊文章自動分類研究[J]. 王東波,蘇新寧,朱丹浩,年洪東.  情報理論與實踐. 2011(04)
[8]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國和.  計算機工程與應用. 2011(03)
[9]基于KNN算法的文本自動分類方法研究——以學術期刊欄目自動歸類為例[J]. 李湘東,徐朋,黃莉,沈祥興.  圖書情報知識. 2010(04)
[10]基于機器學習的文本自動分類研究進展[J]. 張雪英.  情報學報. 2006 (06)

碩士論文
[1]基于多元線性回歸模型的電影票房預測系統(tǒng)設計與實現(xiàn)[D]. 任丹.中山大學 2015
[2]基于RBF神經(jīng)網(wǎng)絡的時間序列預測技術的研究[D]. 沈艷.安徽農業(yè)大學 2012



本文編號:3518921

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/tushudanganlunwen/3518921.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶d85e5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com