基于機器學習的中文期刊論文自動分類研究
本文關(guān)鍵詞:基于機器學習的中文期刊論文自動分類研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著電子期刊的不斷增加,電子期刊論文的數(shù)量在與日俱增,電子期刊論文的合理分類成為了一個亟待解決的問題。傳統(tǒng)的人工分類在大數(shù)據(jù)環(huán)境下已經(jīng)顯得力不從心,在期刊論文分類方面人工分類也存在這個問題,將自動分類的方法應用于期刊論文分類方面能有效解決這個問題。 機器學習理念的出現(xiàn)讓自動分類快速發(fā)展起來,本文將機器學習的思想運用到期刊論文的自動分類領域,選用中國知網(wǎng)的期刊論文數(shù)據(jù)作為實驗樣本,對樣本進行預處理后分為訓練樣本和測試樣本,采用機器學習中的監(jiān)督學習“先學習,后測試”的理念,先對訓練樣本進行學習,然后利用學習到的分類器對測試樣本進行分類,對比真實的類別和測試實驗給出的類別,分析機器學習在期刊論文自動分類方面的可行性。 本文的自動分類實驗選用的分類算法是支持向量機算法和BP神經(jīng)網(wǎng)絡算法,通過對這兩個算法在正確率、訓練量和實驗時間方面進行比較實驗,選擇出相對更加適合本文研究對象的機器學習算法——支持向量機算法,同時通過對比實驗選擇出適合本文研究對象的支持向量機算法參數(shù),為機器學習實驗提供了最佳環(huán)境。 在良好的機器學習環(huán)境下,本文的實驗樣本來源于中國知網(wǎng)的電子期刊論文數(shù)據(jù),包括論文的題名、關(guān)鍵詞和摘要等主要信息,通過對比分析知道綜合這三種特征來源更加能夠提高期刊論文自動分類的實驗效果,并且通過對比實驗找到了一組相對合適的加權(quán)比重。 期刊論文的傳統(tǒng)分類方法是中國圖書館分類法,簡稱中圖法,但是中圖法存在分類繁雜、類目較多的特點,這顯然不是自動分類的體系,本文利用層次分類法的理念將中圖法轉(zhuǎn)化為一個三層的分類體系,分別進行分類實驗,從第一層到第三層的實驗正確率分別達到了95.05%、92.89%和89.02%,三層的綜合正確率也接近80%,這是一個比較可觀的實驗結(jié)果,證明了機器學習在期刊論文的自動分類方面的可行性,為期刊論文的分類問題提出了新的思路。
【關(guān)鍵詞】:機器學習 期刊論文 文本自動分類 支持向量機 層次分類法
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.1;TP181;G254.1
【目錄】:
- 摘要5-7
- ABSTRACT7-10
- 第1章 引言10-14
- 1.1 研究背景10
- 1.2 文本自動分類的研究現(xiàn)狀綜述10-13
- 1.3 論文結(jié)構(gòu)13-14
- 第2章 機器學習及常用分類算法概述14-28
- 2.1 機器學習14-17
- 2.1.1 機器學習概念14
- 2.1.2 機器學習類別14-16
- 2.1.3 機器學習模型16-17
- 2.2 自動分類算法17-28
- 2.2.1 支持向量機算法18-25
- 2.2.2 BP神經(jīng)網(wǎng)絡算法25-28
- 第3章 機器學習系統(tǒng)設計和優(yōu)化28-43
- 3.1 數(shù)據(jù)準備28-33
- 3.2 實驗模型33-36
- 3.3 分類算法的選擇和優(yōu)化36-40
- 3.3.1 分類算法的選擇36-38
- 3.3.2 支持向量機算法的參數(shù)優(yōu)化38-40
- 3.4 特征來源選取標準40-43
- 第4章 基于支持向量機的中文期刊論文自動分類43-50
- 4.1 影響分類實驗效果的其他因素44-47
- 4.1.1 特征維度44
- 4.1.2 不同類別的數(shù)據(jù)量平衡問題44-45
- 4.1.3 樣本量影響45-46
- 4.1.4 訓練樣本與測試樣本比例46-47
- 4.2 基于層次模型的期刊論文自動分類47-50
- 第5章 結(jié)論50-52
- 5.1 本文總結(jié)50-51
- 5.2 不足與展望51-52
- 參考文獻52-55
- 致謝55
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王奕;;基于概率潛在語義分析的中文文本分類研究[J];甘肅聯(lián)合大學學報(自然科學版);2011年04期
2 奉國和;;SVM分類核函數(shù)及參數(shù)選擇比較[J];計算機工程與應用;2011年03期
3 張保富;施化吉;;一種基于粗糙集文本自動分類的改進算法[J];計算機工程與應用;2011年24期
4 談文蓉;楊憲澤;談進;;基于相似分類的文獻理解及自動文摘系統(tǒng)研究[J];計算機科學;2006年09期
5 繆建明;張全;趙金仿;;基于文章標題信息的漢語自動文本分類[J];計算機工程;2008年20期
6 蔣健安;陸介平;倪巍偉;孫志揮;;一種面向?qū)@墨I數(shù)據(jù)的文本自動分類方法[J];計算機應用;2008年01期
7 王怡,蓋杰,武港山,王繼成;基于潛在語義分析的中文文本層次分類技術(shù)[J];計算機應用研究;2004年08期
8 劉大寧;楊永樂;白林;;SVM核函數(shù)對分類精度影響的研究[J];佳木斯大學學報(自然科學版);2012年04期
9 刁倩,張惠惠,王永成,何驥;中文文獻自動分類中的知識庫構(gòu)造及其仿人算法[J];情報學報;2000年03期
10 何浩,楊海棠;一種基于N-Gram技術(shù)的中文文獻自動分類方法[J];情報學報;2002年04期
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 陳玉芹;多類別科技文獻自動分類系統(tǒng)[D];華中科技大學;2008年
本文關(guān)鍵詞:基于機器學習的中文期刊論文自動分類研究,由筆耕文化傳播整理發(fā)布。
,本文編號:338626
本文鏈接:http://www.sikaile.net/wenshubaike/xingzhengshiwu/338626.html