天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 論文百科 > 期刊論文 >

基于集成學習的OA期刊論文元數(shù)據(jù)提取方法研究

發(fā)布時間:2017-12-18 18:02

  本文關鍵詞:基于集成學習的OA期刊論文元數(shù)據(jù)提取方法研究


  更多相關文章: 論文元數(shù)據(jù) 元數(shù)據(jù)提取 統(tǒng)計機器學習 集成學習


【摘要】:在建設圖書館數(shù)字資源庫時,,需要利用互聯(lián)網(wǎng)上的開放存取(Open Access,OA)期刊論文作為圖書館數(shù)字資源庫建設的信息源,利用論文元數(shù)據(jù)信息可以提高論文在圖書館數(shù)字資源庫中檢索的準確率和檢索速度。因此,如何準確和快速地提取OA期刊論文的元數(shù)據(jù)是實現(xiàn)圖書館數(shù)字資源庫建設的關鍵。本文在對國內(nèi)外論文元數(shù)據(jù)提取方法綜合研究分析基礎上,結合集成學習的思想,從個體學習器的結論合成和個體生成方法兩方面出發(fā),對論文元數(shù)據(jù)提取方法進行了研究。 首先,針對現(xiàn)有的單一元數(shù)據(jù)提取模型提取精度和泛化能力不高的問題,從集成學習的個體學習器結論合成方面考慮,提出一種基于貝葉斯融合的論文元數(shù)據(jù)提取方法;鶎觽體學習器分別采用HMM、SVM和CRF三種機器學習算法,對訓練集學習生成提取模型,利用已生成的模型提取論文元數(shù)據(jù)并計算提取的樣本屬于每個元數(shù)據(jù)類別的后驗概率,并對每個模型的后驗概率加權計算,結合貝葉斯理論對產(chǎn)生的后驗概率融合決策,最終提取論文的元數(shù)據(jù)。 其次,從集成學習個體學習器生成方面考慮,提出一種基于元學習的論文元數(shù)據(jù)提取方法。先是提出一種基分類器構造方法,按照期刊類別構建不同的基層訓練集,通過基層SVM學習這些構造好的訓練集生成基分類器,增大了集成學習中基層分類器之間的差異性;元層SVM通過對基分類器的學習結果進行再學習生成元分類器,元分類器綜合決策基分類器的輸出結果,從而得到最終的提取結果,提高論文元數(shù)據(jù)模型的提取精度和泛化能力。 最后,對本文提出的方法進行實驗驗證,實驗結果表明,本文所提的方法提高了論文元數(shù)據(jù)提取的精度,具有較好的泛化能力,同時結合研究成果對今后的研究工作進行了展望。
【學位授予單位】:燕山大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.1;G250.76

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前7條

1 孔浩;楊勇;王國胤;;基于多分類器融合的語音識別方法研究[J];重慶郵電大學學報(自然科學版);2011年04期

2 周順先;林亞平;王耀南;易葉青;;基于二階隱馬爾可夫模型的文本信息抽取[J];電子學報;2007年11期

3 張付志;侯娜;劉慧;馬玉靜;;一種基于啟發(fā)式搜索的論文元數(shù)據(jù)提取算法[J];計算機應用與軟件;2009年09期

4 張銘;銀平;鄧志鴻;楊冬青;;SVM+BiHMM:基于統(tǒng)計方法的元數(shù)據(jù)抽取混合模型[J];軟件學報;2008年02期

5 趙琦;劉建華;馮浩然;;從ACE會議看信息抽取技術的發(fā)展趨勢[J];現(xiàn)代圖書情報技術;2008年03期

6 劉云中,林亞平,陳治平;基于隱馬爾可夫模型的文本信息抽取[J];系統(tǒng)仿真學報;2004年03期

7 邱清盈;鄭國民;馮培恩;武建偉;;基于正則表達式的專利信息提取方法研究[J];中國機械工程;2007年19期

中國碩士學位論文全文數(shù)據(jù)庫 前1條

1 李瑩;文本病歷信息抽取方法研究[D];浙江大學;2009年



本文編號:1305083

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/wenshubaike/xingzhengshiwu/1305083.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶f1eb0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com