基于多標(biāo)簽分類的學(xué)術(shù)文獻(xiàn)潛在時(shí)間意圖識(shí)別研究
本文選題:多標(biāo)簽分類 + 主題模型 ; 參考:《湖南大學(xué)學(xué)報(bào)(自然科學(xué)版)》2017年10期
【摘要】:為了提高檢索結(jié)果的時(shí)間相關(guān)性,將文本特征抽取和多標(biāo)簽分類算法應(yīng)用于文獻(xiàn)檢索的潛在時(shí)間意圖分類研究之中.從檢索潛在時(shí)間意圖分類的角度出發(fā),提出一種基于文本時(shí)間信息抽取和Labeled LDA(標(biāo)簽主題模型)的文獻(xiàn)潛在時(shí)間意圖自動(dòng)分類算法.首先,在獲取的文獻(xiàn)時(shí)間信息基礎(chǔ)上,將文獻(xiàn)檢索潛在時(shí)間意圖映射至具體時(shí)間類別.其次,為了減少時(shí)間信息的稀疏性對(duì)分類特征學(xué)習(xí)過程的影響,利用交叉學(xué)科中時(shí)間短語分布特征優(yōu)化Labeled LDA分類模型的標(biāo)簽選擇過程.最后,將所提算法與其他多標(biāo)簽分類算法進(jìn)行對(duì)比實(shí)驗(yàn),分析和評(píng)估文獻(xiàn)檢索潛在時(shí)間意圖自動(dòng)分類的準(zhǔn)確率.結(jié)果表明,所提算法的AUC的值達(dá)到79.6%,較同類基準(zhǔn)算法ECC(整體分類鏈)提高約10.9%,且針對(duì)不同學(xué)科均取得了較好的分類效果,是一種有效的文獻(xiàn)檢索潛在時(shí)間意圖學(xué)習(xí)方法.
[Abstract]:In order to improve the temporal correlation of retrieval results, text feature extraction and multi-label classification algorithms are applied to the research of potential temporal intention classification in literature retrieval. From the point of view of retrieval potential time intention classification, a document potential time intention automatic classification algorithm based on text time information extraction and Labeled LDA (label topic Model) is proposed. Firstly, based on the acquired time information, the potential time intention of literature retrieval is mapped to specific time categories. Secondly, in order to reduce the influence of time information sparsity on classification feature learning process, the label selection process of Labeled LDA classification model is optimized by using temporal phrase distribution features in cross-discipline. Finally, the proposed algorithm is compared with other multi-label classification algorithms to analyze and evaluate the accuracy of automatic classification of potential time intention in literature retrieval. The results show that the AUC value of the proposed algorithm is 79.6, which is about 10.9 higher than that of the similar benchmark algorithm Ecc (global classification chain), and the classification effect is good for different subjects. It is an effective method for document retrieval potential time intention learning.
【作者單位】: 南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院;華南師范大學(xué)計(jì)算機(jī)學(xué)院;
【基金】:國家自然科學(xué)基金資助項(xiàng)目(71503124) 江蘇省社會(huì)科學(xué)基金青年資助項(xiàng)目(15TQC03)~~
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前5條
1 侯小雯;鄒永利;;網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)內(nèi)圖片的自動(dòng)識(shí)別與檢索[J];情報(bào)理論與實(shí)踐;2008年06期
2 李黎;唐亮;高凡;;中國學(xué)術(shù)文獻(xiàn)總庫(CNKI)的主要功能和使用技巧[J];農(nóng)業(yè)圖書情報(bào)學(xué)刊;2009年04期
3 沙勇;;《中國學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫》應(yīng)用研究[J];齊齊哈爾大學(xué)學(xué)報(bào);2008年06期
4 郭萍;;CAJ Viewer在學(xué)術(shù)文獻(xiàn)使用中的功能與技巧[J];金陵科技學(xué)院學(xué)報(bào);2011年03期
5 何焱;宋麗麗;;關(guān)鍵領(lǐng)域熱點(diǎn)發(fā)現(xiàn)與跟蹤[J];西南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年07期
相關(guān)會(huì)議論文 前1條
1 倪維健;柳梅;曾慶田;劉彤;湯建渝;;一個(gè)面向主題的學(xué)術(shù)文獻(xiàn)數(shù)據(jù)分析工具[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
相關(guān)重要報(bào)紙文章 前1條
1 本報(bào)見習(xí)記者 李淼;駛向?qū)W術(shù)文獻(xiàn)網(wǎng)絡(luò)出版的藍(lán)海[N];中國新聞出版報(bào);2009年
相關(guān)博士學(xué)位論文 前1條
1 強(qiáng)繼朋;基于帶有通配符序列模式和概率主題模型的多文檔摘要技術(shù)研究[D];合肥工業(yè)大學(xué);2016年
,本文編號(hào):1848457
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1848457.html