天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的科技資源多標簽文本分類方法研究

發(fā)布時間:2021-04-01 10:04
  科技服務(wù)業(yè)是現(xiàn)代服務(wù)業(yè)的重要組成部分,其中,科技資源作為科技服務(wù)業(yè)發(fā)展的基石,其數(shù)量、種類、分布量均達到了空前的壯大和發(fā)展。但科技資源分布分散孤立、多樣復雜,導致資源集成度和有效利用率低,難以切實發(fā)揮其對科技與實體經(jīng)濟的支撐作用。為此“集成”并“科學分析利用”科技資源成為我國科技服務(wù)的關(guān)鍵核心任務(wù)和必然趨勢。其中,“分類”是科技資源“集成”與“科學分析利用”的前提和基礎(chǔ)。而在科技資源中,大部分資源都是以文本的形式存在,且均具有同屬于多個類別的特點,所以面向文本科技資源多標簽分類方法的研究成為科技資源分類方法研究的重要內(nèi)容和熱點趨勢。為此,本文圍繞國家重點研發(fā)計劃課題“分布式資源巨系統(tǒng)及資源協(xié)同理論”(課題編號:2017YFB1400301)中提出的“集資源、融產(chǎn)業(yè)、創(chuàng)模式”以及打造科技服務(wù)業(yè)資源體系與資源分享模式目標,面向課題針對分散孤立、復雜多樣科技資源開展跨平臺資源匯聚、融合,以支撐跨行業(yè)分布式科技資源搜索、分析、匹配、評價和優(yōu)化等任務(wù),以課題任務(wù)要求的萬方科技服務(wù)平臺和寧波市科技信息研究院公共服務(wù)平臺中的非結(jié)構(gòu)化科技文本資源為數(shù)據(jù)支撐,重點研究支持科技文本資源匯聚、融合的多標簽文... 

【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:70 頁

【學位級別】:碩士

【部分圖文】:

基于深度學習的科技資源多標簽文本分類方法研究


原始中文科技論文數(shù)據(jù)(部分)

短文,科技論文數(shù),中文,文本


第三章科技文本的預處理15以針對含有摘要的科技文本如:論文、專利等,本文直接基于摘要內(nèi)容進行分類。對于不含摘要的科技文本如:新聞等,根據(jù)一篇文章的第一段和最后一段通常對整篇文本都有著概述作用,同時每一段的第一句和最后一句通常對該段有著概述作用,本文將此類文本的第一段、最后一段,以及每段的首句和尾句四部分拼接后的內(nèi)容進行分類。如圖3-1所示,短文本化處理的具體流程為:首先對輸入的長文本進行判斷,若含有摘要則直接提取摘要內(nèi)容形成短文本,若不含摘要則提取長文本的首尾段及各段首尾句內(nèi)容拼接形成短文本。將科技文本轉(zhuǎn)化為短文本之后,還需要對短文本中除文字之外的一些其他標記如:鏈接、表情符號、圖片、亂碼等噪聲數(shù)據(jù)進行處理,以免對后續(xù)分類效果產(chǎn)生不良影響。本文根據(jù)噪聲特點,采用正則表達式對其去除。由于正則表達式去噪簡單、成熟,本文不再贅述其原理與流程。圖3-2所示為本文的原始數(shù)據(jù)(部分),圖3-3所示為本文短文本化及去燥后的結(jié)果。圖3-2原始中文科技論文數(shù)據(jù)(部分)圖3-3原始中文科技論文數(shù)據(jù)短文本化及去噪后

示意圖,示意圖,梯度,問題


納疃妊?飛窬??紓?浠?舅枷朧峭ü?莨槔唇餼魴蛄?建模的問題,具體來說就是在每一個時刻通過把前一個時刻和當前時刻的信息同時作為輸入,獲得當前時刻的輸出,這樣的方式使得RNN能對變長序列進行建模。其結(jié)構(gòu)如圖4-1所示,“=”的左邊為其概括形式,右邊為其展開形式,其中0,1,,表示輸入序列,代表t時刻的輸入,和1分別代表t和t-1時刻網(wǎng)絡(luò)的輸出向量。其隱藏層的計算過程如公式(4-1)所示。=(+1+)(4-1)其中,和分別為作用在和1上的權(quán)值矩陣,是偏置向量,為非線性激活函數(shù)。圖4-1RNN示意圖RNN雖然能夠處理變長序列,但是由于在反向傳播過程中會出現(xiàn)參數(shù)矩陣連乘的形式,使其存在梯度消失和梯度爆炸的問題,對于梯度爆炸的問題可以使用梯度裁剪方法來解決,而梯度消失的問題卻很難解決。RNN存在的梯度消失問題,導致其無法有效捕獲長距離信息,使其處理較長序列問題效果較差。為了解決該問題,研究者通過增加門結(jié)構(gòu)的方式來改進RNN。1997年,Hochreiter[32]等人提出了LSTM,其結(jié)構(gòu)如圖4-2所示。LSTM在RNN的基礎(chǔ)上增加了一個細胞狀態(tài)以及3個門結(jié)構(gòu)。細胞狀態(tài)用于保存先前的信息,3個門控分別為遺忘門,輸入門


本文編號:3113153

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3113153.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶76561***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com