基于深度學(xué)習(xí)的中文專利文本分類研究和設(shè)計
發(fā)布時間:2022-01-24 01:13
隨著社會發(fā)展,專利的申請數(shù)量越來越多,專利文獻(xiàn)中含有大量的發(fā)明創(chuàng)造技術(shù)信息,使用專利文獻(xiàn)中的科學(xué)技術(shù),可以很大程度的降低研發(fā)成本和開發(fā)周期,所以如何從專利中獲取豐富的科學(xué)技術(shù)信息成為人們關(guān)心的重點(diǎn)。目前,人們多采用半自動分類的方式,來輔助專利分類人員的專利分類工作,雖然在一定程度上減少了分類人員的工作量,但是這種方式仍存在一定的不足。隨著深度學(xué)習(xí)在自然語言處理領(lǐng)域的深入發(fā)展,為專利文本自動分類提供了技術(shù)支撐。本文利用深度學(xué)習(xí)方法,通過模型設(shè)計,實(shí)現(xiàn)了一種比較高效的文本分類方法,主要工作如下:一是設(shè)計網(wǎng)絡(luò)爬蟲策略,使用python編程語言獲取中文專利文本數(shù)據(jù),構(gòu)建分類模型的訓(xùn)練集和測試集,為中文專利文本分類提供數(shù)據(jù)支撐;二是在文本預(yù)處理時,采用結(jié)巴分詞系統(tǒng),另外加入自行建立的領(lǐng)域用戶詞典進(jìn)行分詞,在分詞后使用自定義的停用詞典,去除一些對分類任務(wù)不重要的詞;三是闡述了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和長短時記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)原理知識,在構(gòu)建中文專利文本分類算法時,結(jié)合CNN提取局部特征和Bi...
【文章來源】:青島科技大學(xué)山東省
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
IPC類別示意圖
基于深度學(xué)習(xí)的中文專利文本分類研究和設(shè)計102中文專利文本分類的相關(guān)技術(shù)第一章對專利文本分類現(xiàn)狀進(jìn)行了概述,本章對中文專利文本分類相關(guān)技術(shù)進(jìn)行介紹,首先對中文專利文本分類進(jìn)行總體概述,然后分別介紹了專利文本預(yù)處理、特征提娶文本表示和分類模型等過程的相關(guān)技術(shù)。2.1中文專利文本分類框架隨著計算機(jī)技術(shù)和互聯(lián)網(wǎng)的快速發(fā)展,專利的申請量越來越多,專利文本中含有大量創(chuàng)新發(fā)明技術(shù),所以有效的管理專利文獻(xiàn)和從專利文獻(xiàn)中獲取到有用信息成為人們關(guān)注的重點(diǎn)。目前,主要利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)進(jìn)行專利文本分類的研究,本章內(nèi)容主要是基于IPC分類體系的原理,對中文專利文本分類的相關(guān)技術(shù)進(jìn)行總結(jié)和概述,主要工作如圖2-1所示。圖2-1中文專利文本分類的流程圖Fig.2-1FlowchartofChinesepatenttextclassification
LSTM鏈?zhǔn)浇Y(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合GloVe和GRU的文本分類模型[J]. 方炯焜,陳平華,廖文雄. 計算機(jī)工程與應(yīng)用. 2020(20)
[2]基于雙通道特征融合的WPOS-GRU專利分類方法[J]. 余本功,張培行. 計算機(jī)應(yīng)用研究. 2020(03)
[3]基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J]. 李洋,董紅斌. 計算機(jī)應(yīng)用. 2018(11)
[4]基于深度學(xué)習(xí)的專利分類方法[J]. 馬建紅,王瑞楊,姚爽,劉雙耀. 計算機(jī)工程. 2018(10)
[5]基于卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林算法的專利文本分類模型[J]. 胡杰,李少波,于麗婭,楊觀賜. 科學(xué)技術(shù)與工程. 2018(06)
[6]基于多特征融合的混合神經(jīng)網(wǎng)絡(luò)模型諷刺語用判別[J]. 孫曉,何家勁,任福繼. 中文信息學(xué)報. 2016(06)
[7]基于統(tǒng)計分布的中文專利自動分類方法研究[J]. 胡冰,張建立. 現(xiàn)代圖書情報技術(shù). 2013(Z1)
[8]專利文本分類的基礎(chǔ)問題研究[J]. 屈鵬,王惠臨. 現(xiàn)代圖書情報技術(shù). 2013(03)
[9]國內(nèi)中文自動分詞技術(shù)研究綜述[J]. 奉國和,鄭偉. 圖書情報工作. 2011(02)
[10]基于自適應(yīng)中文分詞和近似SVM的文本分類算法[J]. 馮永,李華,鐘將,葉春曉. 計算機(jī)科學(xué). 2010(01)
碩士論文
[1]基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D]. 張沖.南京大學(xué) 2016
本文編號:3605538
【文章來源】:青島科技大學(xué)山東省
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
IPC類別示意圖
基于深度學(xué)習(xí)的中文專利文本分類研究和設(shè)計102中文專利文本分類的相關(guān)技術(shù)第一章對專利文本分類現(xiàn)狀進(jìn)行了概述,本章對中文專利文本分類相關(guān)技術(shù)進(jìn)行介紹,首先對中文專利文本分類進(jìn)行總體概述,然后分別介紹了專利文本預(yù)處理、特征提娶文本表示和分類模型等過程的相關(guān)技術(shù)。2.1中文專利文本分類框架隨著計算機(jī)技術(shù)和互聯(lián)網(wǎng)的快速發(fā)展,專利的申請量越來越多,專利文本中含有大量創(chuàng)新發(fā)明技術(shù),所以有效的管理專利文獻(xiàn)和從專利文獻(xiàn)中獲取到有用信息成為人們關(guān)注的重點(diǎn)。目前,主要利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)進(jìn)行專利文本分類的研究,本章內(nèi)容主要是基于IPC分類體系的原理,對中文專利文本分類的相關(guān)技術(shù)進(jìn)行總結(jié)和概述,主要工作如圖2-1所示。圖2-1中文專利文本分類的流程圖Fig.2-1FlowchartofChinesepatenttextclassification
LSTM鏈?zhǔn)浇Y(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合GloVe和GRU的文本分類模型[J]. 方炯焜,陳平華,廖文雄. 計算機(jī)工程與應(yīng)用. 2020(20)
[2]基于雙通道特征融合的WPOS-GRU專利分類方法[J]. 余本功,張培行. 計算機(jī)應(yīng)用研究. 2020(03)
[3]基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J]. 李洋,董紅斌. 計算機(jī)應(yīng)用. 2018(11)
[4]基于深度學(xué)習(xí)的專利分類方法[J]. 馬建紅,王瑞楊,姚爽,劉雙耀. 計算機(jī)工程. 2018(10)
[5]基于卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林算法的專利文本分類模型[J]. 胡杰,李少波,于麗婭,楊觀賜. 科學(xué)技術(shù)與工程. 2018(06)
[6]基于多特征融合的混合神經(jīng)網(wǎng)絡(luò)模型諷刺語用判別[J]. 孫曉,何家勁,任福繼. 中文信息學(xué)報. 2016(06)
[7]基于統(tǒng)計分布的中文專利自動分類方法研究[J]. 胡冰,張建立. 現(xiàn)代圖書情報技術(shù). 2013(Z1)
[8]專利文本分類的基礎(chǔ)問題研究[J]. 屈鵬,王惠臨. 現(xiàn)代圖書情報技術(shù). 2013(03)
[9]國內(nèi)中文自動分詞技術(shù)研究綜述[J]. 奉國和,鄭偉. 圖書情報工作. 2011(02)
[10]基于自適應(yīng)中文分詞和近似SVM的文本分類算法[J]. 馮永,李華,鐘將,葉春曉. 計算機(jī)科學(xué). 2010(01)
碩士論文
[1]基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D]. 張沖.南京大學(xué) 2016
本文編號:3605538
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3605538.html
最近更新
教材專著