專利熱點挖掘方法研究
發(fā)布時間:2020-10-18 06:07
隨著社會的不斷進步,各領域的科技創(chuàng)新取得了空前的成果,大量專利文獻也隨著這些新技術產(chǎn)生和積累,專利文本的挖掘工作逐漸成為對技術發(fā)展的決策制定舉足輕重的必要工作。隨著專利數(shù)量的爆炸式增長,海量的專利數(shù)據(jù)由人工提煉耗時耗力,甚至已經(jīng)超越了人的處理極限,大量自動化挖掘熱點研究話題的智能分析系統(tǒng)應運而生。然而,傳統(tǒng)的文本挖掘方法大多以單獨的關鍵詞來描述概念,存在著不夠具體、引起歧義以及無法區(qū)別同義詞造成的主題意義差別等限制,且需要利用先驗的專家詞庫進行預處理,并不能根據(jù)數(shù)據(jù)集本身的特點無監(jiān)督地實現(xiàn)關鍵詞的篩選和排序。本文針對上述問題,將主題模型應用在專利熱點挖掘領域,建立起專利熱點挖掘的系統(tǒng)框架,通過算法設計和各種關鍵技術,以無監(jiān)督方式實現(xiàn)了特性損失詞的識別與消除以及專利熱點的挖掘。具體地,本文的主要貢獻和創(chuàng)新點如下:(1)提出了面向摘要及權利要求的語義主題發(fā)現(xiàn)及分析方法—基于詞語權重的隱含狄利克雷模型(Term Weight based Latent Dirichlet Allocation,TW-LDA),通過引入詞語權重,以無監(jiān)督方式實現(xiàn)了主題發(fā)現(xiàn)及對特性損失詞的識別與消除。(2)提出了一種改進的基于專利主題向量的聚類算法PTVOM(Patent Topic Vector based OPTICS withMedoids),該算法利用 JS(Jensen-Shannon)距離作為專利的相似度度量,通過選取專利集中最具代表性的n個主題,在這n個主題所在維度對專利集采用OPTICS算法結合k-medoids規(guī)則對專利進行聚類。(3)構建并實現(xiàn)了專利熱點挖掘的系統(tǒng)框架,實現(xiàn)了包含數(shù)據(jù)采集、數(shù)據(jù)提取、數(shù)據(jù)清洗、主題發(fā)現(xiàn)、熱點統(tǒng)計等步驟的完整分析流程。(4)采用來自美國專利與商標局(United States Patent and Trademark Office)的實用新型專利進行實驗,實驗結果表明,本文提出的TW-LDA模型和PTVOM算法相比其它常見算法,效果有所提升。最后,我們對熱點挖掘結果進行了可視化展示。
【學位單位】:華中科技大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP391.1;G255.53
【部分圖文】:
?圖2-3?LDA的圖模型??上述步驟如圖2-3所示,圖中無填充的點代表隱含變被填充的點代表可觀察??值,矩形代表重復抽樣過程。主題分布&是多項式分布,由超參數(shù)為a的Dirichlet??分布產(chǎn)生,詞語分布<pZi,.也是多項式分布,由超參數(shù)為P的Dirichlet分布產(chǎn)生《??'■'J??從LDA的產(chǎn)生過程可以得出對應的觀測變量與隱含變量的聯(lián)合概率分布如下:??P(w,z,e\a,^)?=?P{e\a)X[l=1P{zn\e)P(wn\zn>p)?(2-1)??LDA模型的適用范圍十分廣泛,可被應用到各個領域,譬如相似文檔發(fā)現(xiàn)、謅??動打標簽、個性化推薦系統(tǒng)、師瓜111^/\¥(^(1扭111<:等等;5鄭世卓等人[313]提_出1*<?_1種根??據(jù)半監(jiān)督的LDA生題模型來進行文本分類,找出一個主題集當作隱性層的知識集??通過改進Gibbs采樣[311對主題層進行顯式監(jiān)督,獲得的分類效果更佳^祝婷等人??%則在本體引入LDA模型中來改進資源推薦效果,根據(jù)語義相關度來度量關聯(lián)主??題
perplexity?(Dtest)?=?exp?j-匕這工?)}?(3-21)??我們依次選取了主題數(shù)為20、40、60、80、100,迭代次數(shù)設置為1000,采用式??(3-21)計算了對應的困惑度,并畫出了?主題數(shù)-困惑度”折線圖,如圖3-1所示,可??知當主題數(shù)為K?=?60時困惑度最低。??850??1?1?1?1?1?1?1?1??800?-j??f\?''''??1?\??600?-?-j??\??550??1?1?1?1?1?1?1?1??20?30?40?50?60?70?80?90?100??主題個數(shù)??圖3-1?TW-LDA模型在不同主題個數(shù)下'的困惑度結果??根據(jù)Asuncion的實驗[43],懸Gibbs采樣迭代到一定次數(shù)后模型會收斂,從而??困惑度(perplexity)會趨于穩(wěn)定。我們以每100次迭代為保存間隔,依次保存了主題??數(shù)為20、40、60的1000次迭代的中間結果,弁計算其困惑度(perplexity),得到圖??3-2,可以看出,模型在前100次迭代中就會快速收斂,迭代次數(shù)超過500以后,困??惑度(perplexity)基本不再變化
式(3-22)中correKA)表示主題&和之間的余弦相似度生題間的平均??相似度越小,模型效果越好。我們采用3.4.1節(jié)中的專利集,設置cc?=?0.5,?p?=?0.1,??訓練各迭代500次,實驗結果如圖34所示。??0.045?I?1?1?1?1?1? ̄—???LDA????TW-LDA??_?A?_(信息熵加權LDA??〇.〇1霉、?高斯加權LDA???^0.035?-??¥?\\??革?\\??J?0?03?-??^?V??0.025?-?Y*.\??。
【參考文獻】
本文編號:2845914
【學位單位】:華中科技大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP391.1;G255.53
【部分圖文】:
?圖2-3?LDA的圖模型??上述步驟如圖2-3所示,圖中無填充的點代表隱含變被填充的點代表可觀察??值,矩形代表重復抽樣過程。主題分布&是多項式分布,由超參數(shù)為a的Dirichlet??分布產(chǎn)生,詞語分布<pZi,.也是多項式分布,由超參數(shù)為P的Dirichlet分布產(chǎn)生《??'■'J??從LDA的產(chǎn)生過程可以得出對應的觀測變量與隱含變量的聯(lián)合概率分布如下:??P(w,z,e\a,^)?=?P{e\a)X[l=1P{zn\e)P(wn\zn>p)?(2-1)??LDA模型的適用范圍十分廣泛,可被應用到各個領域,譬如相似文檔發(fā)現(xiàn)、謅??動打標簽、個性化推薦系統(tǒng)、師瓜111^/\¥(^(1扭111<:等等;5鄭世卓等人[313]提_出1*<?_1種根??據(jù)半監(jiān)督的LDA生題模型來進行文本分類,找出一個主題集當作隱性層的知識集??通過改進Gibbs采樣[311對主題層進行顯式監(jiān)督,獲得的分類效果更佳^祝婷等人??%則在本體引入LDA模型中來改進資源推薦效果,根據(jù)語義相關度來度量關聯(lián)主??題
perplexity?(Dtest)?=?exp?j-匕這工?)}?(3-21)??我們依次選取了主題數(shù)為20、40、60、80、100,迭代次數(shù)設置為1000,采用式??(3-21)計算了對應的困惑度,并畫出了?主題數(shù)-困惑度”折線圖,如圖3-1所示,可??知當主題數(shù)為K?=?60時困惑度最低。??850??1?1?1?1?1?1?1?1??800?-j??f\?''''??1?\??600?-?-j??\??550??1?1?1?1?1?1?1?1??20?30?40?50?60?70?80?90?100??主題個數(shù)??圖3-1?TW-LDA模型在不同主題個數(shù)下'的困惑度結果??根據(jù)Asuncion的實驗[43],懸Gibbs采樣迭代到一定次數(shù)后模型會收斂,從而??困惑度(perplexity)會趨于穩(wěn)定。我們以每100次迭代為保存間隔,依次保存了主題??數(shù)為20、40、60的1000次迭代的中間結果,弁計算其困惑度(perplexity),得到圖??3-2,可以看出,模型在前100次迭代中就會快速收斂,迭代次數(shù)超過500以后,困??惑度(perplexity)基本不再變化
式(3-22)中correKA)表示主題&和之間的余弦相似度生題間的平均??相似度越小,模型效果越好。我們采用3.4.1節(jié)中的專利集,設置cc?=?0.5,?p?=?0.1,??訓練各迭代500次,實驗結果如圖34所示。??0.045?I?1?1?1?1?1? ̄—???LDA????TW-LDA??_?A?_(信息熵加權LDA??〇.〇1霉、?高斯加權LDA???^0.035?-??¥?\\??革?\\??J?0?03?-??^?V??0.025?-?Y*.\??。
【參考文獻】
相關期刊論文 前10條
1 祝婷;秦春秀;馬曉悅;李祖海;;基于本體與LDA主題模型的文本資源推薦方法研究[J];情報雜志;2015年11期
2 王文帥;杜然;程耀東;陳剛;;一種面向大規(guī)模微博數(shù)據(jù)的話題挖掘方法[J];計算機工程與應用;2014年22期
3 唐曉波;向坤;;基于LDA模型和微博熱度的熱點挖掘[J];圖書情報工作;2014年05期
4 鄭世卓;崔曉燕;;基于半監(jiān)督LDA的文本分類應用研究[J];軟件;2014年01期
5 胡阿沛;張靜;雷孝平;張曉宇;;基于文本挖掘的專利技術主題分析研究綜述[J];情報雜志;2013年12期
6 范宇;符紅光;文奕;;基于LDA模型的專利信息聚類技術[J];計算機應用;2013年S1期
7 焦賽美;;網(wǎng)絡爬蟲技術的研究[J];瓊州學院學報;2011年05期
8 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計算機學報;2011年08期
9 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡爬蟲技術的研究[J];電腦知識與技術;2010年15期
10 張小平;周雪忠;黃厚寬;馮奇;陳世波;焦宏官;;一種改進的LDA主題模型[J];北京交通大學學報;2010年02期
相關博士學位論文 前1條
1 陳虹樞;基于主題模型的專利文本挖掘方法及應用研究[D];北京理工大學;2015年
本文編號:2845914
本文鏈接:http://www.sikaile.net/tushudanganlunwen/2845914.html
教材專著