天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

基于主題模型的專利文本挖掘方法及應(yīng)用研究

發(fā)布時間:2020-07-05 01:54
【摘要】:進入二十一世紀(jì)以來,人類社會的科技發(fā)展進入了前所未有的高速時期?焖俑?lián)Q代的技術(shù)帶動了相應(yīng)專利文獻(xiàn)的產(chǎn)生與積累,這種大背景下,專利文本挖掘已經(jīng)不再僅僅是一個相對孤立的輔助模塊,而是一躍成為技術(shù)發(fā)展決策活動中必不可少的一環(huán),在技術(shù)研發(fā)的起始與收尾過程中扮演著發(fā)掘重要知識、支持戰(zhàn)略制定以及總結(jié)發(fā)展情況的重要角色。因此,如何準(zhǔn)確高效地進行海量專利文獻(xiàn)的文本挖掘,同時識別并獲取其中所隱藏的關(guān)鍵技術(shù)內(nèi)容及潛在重大機遇,目前已經(jīng)成為研究與應(yīng)用中被廣泛關(guān)注的重點。本文面向?qū)@谋就诰?在回顧總結(jié)國內(nèi)外現(xiàn)有技術(shù)與方法的基礎(chǔ)上,構(gòu)建并實現(xiàn)了基于主題模型的專利文本發(fā)掘方法,以無監(jiān)督學(xué)習(xí)的方式完成了對大量專利文本技術(shù)主題的自動識別與抓取,同時,通過運用分段線性表達(dá)、最小二乘法等數(shù)學(xué)方法,對已獲取的專利主題進行了定量的重要程度評定、趨勢轉(zhuǎn)折貢獻(xiàn)度估計以及未來發(fā)展趨勢分析。為了證明方法的可行性和有效性,本文采用了來自美國專利與商標(biāo)局的實用新型專利進行了實證研究和案例分析。具體來說,本文的主要創(chuàng)新點如下:(1)基于主題模型的專利文本挖掘系統(tǒng)框架本文將主題模型這一國際前沿的熱點統(tǒng)計模型引入到專利文本挖掘及科技管理領(lǐng)域,提出了基于主題模型的專利文本挖掘系統(tǒng)框架,并開發(fā)實現(xiàn)了從數(shù)據(jù)輸入、文本清理、主題識別、主題選取到主題貢獻(xiàn)程度估計、主題發(fā)展趨勢預(yù)測的完整分析流程。(2)基于專利權(quán)利要求的科技主題識別及抓取方法本文針對權(quán)利要求的特有屬性,建立并實現(xiàn)了基于權(quán)利要求的科技主題識別及抓取方法:在給定技術(shù)范圍后,通過網(wǎng)頁信息抓取的形式獲取目標(biāo)專利的權(quán)利要求文本,同時制定了適用于權(quán)利要求的文本清洗模塊,通過運用隱含狄利克雷分布(Latent Dirichlet Allocation)實現(xiàn)了對大量文本中潛在的科技主題及主題分布的非監(jiān)督自動識別與獲取。為了驗證方法可行性和有效性,本文以2000年至2014年受讓人國家為澳大利亞的1,3910條美國實用新型專利對方法進行了實證研究和案例分析。(3)定量的專利授權(quán)活動趨勢轉(zhuǎn)折點抓取方法本文針對傳統(tǒng)技術(shù)預(yù)測及評估中,模型擬合無法判斷趨勢轉(zhuǎn)折和具體專利活動趨勢變動等問題,采用分段線性表示的數(shù)學(xué)方法,定量地獲取了專利活動中的趨勢轉(zhuǎn)折點,并使用轉(zhuǎn)折點將專利活動分割成在時序上的趨勢段,從而凸顯并抓取潛在的專利發(fā)表趨勢變動。同樣,為了驗證方法有效性,本文隨后以上述美國實用新型專利數(shù)據(jù)及澳大利亞ICT產(chǎn)業(yè)相關(guān)專利數(shù)據(jù)對方法進行了實證研究和案例分析。(4)科技主題對發(fā)表趨勢轉(zhuǎn)折貢獻(xiàn)度的分析評估方法在已獲取的隱含在大量權(quán)利要求中的科技主題中,不同的主題對于該領(lǐng)域內(nèi)專利授權(quán)量的整體趨勢變化的貢獻(xiàn)度不盡相同。本文提出了一種定量評估科技主題對整體技術(shù)范圍發(fā)展趨勢轉(zhuǎn)折貢獻(xiàn)度的方法,由主題分布矩陣計算出每個科技主題的貢獻(xiàn)系數(shù),從而對各個主題在各趨勢段中的重要性變化加以評估分析。為了驗證方法可行性和有效性,本文以美國實用新型專利對方法進行了實證研究和案例分析。(5)基于年度主題權(quán)重矩陣的科技主題發(fā)展趨勢分析本文綜合由隱含狄利克雷分布估計出的科技主題信息及主題分布,建立年度主題權(quán)重矩陣,并利用最小二乘法對各個重要科技主題自身的時序權(quán)重變化進行了定量的計算,最終實現(xiàn)了對每個科技主題發(fā)展趨勢的預(yù)測及估計。為了驗證方法可行性和有效性,本文隨后以美國實用新型專利對方法進行了實證研究和案例分析。此外,在主題表達(dá)方面,針對傳統(tǒng)專利文本挖掘中,關(guān)鍵詞無法清晰獲取科技主題語義并難以區(qū)分同義詞這一不足,本文采用詞匯分布的方式表達(dá)科技主題,以分布中概率最高的一組詞匯來反映對應(yīng)科技主題的具體內(nèi)容。避免了“以詞表意”容易產(chǎn)生歧義的問題,切實地賦予了各個技術(shù)主題以語義含義。
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;G306

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王娜;李云松;;基于概念格的文本挖掘[J];計算機技術(shù)與發(fā)展;2006年01期

2 程志;黃榮懷;;文本挖掘及其教育應(yīng)用[J];現(xiàn)代遠(yuǎn)距離教育;2008年02期

3 郭洪濤;鄭光;趙靜;姜淼;何曉娟;呂愛平;;基于文本挖掘分析甲型H1N1流感的中醫(yī)藥治療特色[J];世界科學(xué)技術(shù)(中醫(yī)藥現(xiàn)代化);2011年05期

4 鄒權(quán);林琛;劉曉燕;郭茂祖;;生物信息學(xué)中的文本挖掘方法[J];計算機工程與設(shè)計;2011年12期

5 陸宇杰;許鑫;郭金龍;;文本挖掘在人文社會科學(xué)研究中的典型應(yīng)用述評[J];圖書情報工作;2012年08期

6 湛燕,陳昊,袁方,王麗娟;文本挖掘研究進展[J];河北大學(xué)學(xué)報(自然科學(xué)版);2003年02期

7 常青;文本挖掘 挖掘知識[J];中國計算機用戶;2004年24期

8 劉劍蘭;用信息萃取進行文本挖掘的方法[J];情報雜志;2004年12期

9 唐明;張自力;;文本挖掘在多文化交流平臺中的應(yīng)用研究[J];西南師范大學(xué)學(xué)報(自然科學(xué)版);2006年03期

10 胡冰;胡東軍;馬文超;;文本挖掘研究及發(fā)展[J];電腦知識與技術(shù);2008年31期

相關(guān)會議論文 前10條

1 陳林;王曉華;李殿峗;文俊浩;;基于自增模式的文本挖掘研究[A];’2004計算機應(yīng)用技術(shù)交流會議論文集[C];2004年

2 王巍;楊武;張樂君;鄭軍;;支持網(wǎng)絡(luò)話題管理的文本挖掘算法分析[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(下冊)[C];2007年

3 王繼成;孫穎;張福炎;;文本挖掘-數(shù)據(jù)挖掘研究的新課題[A];第十六屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1999年

4 高飛;荊繼武;向繼;;文本挖掘系統(tǒng)的可視化方法研究[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年

5 朱強生;田英;周延泉;何華燦;;基于非負(fù)因子分析的模糊文本挖掘[A];2006通信理論與技術(shù)新進展——第十一屆全國青年通信學(xué)術(shù)會議論文集[C];2006年

6 錢程揚;龍毅;徐震;孫昊;;基于Web文本挖掘的地理位置信息重建技術(shù)[A];中國地理學(xué)會2007年學(xué)術(shù)年會論文摘要集[C];2007年

7 蔣子海;周斌;吳泉源;;基于UIMA AS的文本挖掘系統(tǒng)的性能分析與評估[A];全國計算機安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年

8 邱曉蕾;張聰超;;基于SVD和部分聚集分類的文本挖掘算法[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年

9 武洪萍;周國祥;;Web文本挖掘研究[A];計算機技術(shù)與應(yīng)用進展·2007——全國第18屆計算機技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集[C];2007年

10 陳宇;王強;;聚類算法在Web文本挖掘中的應(yīng)用研究[A];2009全國計算機網(wǎng)絡(luò)與通信學(xué)術(shù)會議論文集[C];2009年

相關(guān)重要報紙文章 前4條

1 本報記者 施鵬;非結(jié)構(gòu)信息和文本挖掘[N];21世紀(jì)經(jīng)濟報道;2009年

2 周青 編譯;文本挖掘工具實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)價值[N];計算機世界;2004年

3 ;SAS公司收購Teragram 強化BI領(lǐng)域地位[N];計算機世界;2008年

4 ;用挖掘技術(shù)使學(xué)術(shù)資源利用效益最大化[N];中國計算機報;2007年

相關(guān)博士學(xué)位論文 前10條

1 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年

2 周雪忠;文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D];浙江大學(xué);2004年

3 陳虹樞;基于主題模型的專利文本挖掘方法及應(yīng)用研究[D];北京理工大學(xué);2015年

4 曹奇敏;網(wǎng)絡(luò)信息文本挖掘若干問題研究[D];北京理工大學(xué);2015年

5 王明春;基于粗糙集的數(shù)據(jù)及文本挖掘方法研究[D];天津大學(xué);2005年

6 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年

7 文翰;面向信息檢索的Web文本挖掘方法研究[D];華南理工大學(xué);2012年

8 卜東波;聚類/分類理論研究及其在文本挖掘中的應(yīng)用[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2000年

9 陳曉云;文本挖掘若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2005年

10 檀敬東;文本挖掘的若干關(guān)鍵算法研究[D];中國科學(xué)技術(shù)大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 高希瑞;基于文本挖掘的企業(yè)危機預(yù)警研究[D];華東師范大學(xué);2011年

2 劉智勇;基于云計算的文本挖掘算法研究[D];電子科技大學(xué);2011年

3 唐明;文本挖掘及其在多文化交流平臺中的應(yīng)用[D];西南大學(xué);2006年

4 郭建永;聚類分析在文本挖掘中的應(yīng)用與研究[D];江南大學(xué);2008年

5 張慶;基于本體的文本挖掘結(jié)果的存儲與表現(xiàn)[D];中國醫(yī)科大學(xué);2009年

6 王春鋒;基于整合文本挖掘方法的中醫(yī)證與分子生物學(xué)知識的關(guān)聯(lián)分析系統(tǒng)[D];北京交通大學(xué);2008年

7 鄒振華;基于文本挖掘的量化投資系統(tǒng)[D];華南理工大學(xué);2013年

8 郭飛;文本挖掘方法探討及應(yīng)用[D];成都理工大學(xué);2006年

9 管芳;基于偏序結(jié)構(gòu)圖對中醫(yī)藥治療失眠文獻(xiàn)的文本挖掘[D];燕山大學(xué);2014年

10 楊青;轉(zhuǎn)錄調(diào)控信息文本挖掘算法及實現(xiàn)[D];復(fù)旦大學(xué);2009年



本文編號:2741907

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/2741907.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6fa16***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com