專利地圖服務(wù)系統(tǒng)的研究與應(yīng)用
第一章緒論
1. 1研究背景以及意義
專利是知識產(chǎn)權(quán)中科技含量很高很重要的組成部分,其意義在于對企業(yè)的研發(fā)活動和企業(yè)的戰(zhàn)略部署具有很重要的指導(dǎo)作用。在我國,用發(fā)明專利擁有量來作為我國社會和經(jīng)濟(jì)發(fā)展的考核指標(biāo)體系的重要部分,是在“十二五”規(guī)劃中首次被提出的,這都表明了我國對創(chuàng)新型經(jīng)濟(jì)的急切需求!笆晃"期間我國專利申請量十分的巨大,在全球居第四位,五年間總共累積受理了397.2萬件企業(yè)可以從專利中獲取具有技術(shù)價(jià)值和經(jīng)濟(jì)價(jià)值的重要信息,專利文獻(xiàn)包含了高達(dá)90%以上的研發(fā)成果,同時(shí)通過專利文獻(xiàn)可以反映出專利的發(fā)明創(chuàng)造信息。專利的重要作用和意義在于,根據(jù)世界知識產(chǎn)權(quán)組織(WIPO)統(tǒng)計(jì)顯示,在有效利用專利情報(bào)的條件下,,研發(fā)時(shí)間平均可以縮短60%,研發(fā)費(fèi)用可以節(jié)省40%,所以合理利用專利資源有助于激發(fā)企業(yè)的創(chuàng)新意識和幫助啟發(fā)企業(yè)技術(shù)工作人員的創(chuàng)新思路,從而可以發(fā)現(xiàn)新的技術(shù)領(lǐng)域。但是在當(dāng)下,技術(shù)的發(fā)展更快更復(fù)雜,專利信息不斷膨脹增加,專利信息不斷過載的現(xiàn)象也日益嚴(yán)峻,這都給企業(yè)帶來了極大的不便,所以有效監(jiān)測和了解技術(shù)發(fā)展方向變得越來越重要。因此,無論是學(xué)術(shù)界還是實(shí)務(wù)界,這些領(lǐng)域的專家們都已經(jīng)開始著手研究如何跟蹤技術(shù)發(fā)展的方向,并且也提出了許多與之相關(guān)的方法。其中利用分析和處理專利文獻(xiàn)從而來制作專利地圖,進(jìn)而從專利可視化的視角去探索和研究技術(shù)的動態(tài)發(fā)展便是其中的一種方法。除此之外,專利地圖是整體專利分析的一個(gè)可視化表達(dá)方法,這樣更有利于且方便有效地理解復(fù)雜和不同的專利信息。專利地圖最重要的意義是對技術(shù)的發(fā)展和創(chuàng)新。在研究了有關(guān)國內(nèi)外相關(guān)文獻(xiàn)等對專利地圖作用的闡述,其主要功能大概可以歸納總結(jié)為以下三個(gè)方面:(1)可以激發(fā)新專利的創(chuàng)造動力,同時(shí)可以發(fā)現(xiàn)對現(xiàn)有技術(shù)不足之處并進(jìn)行改進(jìn);(2)研究技術(shù)相對密集領(lǐng)域進(jìn)而發(fā)現(xiàn)技術(shù)發(fā)展的機(jī)會:(3)不僅可以密切關(guān)注競爭者的研究動態(tài)而且可以發(fā)現(xiàn)新的競爭者。
……….
1. 2國內(nèi)外研究現(xiàn)狀
在現(xiàn)實(shí)應(yīng)用中隨著對專利分析的不斷應(yīng)用和展現(xiàn),分析專利信息的研究和應(yīng)用逐步被重視和關(guān)注起來。作為專利分析的重要手段之一的專利地圖,它的首次成功的應(yīng)用是在日本,并成為其專利戰(zhàn)略中成功的“作戰(zhàn)圖”,得到了大力推廣和應(yīng)用。目前在日本,日本相關(guān)方面依然在積極收集各個(gè)技術(shù)領(lǐng)域?qū)@畔⒉⑦M(jìn)行分析,并將分析得到的結(jié)果制作成專利地圖,無償?shù)奶峁┙o需要的領(lǐng)域企業(yè)等如工業(yè)界。之后制作專利地圖的相關(guān)技術(shù)也被傳入韓國、新加坡、美國等國家和地區(qū)并得到推廣,比如:2003年在韓國知識產(chǎn)權(quán)局一場關(guān)于專利信息產(chǎn)品及其作用的報(bào)告中曾總結(jié)提出過,專利信息業(yè)務(wù)要包含制作專利地圖及其分析軟件,在美國,IBM公司的專利申請量特別巨大,而"專利地圖”這個(gè)詞經(jīng)常被使用在其有關(guān)的專利分析文獻(xiàn)中。跟上述國家相比,在我國大陸地區(qū)對專利信息的分析和系統(tǒng)研究還處于比較薄弱的階段,國家要從制造大國轉(zhuǎn)型發(fā)展為創(chuàng)造大國仍然還有很長的路要走還有很多的工作要做。雖然近些年來在我國,有部分企業(yè)己經(jīng)開始應(yīng)用專利地圖,但是總體上仍落后于其他國家,處于一個(gè)起步的階段。
……….
第二章相關(guān)技術(shù)
2. 1Hadoop平臺
隨著云計(jì)算和大數(shù)據(jù)的不斷發(fā)展,云計(jì)算平臺的種類也不斷的出現(xiàn)并且越來越多,同時(shí)也日漸成熟,比如GoogleAppEngine、MicrosoftArzue等,但是大多數(shù)平臺都不向外部公開其內(nèi)部資料,相反只是公布了相關(guān)的API,Hadoop以其開源且低廉的優(yōu)勢獲得了大多數(shù)研究者的青睞和重點(diǎn)關(guān)注,所以Hadoop是使用得較為廣泛的云計(jì)算平臺。Hadoop的優(yōu)勢在于用戶可以利用很廉價(jià)的機(jī)器搭建集群環(huán)境,可以在不了解分布式系統(tǒng)的情況下完成分布式運(yùn)算任務(wù)Hadoop的優(yōu)點(diǎn)主要有:1、可拓展性,Hadoop的擴(kuò)展十分簡單,并不需要修改到自己已經(jīng)有的任何結(jié)構(gòu);2、經(jīng)濟(jì)性,Hadoop對硬件要求不高,它可以運(yùn)行在比較大型集群而且廉價(jià)的硬件設(shè)備上;3、可靠性,Hadoop提前架設(shè)了每個(gè)節(jié)點(diǎn)會出現(xiàn)計(jì)算和存儲失敗的情況,因此它具有備份恢復(fù)機(jī)制和任務(wù)監(jiān)控,確保能夠當(dāng)某個(gè)節(jié)點(diǎn)失敗后能夠恢復(fù)重新分布處理;4、高效性,Hadoop是以并行的方式工作,可以通過分布式處理加快任務(wù)的處理速度。Hadoop的組件包括很多,但是最主要的兩大核心組件是分布式文件系統(tǒng)HDFS和MapReduce。HDFS作為大規(guī)模的分布式文件系統(tǒng),主要用來存儲各個(gè)計(jì)算節(jié)點(diǎn)的數(shù)據(jù),并且提供了對數(shù)據(jù)的容錯(cuò)性處理和,以提供了處理數(shù)據(jù)的高吞吐量,為底層計(jì)算存儲提供了支持。MapReduce的思想最早出現(xiàn)于Google的論文中,MapReduce的從含義上講就是作業(yè)的分解和結(jié)果的匯總,即將任務(wù)分解成多個(gè)小工作單元,任何集群點(diǎn)上都可以處理這些單元。
…………
2.2非結(jié)構(gòu)化信息處理技術(shù)
文本分類實(shí)質(zhì)就是將文本映射到一個(gè)或者多個(gè)分類中去,是一門模式識別和自然語言處理的交叉學(xué)科[氣單標(biāo)簽分類,即待分類的文本被映射到一個(gè)類別中,多標(biāo)簽分類則是被映射到多個(gè)類別中。文本分類不同于文本聚類,是一種基于實(shí)例的監(jiān)督學(xué)習(xí)過程,就是通過一個(gè)已經(jīng)人工訓(xùn)練好的訓(xùn)練集或者已經(jīng)逋過標(biāo)識類別的文本集,對未分類的文本進(jìn)行分類,將其歸類。目前已經(jīng)有多種分類算法,如:KNN、類中心向量法、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等等。KNN算法在1968年由Hart和Cover提出來的,算法的基本思想是:利用空間向量模型將待分類文本和訓(xùn)練集文本表示為空間向量,然后將兩者的文本進(jìn)行計(jì)算,計(jì)算出文本之間的相似度,待分類文本的類別主要由測試集文本的類別決定的,分類的原則是根據(jù)測試文本和訓(xùn)練文本之間的相似度降序排序,然后選取前K個(gè)文本,并統(tǒng)計(jì)K個(gè)女本中屬于某個(gè)類別最多的結(jié)果,由此將待分類文本分到該類別中。在KNN算法中,K值的選取會影響到文本的分類效果,因此選取合適的K值十分重要。如果K的值選擇過大,會把對分類造成影響的噪點(diǎn)文本包含進(jìn)來,那么就會造成分類的時(shí)間成本等增加,使得分類的效果不好,相反,如果K值選擇過小,可能會把有用的文本排除在外,導(dǎo)致文本樣本數(shù)太少,導(dǎo)致分類的不準(zhǔn)確產(chǎn)生誤差。
…….
第三章總體設(shè)計(jì)..........23
3.1系統(tǒng)分析.........23
3.2體系架構(gòu).........23
3.3系統(tǒng)組成.........25
3.3.1數(shù)據(jù)采集.........25
3.3.2文本分類.........27
3.3.3專利可視化.........31
第四章基于MapReduce的專利地圖構(gòu)建.........33
4.1專利地圖模型定義.........33
4.2專利文獻(xiàn)預(yù)處理.........34
4.3關(guān)鍵詞表生成.........36
4.4文本向量化.........38
4.5改進(jìn)的KNN算法.........42
4.6專利地圖可視化.........43
第五章應(yīng)用與分析.........46
5.1系統(tǒng)應(yīng)用.........46
5.2實(shí)驗(yàn)分析.........49
5.3結(jié)果分析.........53
第五章應(yīng)用與分析
5.1系統(tǒng)應(yīng)用
基于第四章的專利地圖模型定義和相關(guān)的算法實(shí)現(xiàn)描述,本系統(tǒng)在實(shí)際開發(fā)過程中,除了搭建了Hadoop平臺,系統(tǒng)采用java語言,引入了SSH(Struts+Spring+Hibernate)三大框架,數(shù)據(jù)庫采用了sqiserver2008r2。系統(tǒng)具有友好的人機(jī)交互界面,同時(shí)對于權(quán)限控制也較為嚴(yán)格。以下部分針對系統(tǒng)的部分關(guān)鍵功能及其操作界面進(jìn)行簡要說明。
(1)專利文本信息源的錄入,系統(tǒng)采用網(wǎng)絡(luò)爬蟲自動采集文本,管理員才有該功能的操作權(quán)限,主要完成的任務(wù)就是對信息源的錄入,根據(jù)錄入的URL,系統(tǒng)后臺根據(jù)這個(gè)URL在網(wǎng)絡(luò)中爬取相應(yīng)的文本,通過點(diǎn)擊對應(yīng)的類別,然后通過按鈕“錄入信息源”,從而將信息源的URL錄入,點(diǎn)擊確定自動去爬取,并將爬取的結(jié)果以文本的形式保留在本地系統(tǒng)上。
(2)預(yù)處理,預(yù)處理階段主要的過程是分詞、去停用詞、特征選取和向量化等過程,因?yàn)橛?xùn)練樣本是隨著專利文本的增大而增大的,因此每次進(jìn)行預(yù)處理前都要錄入對應(yīng)的合適的維度,即保留多少個(gè)特征詞組成特征詞表。
……….
結(jié)論
因?yàn)閷@墨I(xiàn)多以非結(jié)構(gòu)化的形式存在,且數(shù)量龐大,傳統(tǒng)的處理方式非常耗時(shí),因此本文研究工作主要為了解決上述問題,通過引入Hadoop平臺的MapReduce框架處理這些海量的非結(jié)構(gòu)化信息,同時(shí)針對專利文獻(xiàn),優(yōu)化了KNN分類算法,從而提高了處理專利文獻(xiàn)的效率,最后將專利地圖可視化,建立專利地圖服務(wù)系統(tǒng)。本文對專利地圖和Hadoop平臺國內(nèi)外研究狀況進(jìn)行總結(jié),詳細(xì)介紹了Hadoop平臺、非結(jié)構(gòu)化信息處理的技術(shù)和專利地圖構(gòu)建技術(shù)等相關(guān)的技術(shù)原理。著重分析了對處理專利文獻(xiàn)現(xiàn)有方法的一些優(yōu)缺點(diǎn),針對現(xiàn)存的一些缺點(diǎn),提出了將KNN算法優(yōu)化,并將其跟Hadoop的MapReduce框架進(jìn)行結(jié)合,并對并行化過程進(jìn)行詳細(xì)的闡述。該方法可以加快對專利文本的處理效率,使得專利地圖的構(gòu)建更加快速高效。在相關(guān)的系統(tǒng)分析和技術(shù)分析的基礎(chǔ)上,研究了專利地圖服務(wù)系統(tǒng)的總體架構(gòu),采用分層和模塊化的設(shè)計(jì)原則,構(gòu)建了適合系統(tǒng)的三層結(jié)構(gòu),主要的功能為數(shù)據(jù)采集、文本分類和專利可視化,對這三個(gè)功能模塊都進(jìn)行了詳細(xì)說明,本文重點(diǎn)研究了文本分類和專利可視化這兩部分?紤]到專利文獻(xiàn)的特殊性,本文將專利的標(biāo)題和摘要作為專利的原始文本。分類和預(yù)處理是文本分類的重要過程,預(yù)處理各階段包括中文分詞、去停用詞、特征選擇和文本向量化,其中特征選擇采用了信息增益進(jìn)行處理,同時(shí)計(jì)算了詞頻、文檔頻率等需要的相關(guān)統(tǒng)計(jì)量。在分類階段,因?yàn)閷@墨I(xiàn)的數(shù)量龐大,釆用傳統(tǒng)的KNN算法在處理分類效率上不夠高效,因此本文提出了優(yōu)化KNN算法,將類中心向量法和KNN算法相結(jié)合,算法的主要思想是,對經(jīng)過預(yù)處理的專利文本,在訓(xùn)練階段初級分類器的構(gòu)建,采用取均值法得到每個(gè)類的中心向量作為該類所有文本的向量文本,然后將同樣經(jīng)過預(yù)處理的待分類專利文本與其進(jìn)行相似度計(jì)算,從而蹄選出前M個(gè)子類(M為手動輸入系統(tǒng)的閥值),然后待分類分本與子類中的文本進(jìn)行二次計(jì)算,這時(shí)利用KNN分類器,找到最近的K個(gè)結(jié)果,以此將文本進(jìn)行分類,這一階段主要是通過降低了計(jì)算文本的數(shù)量,從而減少了計(jì)算量,在效率上優(yōu)化了KNN算法,并將上述兩個(gè)過程和MapReduce框架結(jié)合,實(shí)現(xiàn)了整個(gè)專利文獻(xiàn)預(yù)處理和分類并行化處理的方法,最后本文通過實(shí)驗(yàn)選取了最適合的M值,同時(shí)通過實(shí)驗(yàn)也驗(yàn)證了算法并行化的高效性。
............
參考文獻(xiàn)(略)
本文編號:42492
本文鏈接:http://www.sikaile.net/wenshubaike/shijiedaxue/42492.html