基于知識(shí)圖譜的專利領(lǐng)域文本分類算法研究與應(yīng)用
發(fā)布時(shí)間:2021-11-01 13:14
在創(chuàng)新驅(qū)動(dòng)的第四次工業(yè)革命背景下,我國(guó)正加快腳步推動(dòng)創(chuàng)新型國(guó)家的建設(shè),積極鼓勵(lì)大眾和企業(yè)在各自領(lǐng)域內(nèi)創(chuàng)新。大眾在創(chuàng)新的同時(shí)需要借閱大量相關(guān)領(lǐng)域研究的知識(shí)和技術(shù)。掌握相關(guān)領(lǐng)域當(dāng)前技術(shù)的發(fā)展?fàn)顩r和創(chuàng)新是把握當(dāng)下熱點(diǎn)的前提。如果想在本領(lǐng)域獲得創(chuàng)新,那么通過(guò)專利了解前沿技術(shù)十分重要。專利既是科學(xué)技術(shù)先進(jìn)成果的風(fēng)向標(biāo),同時(shí)又是前沿知識(shí)的載體,促使企業(yè)、高校等技術(shù)創(chuàng)新者不斷提高自身能力,完善技術(shù)體系。隨著國(guó)家積極提倡大眾創(chuàng)新、創(chuàng)新驅(qū)動(dòng)發(fā)展的影響,我國(guó)每年的專利數(shù)量也在迅速增長(zhǎng)。面對(duì)如此龐雜的信息來(lái)源,企業(yè)和創(chuàng)新人才如何有效的獲得相關(guān)知識(shí)成為值得我們思考的問(wèn)題。在海量的數(shù)據(jù)中,有效的將專利領(lǐng)域的信息分類可以使得企業(yè)和高校的創(chuàng)新人才準(zhǔn)確地從大量文本數(shù)據(jù)中獲得自己想要的信息。因此,高效準(zhǔn)確的信息分類可以大大減少大眾科學(xué)技術(shù)信息搜索時(shí)間,提高檢索效率。專利是代表科學(xué)技術(shù)發(fā)展進(jìn)程的標(biāo)簽,我國(guó)當(dāng)前積極鼓勵(lì)各企業(yè)和高?蒲腥藛T積極創(chuàng)新。如何在眾多種類的專利中高效的搜索到有利的專利信息是當(dāng)前面臨的主要問(wèn)題。本文構(gòu)建面向?qū)@I(lǐng)域的知識(shí)圖譜,通過(guò)不同專利的關(guān)聯(lián)關(guān)系網(wǎng)中的結(jié)構(gòu)化關(guān)系,找到相同類別專利之間的聯(lián)系。將專利分...
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW模型圖
第2章相關(guān)技術(shù)綜述9摘要做預(yù)處理,與作者、申請(qǐng)人等專利的關(guān)鍵信息構(gòu)建知識(shí)圖譜,使得相同類別的專利有更加緊密的語(yǔ)義上的聯(lián)系,然后將構(gòu)建好的專利知識(shí)圖譜向量化有助于提高文本分類的準(zhǔn)確率和召回率。2.2.1知識(shí)圖譜的應(yīng)用價(jià)值1.輔助搜索互聯(lián)網(wǎng)的最終形式是世界上所有事物通過(guò)網(wǎng)絡(luò)相互連接在一起,而搜索的最終目標(biāo)是對(duì)世界上所有事物的直接搜索。像谷歌、百度等傳統(tǒng)的搜索引擎依靠網(wǎng)頁(yè)之間的超鏈接實(shí)現(xiàn)事物的檢索,而語(yǔ)義搜索是直接對(duì)事物進(jìn)行檢索,例如具體的人物、地點(diǎn)和機(jī)構(gòu)等。這些事物可能來(lái)自文本、圖片、動(dòng)畫、互聯(lián)的硬件設(shè)備等各種傳遞信息的資源。而知識(shí)圖譜和語(yǔ)義技術(shù)提供了關(guān)于實(shí)體的特性和關(guān)系進(jìn)行描述,促使搜索引擎可以直接對(duì)實(shí)體事物進(jìn)行索引和檢索。語(yǔ)義搜索將搜索引擎的工作不再拘泥于用戶所輸入請(qǐng)求語(yǔ)句字面本身,而是透過(guò)現(xiàn)象看本質(zhì),準(zhǔn)確的捕捉用戶輸入語(yǔ)句后面的真正意圖,并以此來(lái)進(jìn)行搜索,從而能準(zhǔn)確的向用戶返回最符合其需求的搜索結(jié)果。目前國(guó)內(nèi)外很多公司利用知識(shí)圖譜提高搜索引擎的能力,其中典型代表有谷歌的Freebase、百度的“知心”、搜狗的“知立方”等。圖2.2展示了谷歌檢索中知識(shí)圖譜輔助搜索的一個(gè)實(shí)例,本文以“姚明”作為搜索詞進(jìn)行信息資源檢索時(shí),google不僅返回了百科網(wǎng)頁(yè)文字圖片和視頻,同時(shí)還生成了一個(gè)對(duì)姚明這個(gè)具體人物實(shí)體的結(jié)構(gòu)化摘要信息,這其中包括了以姚明為中心的人物關(guān)系,配偶、子女、隊(duì)友等關(guān)系實(shí)體。圖2.2知識(shí)圖譜在輔助搜索中的應(yīng)用1
第2章相關(guān)技術(shù)綜述12含人、地點(diǎn)、音樂(lè)、電影、組織機(jī)構(gòu)、事物、地點(diǎn)等類的定義。DBpedia采用RDF定義數(shù)據(jù)模型,統(tǒng)計(jì)包含30億個(gè)RDF三元組[15]。4.OpenKG是一個(gè)面向中文域開(kāi)放知識(shí)圖譜的社區(qū)項(xiàng)目,主要目的是促進(jìn)中文領(lǐng)域知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián)。OpenKG聚集了大量開(kāi)放的中文知識(shí)圖譜數(shù)據(jù)、工具及貢獻(xiàn),如圖2.3是OpenKG首頁(yè),包括百科類的Zhishi.me(狗尾草科技、東南大學(xué))、CN-DBpedia(復(fù)旦大學(xué))、XLore(清華大學(xué))、Belief-Engine(中科院自動(dòng)化所),OpenKG通過(guò)融合和鏈接計(jì)算對(duì)數(shù)據(jù)進(jìn)行整合并提供開(kāi)放的API。此外,OpenKG還對(duì)一些重要的知識(shí)圖譜開(kāi)源工具進(jìn)行了收集和整理,包括知識(shí)建模工具Protege、知識(shí)融合工具Limes、知識(shí)問(wèn)答工具YodaQA、知識(shí)抽取工具DeepDive等。圖2.3OpenKG首頁(yè)25.領(lǐng)域知識(shí)圖譜:本文之前提到的DBpedia、百度和谷歌等都是通用知識(shí)圖譜。另外還有一種知識(shí)圖譜是領(lǐng)域知識(shí)圖譜,又叫做垂直領(lǐng)域的知識(shí)圖譜,它是專門面向某個(gè)領(lǐng)域的知識(shí)圖譜,如電商、金融、安全、農(nóng)業(yè)等各種不同的分支領(lǐng)域[16-17]。領(lǐng)域知識(shí)圖譜相比于通用知識(shí)圖譜有很多不同之處。如圖2.4所示,從多個(gè)方面對(duì)兩種知識(shí)圖譜進(jìn)行對(duì)比分析。2http://www.openkg.cn/圖2.4通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜分析
【參考文獻(xiàn)】:
期刊論文
[1]中文文本分類方法綜述[J]. 于游,付鈺,吳曉平. 網(wǎng)絡(luò)與信息安全學(xué)報(bào). 2019(05)
[2]卷積神經(jīng)網(wǎng)絡(luò)CNN算法在文本分類上的應(yīng)用研究[J]. 侯小培,高迎. 科技與創(chuàng)新. 2019(04)
[3]基于知識(shí)圖譜擴(kuò)展的短文本分類方法[J]. 丁連紅,孫斌,張宏偉. 情報(bào)工程. 2018(05)
[4]一種基于Neo4j圖數(shù)據(jù)庫(kù)的模糊查詢研究與實(shí)現(xiàn)[J]. 李雪. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(11)
[5]專利信息系統(tǒng)分析與研究[J]. 康婧,謝怡,宋佳穎,趙正青,張慶國(guó),康懷志. 情報(bào)工程. 2017(05)
[6]知識(shí)圖譜研究進(jìn)展[J]. 漆桂林,高桓,吳天星. 情報(bào)工程. 2017(01)
[7]垂直知識(shí)圖譜的構(gòu)建與應(yīng)用研究[J]. 阮彤,王夢(mèng)婕,王昊奮,胡芳槐. 知識(shí)管理論壇. 2016(03)
[8]知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計(jì)算機(jī)研究與發(fā)展. 2016(03)
[9]知識(shí)表示學(xué)習(xí)研究進(jìn)展[J]. 劉知遠(yuǎn),孫茂松,林衍凱,謝若冰. 計(jì)算機(jī)研究與發(fā)展. 2016(02)
[10]融合LDA與TextRank的關(guān)鍵詞抽取研究[J]. 顧益軍,夏天. 現(xiàn)代圖書情報(bào)技術(shù). 2014(Z1)
碩士論文
[1]基于Web的領(lǐng)域知識(shí)圖譜構(gòu)建平臺(tái)的研究與實(shí)現(xiàn)[D]. 王寧.北京郵電大學(xué) 2019
[2]面向特定領(lǐng)域的知識(shí)圖譜構(gòu)建技術(shù)研究與應(yīng)用[D]. 邢立棟.北京化工大學(xué) 2018
[3]基于決策樹(shù)的分類方法研究[D]. 戴南.南京師范大學(xué) 2003
本文編號(hào):3470177
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW模型圖
第2章相關(guān)技術(shù)綜述9摘要做預(yù)處理,與作者、申請(qǐng)人等專利的關(guān)鍵信息構(gòu)建知識(shí)圖譜,使得相同類別的專利有更加緊密的語(yǔ)義上的聯(lián)系,然后將構(gòu)建好的專利知識(shí)圖譜向量化有助于提高文本分類的準(zhǔn)確率和召回率。2.2.1知識(shí)圖譜的應(yīng)用價(jià)值1.輔助搜索互聯(lián)網(wǎng)的最終形式是世界上所有事物通過(guò)網(wǎng)絡(luò)相互連接在一起,而搜索的最終目標(biāo)是對(duì)世界上所有事物的直接搜索。像谷歌、百度等傳統(tǒng)的搜索引擎依靠網(wǎng)頁(yè)之間的超鏈接實(shí)現(xiàn)事物的檢索,而語(yǔ)義搜索是直接對(duì)事物進(jìn)行檢索,例如具體的人物、地點(diǎn)和機(jī)構(gòu)等。這些事物可能來(lái)自文本、圖片、動(dòng)畫、互聯(lián)的硬件設(shè)備等各種傳遞信息的資源。而知識(shí)圖譜和語(yǔ)義技術(shù)提供了關(guān)于實(shí)體的特性和關(guān)系進(jìn)行描述,促使搜索引擎可以直接對(duì)實(shí)體事物進(jìn)行索引和檢索。語(yǔ)義搜索將搜索引擎的工作不再拘泥于用戶所輸入請(qǐng)求語(yǔ)句字面本身,而是透過(guò)現(xiàn)象看本質(zhì),準(zhǔn)確的捕捉用戶輸入語(yǔ)句后面的真正意圖,并以此來(lái)進(jìn)行搜索,從而能準(zhǔn)確的向用戶返回最符合其需求的搜索結(jié)果。目前國(guó)內(nèi)外很多公司利用知識(shí)圖譜提高搜索引擎的能力,其中典型代表有谷歌的Freebase、百度的“知心”、搜狗的“知立方”等。圖2.2展示了谷歌檢索中知識(shí)圖譜輔助搜索的一個(gè)實(shí)例,本文以“姚明”作為搜索詞進(jìn)行信息資源檢索時(shí),google不僅返回了百科網(wǎng)頁(yè)文字圖片和視頻,同時(shí)還生成了一個(gè)對(duì)姚明這個(gè)具體人物實(shí)體的結(jié)構(gòu)化摘要信息,這其中包括了以姚明為中心的人物關(guān)系,配偶、子女、隊(duì)友等關(guān)系實(shí)體。圖2.2知識(shí)圖譜在輔助搜索中的應(yīng)用1
第2章相關(guān)技術(shù)綜述12含人、地點(diǎn)、音樂(lè)、電影、組織機(jī)構(gòu)、事物、地點(diǎn)等類的定義。DBpedia采用RDF定義數(shù)據(jù)模型,統(tǒng)計(jì)包含30億個(gè)RDF三元組[15]。4.OpenKG是一個(gè)面向中文域開(kāi)放知識(shí)圖譜的社區(qū)項(xiàng)目,主要目的是促進(jìn)中文領(lǐng)域知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián)。OpenKG聚集了大量開(kāi)放的中文知識(shí)圖譜數(shù)據(jù)、工具及貢獻(xiàn),如圖2.3是OpenKG首頁(yè),包括百科類的Zhishi.me(狗尾草科技、東南大學(xué))、CN-DBpedia(復(fù)旦大學(xué))、XLore(清華大學(xué))、Belief-Engine(中科院自動(dòng)化所),OpenKG通過(guò)融合和鏈接計(jì)算對(duì)數(shù)據(jù)進(jìn)行整合并提供開(kāi)放的API。此外,OpenKG還對(duì)一些重要的知識(shí)圖譜開(kāi)源工具進(jìn)行了收集和整理,包括知識(shí)建模工具Protege、知識(shí)融合工具Limes、知識(shí)問(wèn)答工具YodaQA、知識(shí)抽取工具DeepDive等。圖2.3OpenKG首頁(yè)25.領(lǐng)域知識(shí)圖譜:本文之前提到的DBpedia、百度和谷歌等都是通用知識(shí)圖譜。另外還有一種知識(shí)圖譜是領(lǐng)域知識(shí)圖譜,又叫做垂直領(lǐng)域的知識(shí)圖譜,它是專門面向某個(gè)領(lǐng)域的知識(shí)圖譜,如電商、金融、安全、農(nóng)業(yè)等各種不同的分支領(lǐng)域[16-17]。領(lǐng)域知識(shí)圖譜相比于通用知識(shí)圖譜有很多不同之處。如圖2.4所示,從多個(gè)方面對(duì)兩種知識(shí)圖譜進(jìn)行對(duì)比分析。2http://www.openkg.cn/圖2.4通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜分析
【參考文獻(xiàn)】:
期刊論文
[1]中文文本分類方法綜述[J]. 于游,付鈺,吳曉平. 網(wǎng)絡(luò)與信息安全學(xué)報(bào). 2019(05)
[2]卷積神經(jīng)網(wǎng)絡(luò)CNN算法在文本分類上的應(yīng)用研究[J]. 侯小培,高迎. 科技與創(chuàng)新. 2019(04)
[3]基于知識(shí)圖譜擴(kuò)展的短文本分類方法[J]. 丁連紅,孫斌,張宏偉. 情報(bào)工程. 2018(05)
[4]一種基于Neo4j圖數(shù)據(jù)庫(kù)的模糊查詢研究與實(shí)現(xiàn)[J]. 李雪. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(11)
[5]專利信息系統(tǒng)分析與研究[J]. 康婧,謝怡,宋佳穎,趙正青,張慶國(guó),康懷志. 情報(bào)工程. 2017(05)
[6]知識(shí)圖譜研究進(jìn)展[J]. 漆桂林,高桓,吳天星. 情報(bào)工程. 2017(01)
[7]垂直知識(shí)圖譜的構(gòu)建與應(yīng)用研究[J]. 阮彤,王夢(mèng)婕,王昊奮,胡芳槐. 知識(shí)管理論壇. 2016(03)
[8]知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計(jì)算機(jī)研究與發(fā)展. 2016(03)
[9]知識(shí)表示學(xué)習(xí)研究進(jìn)展[J]. 劉知遠(yuǎn),孫茂松,林衍凱,謝若冰. 計(jì)算機(jī)研究與發(fā)展. 2016(02)
[10]融合LDA與TextRank的關(guān)鍵詞抽取研究[J]. 顧益軍,夏天. 現(xiàn)代圖書情報(bào)技術(shù). 2014(Z1)
碩士論文
[1]基于Web的領(lǐng)域知識(shí)圖譜構(gòu)建平臺(tái)的研究與實(shí)現(xiàn)[D]. 王寧.北京郵電大學(xué) 2019
[2]面向特定領(lǐng)域的知識(shí)圖譜構(gòu)建技術(shù)研究與應(yīng)用[D]. 邢立棟.北京化工大學(xué) 2018
[3]基于決策樹(shù)的分類方法研究[D]. 戴南.南京師范大學(xué) 2003
本文編號(hào):3470177
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3470177.html
最近更新
教材專著