一種基于概率潛在語(yǔ)義分析的專利主題標(biāo)引方法研究
發(fā)布時(shí)間:2025-01-07 06:03
為了準(zhǔn)確穩(wěn)定地對(duì)專利主題進(jìn)行標(biāo)引,本文提出了一種基于概率潛在語(yǔ)義分析的專利主題標(biāo)引方法。首先建立由共同主題和特定主題所聯(lián)合起來(lái)的混合模型;然后通過(guò)這兩類主題相關(guān)性推斷出訓(xùn)練集和測(cè)試集特定主題的映射關(guān)系;最后選擇相似度最高的主題作為專利的主題完成標(biāo)引。實(shí)驗(yàn)結(jié)果表明,該方法能較為準(zhǔn)確、穩(wěn)定地對(duì)未標(biāo)記專利進(jìn)行主題標(biāo)引。本文嘗試將概率潛在語(yǔ)義分析運(yùn)用到專利文本的標(biāo)引中,既是對(duì)專利標(biāo)引自動(dòng)化的一種積極嘗試,也為深層次挖掘?qū)@畔⑶閳?bào)技術(shù)提供了一種新的思路。
【文章頁(yè)數(shù)】:10 頁(yè)
【部分圖文】:
本文編號(hào):4024605
【文章頁(yè)數(shù)】:10 頁(yè)
【部分圖文】:
圖1 PLSA示意圖
在本文提出的方法中,假設(shè)專利的主題是由共同主題和特定主題共同表示的,特定主題包含訓(xùn)練集中的特定主題和測(cè)試集中的特定主題,一般來(lái)說(shuō),共同主題和特定主題的個(gè)數(shù)是根據(jù)數(shù)據(jù)集的情況而定義。如何計(jì)算訓(xùn)練集和測(cè)試集中主題之間相關(guān)性的計(jì)算方法是本文的一個(gè)關(guān)鍵問(wèn)題。本文將共同主題作為一個(gè)橋梁,以....
圖2 三種標(biāo)引方法在IPC分類號(hào)為的D06、E03數(shù)據(jù)集上的ROC曲線
本文也對(duì)各個(gè)方法在各個(gè)數(shù)據(jù)集上的標(biāo)引結(jié)果進(jìn)行了分析,具體分析的方法是通過(guò)繪制不同方法在同一個(gè)數(shù)據(jù)集上的ROC曲線來(lái)評(píng)價(jià)的,ROC曲線下方的面積用AUC值來(lái)表示,一般來(lái)說(shuō),AUC的值越大,表明該方法在這個(gè)數(shù)據(jù)集上的分類效果越好。圖2顯示了三種分類方法在本文實(shí)驗(yàn)過(guò)程中的ROC曲線圖。....
本文編號(hào):4024605
本文鏈接:http://www.sikaile.net/tushudanganlunwen/4024605.html
最近更新
教材專著