基于MLN的開放式信息抽取技術(shù)的研究與應(yīng)用
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖4.2賓州樹庫閾值性能分布圖
“……與MNP[通信網(wǎng)絡(luò)]相連……”,同理,從該詞開始,直到“的”,則不為分隔符,如,“……MNP[與輸入內(nèi)容相對應(yīng)的元數(shù)據(jù)別出來的MNP長度為1,則過濾。!isSeg(i1-1)Λ!isSeg(i1+1)=>!isSeg(i1)isSeg(i1-1)=>i....
圖4.3專利樹庫閾值性能分布圖
斷過句的24,485篇章中均勻采樣220句進行人工標注,作為測試old被用來最終界定是否為分隔符,大于該閾值的是分隔符。為了模型(包含全部公式)的影響,本文針對遷移的兩種樹庫,設(shè)定位,按步長0.01測試,結(jié)果如圖4.2和4.3所示。圖4.2賓州樹庫閾值....
圖5.2取閾值高的情況錯誤所占比同時將錯誤較大的1%選取進行人工標注
的應(yīng)對非線性可分問題。所以本文以支持向量機為底層模型,采用自動獲取訓(xùn)練語料。該算法一個關(guān)鍵的問題是閾值的選取。使用50m,實驗發(fā)現(xiàn)取打分前12%的錯誤較低。結(jié)果如圖5.2所示。
圖5.3取閾值低的情況錯誤所占比過濾不滿足假設(shè)的實體對后,剩下未標注的有8539對
系統(tǒng)界面見附錄II。系統(tǒng)流程圖如圖5.1所示。圖5.1系統(tǒng)流程圖5.3開放式實體關(guān)系抽取方法5.3.1中文開放式實體關(guān)系抽取問題定義OERE輸出的形式為三元組t=(ei,rij,ej),i≠j,其中ei和ej代表語義實體的字符串,rij代表兩個實體之間....
本文編號:3908399
本文鏈接:http://www.sikaile.net/shekelunwen/ljx/3908399.html