基于編輯距離的多實(shí)體可信確認(rèn)算法
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
圖1MeTCa系統(tǒng)的整體架構(gòu)
多實(shí)體可信確認(rèn)算法模型(Multi-EntityTrustedConfirmationAlgorithms,MeTCa)的整體框架如圖1所示,主要有3個(gè)階段:分布式弱可信數(shù)據(jù)獲取階段、命名實(shí)體識(shí)別階段和多參數(shù)融合可信確認(rèn)階段。3.1數(shù)據(jù)獲取
圖2爬蟲(chóng)的架構(gòu)圖
測(cè)試的郵箱地址來(lái)自國(guó)內(nèi)外各大高校公開(kāi)的教師的郵箱地址,共1000個(gè)。通過(guò)自動(dòng)化技術(shù)將郵箱地址分別輸入到百度、必應(yīng)和谷歌三大搜索引擎的搜索框中,爬取相關(guān)弱可信數(shù)據(jù)。實(shí)驗(yàn)使用3臺(tái)主機(jī)進(jìn)行分布式爬取:一臺(tái)主機(jī)作為控制節(jié)點(diǎn),從文件中獲取待爬取的郵箱地址,并將其傳遞給其余兩臺(tái)爬蟲(chóng)節(jié)點(diǎn)下的....
圖3Bi-LSTM-CRF網(wǎng)絡(luò)的結(jié)構(gòu)
目標(biāo)文本在進(jìn)入模型識(shí)別前首先進(jìn)行語(yǔ)種的識(shí)別,若網(wǎng)頁(yè)內(nèi)容中超過(guò)50%的字符為英文字母,則判斷該網(wǎng)頁(yè)為英文網(wǎng)頁(yè),否則為中文網(wǎng)頁(yè)[15]。然后,將它們分別投入針對(duì)中文或英文的訓(xùn)練的Bi-LSTM-CRF模型中進(jìn)行實(shí)體識(shí)別。在區(qū)分語(yǔ)種后,實(shí)體的識(shí)別準(zhǔn)確度得到了明顯的提升。其中,Bi-LS....
圖4有效實(shí)體占總實(shí)體的堆積圖
圖4中,橫坐標(biāo)為排序前N的網(wǎng)頁(yè)頁(yè)面數(shù),左縱坐標(biāo)為TopN頁(yè)面中的平均實(shí)體數(shù)(單位:個(gè)),右縱坐標(biāo)為平均有效實(shí)體的占比。在Top30頁(yè)時(shí),平均有效占比達(dá)到了最大值,即89%,后面的頁(yè)面抓取到的實(shí)體多為與郵箱地址相關(guān)度低的無(wú)效實(shí)體。因此,在實(shí)驗(yàn)中采集數(shù)據(jù)時(shí),選擇獲取三大引擎的To....
本文編號(hào):3899542
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3899542.html