天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于編輯距離的多實(shí)體可信確認(rèn)算法

發(fā)布時(shí)間:2024-02-15 09:33
  隨著自媒體的蓬勃發(fā)展,任何人都可以在網(wǎng)上隨意發(fā)布和轉(zhuǎn)發(fā)信息,而這些信息可能是真實(shí)的,也可能是道聽(tīng)途說(shuō)或被故意篡改的;ヂ(lián)網(wǎng)上數(shù)據(jù)的嚴(yán)重冗余和弱可信問(wèn)題,導(dǎo)致現(xiàn)有數(shù)據(jù)的可用性很差。Bi-LSTM-CRF(Bi-Long Short Term Memory with Conditional Random Field Layer)網(wǎng)絡(luò)雖然能夠解決數(shù)據(jù)中命名實(shí)體識(shí)別的準(zhǔn)確率問(wèn)題,但不能滿足識(shí)別出的實(shí)體是可信的這一要求。文中提出一種基于編輯距離的多實(shí)體可信確認(rèn)算法,并通過(guò)人物命名實(shí)體識(shí)別實(shí)例對(duì)該算法進(jìn)行驗(yàn)證。首先通過(guò)分布式爬蟲(chóng)抓取同一個(gè)郵箱地址在多個(gè)搜索引擎上的Top N網(wǎng)頁(yè)記錄,然后使用經(jīng)過(guò)雙語(yǔ)語(yǔ)料訓(xùn)練后的Bi-LSTM-CRF模型抽取每個(gè)頁(yè)面內(nèi)的人物命名實(shí)體,最后通過(guò)實(shí)體多參數(shù)融合確定郵箱所對(duì)應(yīng)的人物命名實(shí)體。實(shí)驗(yàn)結(jié)果表明,多實(shí)體可信確認(rèn)算法能夠?qū)⑧]箱地址與郵箱真實(shí)主人的匹配準(zhǔn)確率MRR(Mean Reciprocal Rank)提高到91.32%,相比只使用詞頻的算法其MRR提升了23.08%。實(shí)驗(yàn)數(shù)據(jù)充分說(shuō)明,多實(shí)體可信確認(rèn)算法能很好地從弱可信數(shù)據(jù)中獲得強(qiáng)可信度的實(shí)體,降低海量數(shù)據(jù)中的低...

【文章頁(yè)數(shù)】:5 頁(yè)

【部分圖文】:

圖1MeTCa系統(tǒng)的整體架構(gòu)

圖1MeTCa系統(tǒng)的整體架構(gòu)

多實(shí)體可信確認(rèn)算法模型(Multi-EntityTrustedConfirmationAlgorithms,MeTCa)的整體框架如圖1所示,主要有3個(gè)階段:分布式弱可信數(shù)據(jù)獲取階段、命名實(shí)體識(shí)別階段和多參數(shù)融合可信確認(rèn)階段。3.1數(shù)據(jù)獲取


圖2爬蟲(chóng)的架構(gòu)圖

圖2爬蟲(chóng)的架構(gòu)圖

測(cè)試的郵箱地址來(lái)自國(guó)內(nèi)外各大高校公開(kāi)的教師的郵箱地址,共1000個(gè)。通過(guò)自動(dòng)化技術(shù)將郵箱地址分別輸入到百度、必應(yīng)和谷歌三大搜索引擎的搜索框中,爬取相關(guān)弱可信數(shù)據(jù)。實(shí)驗(yàn)使用3臺(tái)主機(jī)進(jìn)行分布式爬取:一臺(tái)主機(jī)作為控制節(jié)點(diǎn),從文件中獲取待爬取的郵箱地址,并將其傳遞給其余兩臺(tái)爬蟲(chóng)節(jié)點(diǎn)下的....


圖3Bi-LSTM-CRF網(wǎng)絡(luò)的結(jié)構(gòu)

圖3Bi-LSTM-CRF網(wǎng)絡(luò)的結(jié)構(gòu)

目標(biāo)文本在進(jìn)入模型識(shí)別前首先進(jìn)行語(yǔ)種的識(shí)別,若網(wǎng)頁(yè)內(nèi)容中超過(guò)50%的字符為英文字母,則判斷該網(wǎng)頁(yè)為英文網(wǎng)頁(yè),否則為中文網(wǎng)頁(yè)[15]。然后,將它們分別投入針對(duì)中文或英文的訓(xùn)練的Bi-LSTM-CRF模型中進(jìn)行實(shí)體識(shí)別。在區(qū)分語(yǔ)種后,實(shí)體的識(shí)別準(zhǔn)確度得到了明顯的提升。其中,Bi-LS....


圖4有效實(shí)體占總實(shí)體的堆積圖

圖4有效實(shí)體占總實(shí)體的堆積圖

圖4中,橫坐標(biāo)為排序前N的網(wǎng)頁(yè)頁(yè)面數(shù),左縱坐標(biāo)為TopN頁(yè)面中的平均實(shí)體數(shù)(單位:個(gè)),右縱坐標(biāo)為平均有效實(shí)體的占比。在Top30頁(yè)時(shí),平均有效占比達(dá)到了最大值,即89%,后面的頁(yè)面抓取到的實(shí)體多為與郵箱地址相關(guān)度低的無(wú)效實(shí)體。因此,在實(shí)驗(yàn)中采集數(shù)據(jù)時(shí),選擇獲取三大引擎的To....



本文編號(hào):3899542

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3899542.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶94406***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com