基于中文名稱規(guī)范檔的人物信息聚合研究
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1語(yǔ)義網(wǎng)結(jié)構(gòu)層次模型圖
基于中文名稱規(guī)范檔的人物信息聚合研究12圖2.1語(yǔ)義網(wǎng)結(jié)構(gòu)層次模型圖2.1.2本體與實(shí)例的關(guān)系本體(ontology)最先是由亞里士多德提出的,在哲學(xué)領(lǐng)域被定義為:“對(duì)世界客觀存在物體的系統(tǒng)性描述,即存在論”。1960年本體被引入知識(shí)工程領(lǐng)域后,相關(guān)專家學(xué)者給出了許多不同的定義。....
圖3.3待處理文本統(tǒng)計(jì)圖
基于中文名稱規(guī)范檔的人物信息聚合研究22200_7ba0yba0y|b名400_a變異名稱810_a數(shù)據(jù)參考來(lái)源830_a作者簡(jiǎn)介856_u個(gè)人簡(jiǎn)況名稱規(guī)范檔中人物名稱數(shù)據(jù)大多來(lái)自書(shū)目記錄,因此本文選擇《亞洲周刊》評(píng)選的20世紀(jì)排名前一百的中文小說(shuō)和中國(guó)近現(xiàn)代作家排行榜前一百名的....
圖3.7:層次聚類過(guò)程
第三章國(guó)內(nèi)中文名稱規(guī)范檔的人物聚合27圖3.7:層次聚類過(guò)程經(jīng)過(guò)上述相似度計(jì)算過(guò)程后,實(shí)驗(yàn)獲得匹配數(shù)據(jù)。本文采用Purity和F-score分?jǐn)?shù)對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià),Purity是聚類評(píng)價(jià)方法之一,需要計(jì)算正確聚類的文檔數(shù)占全部文檔數(shù)的比例,其中Ω表示聚類的集合,ω_k表示第k類個(gè)....
圖3.8:聚類結(jié)果評(píng)估統(tǒng)計(jì)圖
基于中文名稱規(guī)范檔的人物信息聚合研究28R=+在基于聚類分析的中文個(gè)人名稱實(shí)驗(yàn)中,隨機(jī)抽取20個(gè)實(shí)體的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),精確率P、召回率R、F-score分?jǐn)?shù)如圖3.8所示,總體效果較好。實(shí)驗(yàn)結(jié)果證明了基于中文個(gè)人名稱聚類并建立實(shí)體鏈接的有效性,其中purity率計(jì)算得:88.514....
本文編號(hào):3951646
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3951646.html