天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類碩士論文 >

基于中文名稱規(guī)范檔的人物信息聚合研究

發(fā)布時(shí)間:2024-04-12 04:13
  名稱規(guī)范的管理是圖書(shū)館機(jī)構(gòu)規(guī)范控制的主要工作,在2003年我國(guó)內(nèi)地及港澳臺(tái)的多家機(jī)構(gòu)聯(lián)合建立了中文名稱規(guī)范聯(lián)合數(shù)據(jù)庫(kù),針對(duì)數(shù)據(jù)庫(kù)資源的檢索和查詢,為用戶提供了中文名稱規(guī)范一站式查詢系統(tǒng)。不同機(jī)構(gòu)對(duì)名稱規(guī)范檔中數(shù)據(jù)資源的管理缺乏統(tǒng)一的整合方法,導(dǎo)致共享性較差;而且數(shù)據(jù)來(lái)源比較單一,主要為書(shū)目數(shù)據(jù),降低了數(shù)據(jù)庫(kù)名稱資源的服務(wù)水平和信息質(zhì)量。人物作為客觀世界最為重要的實(shí)體,其相關(guān)的數(shù)據(jù)資源在中文名稱規(guī)范檔中冗余程度較高,同一人物的多條標(biāo)目缺乏語(yǔ)義關(guān)聯(lián)和信息整合。通過(guò)構(gòu)建人物關(guān)聯(lián)模型,完成人物實(shí)體的信息聚合,進(jìn)而提高圖書(shū)館特有資源的數(shù)據(jù)質(zhì)量具有重要意義。當(dāng)前,國(guó)內(nèi)外眾多知識(shí)庫(kù)均覆蓋了人物、組織、會(huì)議等多類型的實(shí)體數(shù)據(jù),各知識(shí)庫(kù)對(duì)實(shí)體對(duì)象的構(gòu)造方式、描述屬性和語(yǔ)義關(guān)聯(lián)都各有特點(diǎn),且大多知識(shí)庫(kù)都是基于開(kāi)放和關(guān)聯(lián)的。中文名稱規(guī)范檔的人物實(shí)體屬性匱乏,存儲(chǔ)格式難以關(guān)聯(lián)和優(yōu)化,信息聚合成為解決上述問(wèn)題的有效途徑,既能整合國(guó)內(nèi)多家機(jī)構(gòu)的重復(fù)條目,進(jìn)而識(shí)別同一實(shí)體,又能與其他不同類型的數(shù)據(jù)庫(kù)建立鏈接,形成屬性豐富的人物關(guān)聯(lián)模型,滿足多元的知識(shí)服務(wù)和需求。本文基于中文名稱規(guī)范檔的人物信息聚合問(wèn)題進(jìn)行了理論探討...

【文章頁(yè)數(shù)】:79 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖2.1語(yǔ)義網(wǎng)結(jié)構(gòu)層次模型圖

圖2.1語(yǔ)義網(wǎng)結(jié)構(gòu)層次模型圖

基于中文名稱規(guī)范檔的人物信息聚合研究12圖2.1語(yǔ)義網(wǎng)結(jié)構(gòu)層次模型圖2.1.2本體與實(shí)例的關(guān)系本體(ontology)最先是由亞里士多德提出的,在哲學(xué)領(lǐng)域被定義為:“對(duì)世界客觀存在物體的系統(tǒng)性描述,即存在論”。1960年本體被引入知識(shí)工程領(lǐng)域后,相關(guān)專家學(xué)者給出了許多不同的定義。....


圖3.3待處理文本統(tǒng)計(jì)圖

圖3.3待處理文本統(tǒng)計(jì)圖

基于中文名稱規(guī)范檔的人物信息聚合研究22200_7ba0yba0y|b名400_a變異名稱810_a數(shù)據(jù)參考來(lái)源830_a作者簡(jiǎn)介856_u個(gè)人簡(jiǎn)況名稱規(guī)范檔中人物名稱數(shù)據(jù)大多來(lái)自書(shū)目記錄,因此本文選擇《亞洲周刊》評(píng)選的20世紀(jì)排名前一百的中文小說(shuō)和中國(guó)近現(xiàn)代作家排行榜前一百名的....


圖3.7:層次聚類過(guò)程

圖3.7:層次聚類過(guò)程

第三章國(guó)內(nèi)中文名稱規(guī)范檔的人物聚合27圖3.7:層次聚類過(guò)程經(jīng)過(guò)上述相似度計(jì)算過(guò)程后,實(shí)驗(yàn)獲得匹配數(shù)據(jù)。本文采用Purity和F-score分?jǐn)?shù)對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià),Purity是聚類評(píng)價(jià)方法之一,需要計(jì)算正確聚類的文檔數(shù)占全部文檔數(shù)的比例,其中Ω表示聚類的集合,ω_k表示第k類個(gè)....


圖3.8:聚類結(jié)果評(píng)估統(tǒng)計(jì)圖

圖3.8:聚類結(jié)果評(píng)估統(tǒng)計(jì)圖

基于中文名稱規(guī)范檔的人物信息聚合研究28R=+在基于聚類分析的中文個(gè)人名稱實(shí)驗(yàn)中,隨機(jī)抽取20個(gè)實(shí)體的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),精確率P、召回率R、F-score分?jǐn)?shù)如圖3.8所示,總體效果較好。實(shí)驗(yàn)結(jié)果證明了基于中文個(gè)人名稱聚類并建立實(shí)體鏈接的有效性,其中purity率計(jì)算得:88.514....



本文編號(hào):3951646

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3951646.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶87e55***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com