中文個(gè)人名稱規(guī)范記錄的實(shí)體匹配與聚簇
發(fā)布時(shí)間:2017-08-04 22:10
本文關(guān)鍵詞:中文個(gè)人名稱規(guī)范記錄的實(shí)體匹配與聚簇
更多相關(guān)文章: 虛擬國(guó)際規(guī)范文檔 個(gè)人名稱規(guī)范檔 實(shí)體匹配 聚簇
【摘要】:本文嘗試解決國(guó)內(nèi)個(gè)人名稱規(guī)范聯(lián)合數(shù)據(jù)庫(kù)檢索結(jié)果集基于實(shí)體匹配的聚簇問(wèn)題,分析國(guó)內(nèi)名稱規(guī)范聯(lián)合庫(kù)CCCNA的檢索服務(wù)和數(shù)據(jù)庫(kù)記錄特點(diǎn),提出對(duì)結(jié)果集記錄合并聚簇的思路:首先預(yù)處理去除重復(fù)和明顯的名稱語(yǔ)義不匹配記錄,再根據(jù)提取出的個(gè)人實(shí)體屬性名稱、出生年、個(gè)人關(guān)聯(lián)的書目題名及關(guān)聯(lián)的外部記錄,基于個(gè)人實(shí)體的語(yǔ)義進(jìn)行個(gè)人名稱規(guī)范記錄聚簇。實(shí)證統(tǒng)計(jì)結(jié)果顯示,處理后結(jié)果集內(nèi)的簇?cái)?shù)都顯著低于處理前的記錄條數(shù),與VIAF的關(guān)聯(lián)聚簇結(jié)果也驗(yàn)證了本文方法的有效性。但本文書目匹配采取題名匹配,這會(huì)丟失一些有用的聚簇信息,后續(xù)研究將進(jìn)一步集成圖書機(jī)構(gòu)的書目數(shù)據(jù)庫(kù),抽取更多的書目信息進(jìn)行聚簇。
【作者單位】: 山西大學(xué)經(jīng)濟(jì)與管理學(xué)院;
【關(guān)鍵詞】: 虛擬國(guó)際規(guī)范文檔 個(gè)人名稱規(guī)范檔 實(shí)體匹配 聚簇
【基金】:國(guó)家社科基金重點(diǎn)項(xiàng)目“基于關(guān)聯(lián)數(shù)據(jù)的中文名稱規(guī)范檔語(yǔ)義描述及數(shù)據(jù)聚合研究”(項(xiàng)目編號(hào):15ATQ004)的研究成果之一
【分類號(hào)】:G254.3
【正文快照】: 1引言 名稱規(guī)范檔根據(jù)控制規(guī)范規(guī)則,將名稱信息按照統(tǒng)一的標(biāo)目形式展現(xiàn),為用戶查詢名稱實(shí)體提供更高效的途徑。由于單一機(jī)構(gòu)構(gòu)建的名稱規(guī)范檔規(guī)模較小,隨著機(jī)構(gòu)之間合作的深人,名稱規(guī)范檔資源之間的共建共享成為必然。2003年,國(guó)家圖書館(NLC)、中國(guó)高等教育文獻(xiàn)保障系統(tǒng)管理中
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 湯蓉;唐常杰;徐開闊;左R,
本文編號(hào):621964
本文鏈接:http://www.sikaile.net/tushudanganlunwen/621964.html
最近更新
教材專著