天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

中文人名消歧算法研究

發(fā)布時(shí)間:2017-04-19 17:02

  本文關(guān)鍵詞:中文人名消歧算法研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:人名歧義是指現(xiàn)實(shí)生活中多個(gè)人物實(shí)體共用同一個(gè)人名而造成身份不確定的現(xiàn)象,這在國(guó)內(nèi)外文本中普遍存在。在信息爆炸的互聯(lián)網(wǎng)時(shí)代,人作為社會(huì)活動(dòng)的主體,是構(gòu)成巨大信息網(wǎng)絡(luò)的主要元素,因此人物檢索在信息檢索中占據(jù)相當(dāng)重要的地位。目前,主流的搜索引擎對(duì)人物檢索的返回結(jié)果是包含檢索人名字串的龐大網(wǎng)頁(yè)集合,不利于用戶查找與篩選信息。人名消歧的任務(wù)是解決網(wǎng)絡(luò)傳播、信息檢索等中出現(xiàn)的人名歧義問題,主要研究如何把重名人以及不相關(guān)的網(wǎng)頁(yè)按照現(xiàn)實(shí)生活中的人物個(gè)體進(jìn)行劃分,使用戶能夠快速、方便地找到需要的信息。人名消歧在熱點(diǎn)人物跟蹤與發(fā)現(xiàn)、個(gè)性化搜索、自動(dòng)問答等領(lǐng)域都有廣泛的應(yīng)用,已經(jīng)成為近幾年發(fā)展起來(lái)的自然語(yǔ)言處理技術(shù)的一個(gè)研究熱點(diǎn)。中文人名消歧研究起步較晚,加上中文信息處理的特殊性,目前仍然存在諸多急需解決的問題。本文研究來(lái)自網(wǎng)絡(luò)語(yǔ)料的中文人名消歧問題,針對(duì)不同方面存在的問題,在文本相似度和聚類方法上提出相應(yīng)的改進(jìn),目的是提高人名消歧的總體性能。以下概括了本文的主要工作:1.本文在對(duì)人名消歧進(jìn)行了充分地調(diào)研上,歸納并總結(jié)了人名消歧的基礎(chǔ)知識(shí),包括了人名消歧的基本任務(wù)、處理步驟、目前面臨的難題、用到的相關(guān)技術(shù)等。2.針對(duì)向量空間模型忽略特征項(xiàng)語(yǔ)義和語(yǔ)序的問題,結(jié)合最長(zhǎng)公共子序列算法對(duì)文本表示模型進(jìn)行研究,提出一種基于改進(jìn)最長(zhǎng)公共子序列的人名消歧方法。該方法首先將文本轉(zhuǎn)化為有序的特征序列,然后結(jié)合詞語(yǔ)相似度計(jì)算最長(zhǎng)公共特征子序列,再利用特征項(xiàng)權(quán)重來(lái)構(gòu)建文本相似度矩陣,最后進(jìn)行自底向上的層次聚類。實(shí)驗(yàn)結(jié)果表明,相對(duì)于傳統(tǒng)的余弦值聚類方法,LCSC方法在人名消歧的P-IP指標(biāo)上,平均F值由74.2%提高到了84.9%;相對(duì)于最長(zhǎng)公共子序列方法,總體性能也有3.7%的提高。3.為了緩解人名消歧中聚類算法帶來(lái)的大類現(xiàn)象,提出一種結(jié)合職務(wù)或職稱信息與主題信息的聚類方法。該方法首先識(shí)別人物的職務(wù)或職稱屬性,根據(jù)人物身份的不同進(jìn)行初步劃分,并對(duì)合并的簇建立主題集。然后,按照改進(jìn)的文本相似度計(jì)算方法進(jìn)行基于主題信息的層次聚類。實(shí)驗(yàn)結(jié)果表明,該方法有效地緩解了大類現(xiàn)象,并在P-IP評(píng)價(jià)指標(biāo)的F值上比傳統(tǒng)的聚類結(jié)果提高了將近13%。
【關(guān)鍵詞】:人名消歧 文本相似度 層次聚類 最長(zhǎng)公共子序列 主題集
【學(xué)位授予單位】:華僑大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要3-5
  • abstract5-9
  • 第1章 緒論9-19
  • 1.1 課題背景與研究意義9-12
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-17
  • 1.2.1 人名搜索研究歷史12-14
  • 1.2.2 人名消歧研究現(xiàn)狀14-17
  • 1.3 主要研究?jī)?nèi)容17
  • 1.4 論文結(jié)構(gòu)安排17-19
  • 第2章 人名消歧相關(guān)知識(shí)19-28
  • 2.1 人名消歧的概述19
  • 2.2 人名消歧面臨的難題19-20
  • 2.3 人名消歧相關(guān)技術(shù)20-27
  • 2.3.1 文本表示20-22
  • 2.3.2 特征提取22-23
  • 2.3.3 文本相似度算法23-26
  • 2.3.4 聚類算法26-27
  • 2.4 本章小結(jié)27-28
  • 第3章 基于改進(jìn)最長(zhǎng)公共子序列的人名消歧28-43
  • 3.1 引言28
  • 3.2 相關(guān)工作28-30
  • 3.2.1 《知網(wǎng)》語(yǔ)義相似度28-30
  • 3.2.2 最長(zhǎng)公共子序列算法30
  • 3.3 LCSC方法30-34
  • 3.3.1 文本預(yù)處理31
  • 3.3.2 特征提取31-32
  • 3.3.3 詞語(yǔ)相似度32
  • 3.3.4 結(jié)合語(yǔ)義知識(shí)的LCS算法32-33
  • 3.3.5 基于LCS的文本相似度33-34
  • 3.3.6 聚類算法34
  • 3.4 評(píng)價(jià)指標(biāo)34-36
  • 3.4.1 P-IP評(píng)價(jià)方法34-35
  • 3.4.2 B-cubed評(píng)價(jià)方法35-36
  • 3.5 實(shí)驗(yàn)結(jié)果與分析36-41
  • 3.5.1 數(shù)據(jù)集37-38
  • 3.5.2 結(jié)果分析38-41
  • 3.6 本章小結(jié)41-43
  • 第4章 基于主題信息的人名消歧43-56
  • 4.1 引言43-44
  • 4.2 特征選擇44-45
  • 4.3 二次聚類算法45-50
  • 4.3.1 構(gòu)建主題集45-46
  • 4.3.2 基于職務(wù)或職稱信息的初步劃分46-48
  • 4.3.3 基于主題集的文本相似度算法48-49
  • 4.3.4 聚類算法描述49
  • 4.3.5 輸出結(jié)果的標(biāo)注和排序49-50
  • 4.4 實(shí)驗(yàn)分析50-55
  • 4.4.1 實(shí)驗(yàn)設(shè)置以及評(píng)價(jià)指標(biāo)50
  • 4.4.2 實(shí)驗(yàn)分析50-55
  • 4.5 本章小結(jié)55-56
  • 第5章 結(jié)束語(yǔ)56-58
  • 5.1 工作總結(jié)56-57
  • 5.2 工作展望57-58
  • 參考文獻(xiàn)58-61
  • 致謝61-62
  • 個(gè)人簡(jiǎn)歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果62

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條

1 陳晨;王厚峰;;基于社會(huì)網(wǎng)絡(luò)的跨文本同名消歧[J];中文信息學(xué)報(bào);2011年05期


  本文關(guān)鍵詞:中文人名消歧算法研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):316703

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/316703.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶30e7d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com