天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類碩士論文 >

實(shí)體解析技術(shù)研究與應(yīng)用

發(fā)布時(shí)間:2017-05-09 06:04

  本文關(guān)鍵詞:實(shí)體解析技術(shù)研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。


【摘要】:傳統(tǒng)的實(shí)體解析是指,給定一個(gè)或多個(gè)描述現(xiàn)實(shí)世界的引用集合,識(shí)別其中對(duì)應(yīng)于現(xiàn)實(shí)世界中同一實(shí)體的所有引用的過(guò)程。實(shí)體解析是數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)挖掘等技術(shù)中關(guān)鍵的一步,是數(shù)據(jù)質(zhì)量的保障。對(duì)于實(shí)體解析相關(guān)課題的研究其實(shí)早已起步,而由于近幾年網(wǎng)絡(luò)的迅速普及和數(shù)據(jù)規(guī)模的爆炸性增長(zhǎng),如何在海量數(shù)據(jù)中準(zhǔn)確獲取所需的信息,如何消除相似數(shù)據(jù)的歧義,如何檢測(cè)出數(shù)據(jù)中的錯(cuò)誤信息等已成為在生活生產(chǎn)中亟待解決的關(guān)鍵問(wèn)題,實(shí)體解析也因此成為近幾年熱門的研究課題。隨著研究的深入,已經(jīng)有不少的研究成果被應(yīng)用于各個(gè)領(lǐng)域,包括保險(xiǎn)、銀行、醫(yī)療等。論文中介紹了實(shí)體解析含義,背景起源,以及算法基礎(chǔ)。列舉并解釋了實(shí)體解析發(fā)展過(guò)程中的經(jīng)典算法包括成對(duì)實(shí)體解析,集合實(shí)體解析,大數(shù)據(jù)的實(shí)體解析等,以及它們的特點(diǎn)和局限性,分享了在新的應(yīng)用環(huán)境下衍生出來(lái)的針對(duì)不同需求的新的實(shí)體解析算法。由于電子商務(wù)的興起,對(duì)網(wǎng)絡(luò)產(chǎn)品的精確識(shí)別成了亟待解決的具有極高應(yīng)用價(jià)值的課題。網(wǎng)絡(luò)數(shù)據(jù)具有無(wú)標(biāo)準(zhǔn),無(wú)結(jié)構(gòu)的特性,這與傳統(tǒng)的實(shí)體解析問(wèn)題的應(yīng)用背景不同,是新的挑戰(zhàn)同時(shí)也是新的機(jī)遇,論文將對(duì)網(wǎng)絡(luò)產(chǎn)品的識(shí)別進(jìn)行重點(diǎn)研究--分析現(xiàn)有的幾種識(shí)別算法,包括WHIRL和TMWM算法,并進(jìn)行實(shí)驗(yàn)分析比較,同時(shí)進(jìn)行改進(jìn),加入更多的識(shí)別信息,如產(chǎn)品的屬性,然后提出了SSM算法,提高了產(chǎn)品識(shí)別的精度和準(zhǔn)度,并從字符串相似度緩存,約束知識(shí)庫(kù)和分塊策略三個(gè)方面對(duì)SSM算法進(jìn)行優(yōu)化,提高了算法的運(yùn)行速度。
【關(guān)鍵詞】:實(shí)體解析 記錄鏈接 集合數(shù)據(jù) 復(fù)雜數(shù)據(jù) 大數(shù)據(jù) 網(wǎng)絡(luò)產(chǎn)品解析
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13
【目錄】:
  • 摘要3-4
  • Abstract4-6
  • 第一章 緒論6-9
  • 1.1 引言6-7
  • 1.2 研究背景7-8
  • 1.3 論文的研究?jī)?nèi)容與章節(jié)安排8-9
  • 第二章 實(shí)體解析相關(guān)算法研究9-29
  • 2.1 引言9-10
  • 2.2 實(shí)體解析算法基礎(chǔ)10
  • 2.3 結(jié)構(gòu)化數(shù)據(jù)實(shí)體解析算法10-28
  • 2.4 本章小結(jié)28-29
  • 第三章 網(wǎng)絡(luò)產(chǎn)品解析29-48
  • 3.1 引言29-30
  • 3.2 WHIRL算法30-31
  • 3.3 TMWM算法31-36
  • 3.4 層次聚類算法36-43
  • 3.5 算法評(píng)估43-47
  • 3.6 本章小結(jié)47-48
  • 第四章 綜合相似度算法48-54
  • 4.1 引言48-49
  • 4.2 綜合相似度算法49-52
  • 4.3 算法評(píng)估52-53
  • 4.4 本章小結(jié)53-54
  • 第五章 算法的性能優(yōu)化54-64
  • 5.0 引言54
  • 5.1 字符串預(yù)處理54-55
  • 5.2 添加約束55-57
  • 5.3 針對(duì)大數(shù)據(jù)的分塊策略57-63
  • 5.4 本章小結(jié)63-64
  • 第六章 總結(jié)與展望64-65
  • 致謝65-66
  • 參考文獻(xiàn)66-69
  • 上海交通大學(xué)碩士學(xué)位論文答辯決議書69-71

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 劉駿豪;孫晶瑩;;2011年德國(guó)人口普查中的新技術(shù)——記錄鏈接[J];中國(guó)統(tǒng)計(jì);2011年11期

2 王穎穎;黃杜英;許多頂;;向量空間中基于隱私保護(hù)的記錄鏈接協(xié)議[J];現(xiàn)代電子技術(shù);2009年14期


  本文關(guān)鍵詞:實(shí)體解析技術(shù)研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。



本文編號(hào):351933

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/351933.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a92de***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com