實(shí)體解析技術(shù)研究與應(yīng)用
發(fā)布時(shí)間:2017-05-09 06:04
本文關(guān)鍵詞:實(shí)體解析技術(shù)研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:傳統(tǒng)的實(shí)體解析是指,給定一個(gè)或多個(gè)描述現(xiàn)實(shí)世界的引用集合,識(shí)別其中對(duì)應(yīng)于現(xiàn)實(shí)世界中同一實(shí)體的所有引用的過(guò)程。實(shí)體解析是數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)挖掘等技術(shù)中關(guān)鍵的一步,是數(shù)據(jù)質(zhì)量的保障。對(duì)于實(shí)體解析相關(guān)課題的研究其實(shí)早已起步,而由于近幾年網(wǎng)絡(luò)的迅速普及和數(shù)據(jù)規(guī)模的爆炸性增長(zhǎng),如何在海量數(shù)據(jù)中準(zhǔn)確獲取所需的信息,如何消除相似數(shù)據(jù)的歧義,如何檢測(cè)出數(shù)據(jù)中的錯(cuò)誤信息等已成為在生活生產(chǎn)中亟待解決的關(guān)鍵問(wèn)題,實(shí)體解析也因此成為近幾年熱門的研究課題。隨著研究的深入,已經(jīng)有不少的研究成果被應(yīng)用于各個(gè)領(lǐng)域,包括保險(xiǎn)、銀行、醫(yī)療等。論文中介紹了實(shí)體解析含義,背景起源,以及算法基礎(chǔ)。列舉并解釋了實(shí)體解析發(fā)展過(guò)程中的經(jīng)典算法包括成對(duì)實(shí)體解析,集合實(shí)體解析,大數(shù)據(jù)的實(shí)體解析等,以及它們的特點(diǎn)和局限性,分享了在新的應(yīng)用環(huán)境下衍生出來(lái)的針對(duì)不同需求的新的實(shí)體解析算法。由于電子商務(wù)的興起,對(duì)網(wǎng)絡(luò)產(chǎn)品的精確識(shí)別成了亟待解決的具有極高應(yīng)用價(jià)值的課題。網(wǎng)絡(luò)數(shù)據(jù)具有無(wú)標(biāo)準(zhǔn),無(wú)結(jié)構(gòu)的特性,這與傳統(tǒng)的實(shí)體解析問(wèn)題的應(yīng)用背景不同,是新的挑戰(zhàn)同時(shí)也是新的機(jī)遇,論文將對(duì)網(wǎng)絡(luò)產(chǎn)品的識(shí)別進(jìn)行重點(diǎn)研究--分析現(xiàn)有的幾種識(shí)別算法,包括WHIRL和TMWM算法,并進(jìn)行實(shí)驗(yàn)分析比較,同時(shí)進(jìn)行改進(jìn),加入更多的識(shí)別信息,如產(chǎn)品的屬性,然后提出了SSM算法,提高了產(chǎn)品識(shí)別的精度和準(zhǔn)度,并從字符串相似度緩存,約束知識(shí)庫(kù)和分塊策略三個(gè)方面對(duì)SSM算法進(jìn)行優(yōu)化,提高了算法的運(yùn)行速度。
【關(guān)鍵詞】:實(shí)體解析 記錄鏈接 集合數(shù)據(jù) 復(fù)雜數(shù)據(jù) 大數(shù)據(jù) 網(wǎng)絡(luò)產(chǎn)品解析
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13
【目錄】:
- 摘要3-4
- Abstract4-6
- 第一章 緒論6-9
- 1.1 引言6-7
- 1.2 研究背景7-8
- 1.3 論文的研究?jī)?nèi)容與章節(jié)安排8-9
- 第二章 實(shí)體解析相關(guān)算法研究9-29
- 2.1 引言9-10
- 2.2 實(shí)體解析算法基礎(chǔ)10
- 2.3 結(jié)構(gòu)化數(shù)據(jù)實(shí)體解析算法10-28
- 2.4 本章小結(jié)28-29
- 第三章 網(wǎng)絡(luò)產(chǎn)品解析29-48
- 3.1 引言29-30
- 3.2 WHIRL算法30-31
- 3.3 TMWM算法31-36
- 3.4 層次聚類算法36-43
- 3.5 算法評(píng)估43-47
- 3.6 本章小結(jié)47-48
- 第四章 綜合相似度算法48-54
- 4.1 引言48-49
- 4.2 綜合相似度算法49-52
- 4.3 算法評(píng)估52-53
- 4.4 本章小結(jié)53-54
- 第五章 算法的性能優(yōu)化54-64
- 5.0 引言54
- 5.1 字符串預(yù)處理54-55
- 5.2 添加約束55-57
- 5.3 針對(duì)大數(shù)據(jù)的分塊策略57-63
- 5.4 本章小結(jié)63-64
- 第六章 總結(jié)與展望64-65
- 致謝65-66
- 參考文獻(xiàn)66-69
- 上海交通大學(xué)碩士學(xué)位論文答辯決議書69-71
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 劉駿豪;孫晶瑩;;2011年德國(guó)人口普查中的新技術(shù)——記錄鏈接[J];中國(guó)統(tǒng)計(jì);2011年11期
2 王穎穎;黃杜英;許多頂;;向量空間中基于隱私保護(hù)的記錄鏈接協(xié)議[J];現(xiàn)代電子技術(shù);2009年14期
本文關(guān)鍵詞:實(shí)體解析技術(shù)研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):351933
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/351933.html
最近更新
教材專著