天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一個(gè)大規(guī)模數(shù)據(jù)下的語(yǔ)義實(shí)體挖掘與語(yǔ)義實(shí)體關(guān)系歸并的新框架

發(fā)布時(shí)間:2017-09-08 08:07

  本文關(guān)鍵詞:一個(gè)大規(guī)模數(shù)據(jù)下的語(yǔ)義實(shí)體挖掘與語(yǔ)義實(shí)體關(guān)系歸并的新框架


  更多相關(guān)文章: 語(yǔ)義實(shí)體識(shí)別 新詞識(shí)別 決策樹(shù) SVM 語(yǔ)義實(shí)體關(guān)系與聯(lián)系


【摘要】:眾所周知,大多數(shù)文本數(shù)據(jù)中的語(yǔ)義實(shí)體都包含著對(duì)于理解該文本的十分重要的語(yǔ)義信息。因此,語(yǔ)義實(shí)體的識(shí)別以及識(shí)別后語(yǔ)義實(shí)體之間關(guān)系的歸并就對(duì)于那些需要使用到文本數(shù)據(jù)的語(yǔ)義信息的多媒體應(yīng)用具有十分重要的意義。但是目前在各個(gè)領(lǐng)域針對(duì)語(yǔ)義實(shí)體的處理方法諸如語(yǔ)義實(shí)體識(shí)別,新詞識(shí)別以及語(yǔ)義實(shí)體之間關(guān)系歸并等仍然存在著如準(zhǔn)確率以及召回率不夠高等很多問(wèn)題。為了解決這些問(wèn)題,本文提出了一個(gè)兩階段的語(yǔ)義實(shí)體處理框架來(lái)同時(shí)解決大規(guī)模文本數(shù)據(jù)中的語(yǔ)義實(shí)體識(shí)別以及語(yǔ)義實(shí)體關(guān)系歸并。在第一階段的語(yǔ)義實(shí)體識(shí)別中,我們提出了一個(gè)新策略即通過(guò)集成統(tǒng)計(jì)特征,決策樹(shù)算法(DT),以及支持向量機(jī)算法(SVM)來(lái)實(shí)現(xiàn)從文本中抽取語(yǔ)義實(shí)體。與傳統(tǒng)的方法進(jìn)行比較后,我們發(fā)現(xiàn)本文所提出的新策略能夠更加有效地對(duì)語(yǔ)義實(shí)體進(jìn)行識(shí)別與檢測(cè),并且對(duì)新數(shù)據(jù)中出現(xiàn)的語(yǔ)義實(shí)體十分敏感,因此能較為準(zhǔn)確地對(duì)新詞進(jìn)行抽取。在第一階段高效的從文本數(shù)據(jù)中抽取出語(yǔ)義實(shí)體之后,本文提出的語(yǔ)義實(shí)體處理框架的第二階段即語(yǔ)義實(shí)體關(guān)系(SER)歸并算法將對(duì)第一階段中抽取出的語(yǔ)義實(shí)體進(jìn)行聚類(lèi)。在本文中,我們提出了一個(gè)新的分類(lèi)方法并結(jié)合使用諸如相似度特征和共現(xiàn)概率等特征來(lái)解決聚類(lèi)問(wèn)題并發(fā)現(xiàn)語(yǔ)義實(shí)體之間的關(guān)系。為了驗(yàn)證該框架的有效性,在本文中我們通過(guò)詳細(xì)及全面的實(shí)驗(yàn)證明了本文所提出的框架在語(yǔ)義實(shí)體的檢測(cè)上要優(yōu)于目前最好及最常用的方法,同時(shí)可以從大規(guī)模文本數(shù)據(jù)中提取出的語(yǔ)義實(shí)體中找出80%有關(guān)系的語(yǔ)義實(shí)體對(duì)。不僅如此,本文還將該框架應(yīng)用到了期貨價(jià)格走勢(shì)預(yù)測(cè)上,通過(guò)實(shí)例驗(yàn)證進(jìn)一步證明了該框架的有效性。
【關(guān)鍵詞】:語(yǔ)義實(shí)體識(shí)別 新詞識(shí)別 決策樹(shù) SVM 語(yǔ)義實(shí)體關(guān)系與聯(lián)系
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.1
【目錄】:
  • 論文摘要6-7
  • ABSTRACT7-11
  • 第一章 緒論11-17
  • 1.1 研究背景和意義11-12
  • 1.2 研究現(xiàn)狀12-15
  • 1.3 本文提出的新算法15
  • 1.4 本文的目標(biāo)和貢獻(xiàn)15
  • 1.5 本文結(jié)構(gòu)15
  • 1.6 本文小結(jié)15-17
  • 第二章 語(yǔ)義實(shí)體挖掘與關(guān)系歸并系統(tǒng)框架整體介紹17-21
  • 2.1 系統(tǒng)整體結(jié)構(gòu)與使用策略介紹17-20
  • 2.2 本章小結(jié)20-21
  • 第三章 語(yǔ)義實(shí)體挖掘算法部分介紹21-30
  • 3.1 語(yǔ)義實(shí)體識(shí)別算法中使用到的特征與抽取算法21-27
  • 3.1.1 內(nèi)部統(tǒng)計(jì)特征22-24
  • 3.1.2 外部統(tǒng)計(jì)特征24-26
  • 3.1.3 新穎性統(tǒng)計(jì)特征26-27
  • 3.2 DT-SVM分類(lèi)方法27-29
  • 3.3 本章小結(jié)29-30
  • 第四章 語(yǔ)義實(shí)體關(guān)系抽取算法部分介紹30-36
  • 4.1 語(yǔ)義實(shí)體關(guān)系抽取中使用到的特征30-34
  • 4.2 語(yǔ)義實(shí)體關(guān)系抽取算法34-35
  • 4.3 本章小結(jié)35-36
  • 第五章 期貨數(shù)據(jù)中語(yǔ)義實(shí)體挖掘與語(yǔ)義實(shí)體關(guān)系歸并框架的應(yīng)用36-45
  • 5.1 期貨數(shù)據(jù)價(jià)格的整體預(yù)測(cè)框架36-37
  • 5.2 期貨數(shù)據(jù)預(yù)測(cè)模型具體策略分析37-45
  • 5.2.1 原始數(shù)據(jù)處理與特征抽取38-43
  • 5.2.2 原始數(shù)據(jù)處理與特征抽取43-45
  • 第六章 實(shí)驗(yàn)以及案例分析45-57
  • 6.1 新聞數(shù)據(jù)實(shí)驗(yàn)設(shè)計(jì)與驗(yàn)證45-52
  • 6.2 期貨數(shù)據(jù)實(shí)驗(yàn)設(shè)計(jì)與驗(yàn)證52-55
  • 6.3 本章小結(jié)55-57
  • 第七章 總結(jié)與展望57-58
  • 附錄58-59
  • 參考文獻(xiàn)59-63
  • 致謝63

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 楊緒兵,韓自存;ε不敏感的核Adaline算法及其在圖像去噪中的應(yīng)用[J];安徽工程科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2003年04期

2 陶秀鳳,唐詩(shī)忠,周鳴爭(zhēng);基于支持向量機(jī)的軟測(cè)量模型及應(yīng)用[J];安徽工程科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2004年02期

3 許高程;張文君;王衛(wèi)紅;;支持向量機(jī)技術(shù)在遙感影像滑坡體提取中的應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2009年06期

4 郭立萍;唐家奎;米素娟;張成雯;趙理君;;基于支持向量機(jī)遙感圖像融合分類(lèi)方法研究進(jìn)展[J];安徽農(nóng)業(yè)科學(xué);2010年17期

5 馮學(xué)軍;;最小二乘支持向量機(jī)的研究與應(yīng)用[J];安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年01期

6 鄒心遙;姚若河;;基于LSSVM的威布爾分布形狀參數(shù)估計(jì)(英文)[J];半導(dǎo)體技術(shù);2008年06期

7 鄒心遙;姚若河;;基于LSSVM的小子樣元器件壽命預(yù)測(cè)[J];半導(dǎo)體技術(shù);2011年09期

8 李卓遠(yuǎn),吳為民,王e,

本文編號(hào):812854


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jingjilunwen/qihuoqq/812854.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)b898b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com