基于統(tǒng)計(jì)特征的Quality Phrase挖掘方法
發(fā)布時(shí)間:2024-11-07 20:39
Quality Phrase挖掘是從文本語(yǔ)料庫(kù)中提取有意義短語(yǔ)的過(guò)程,是文檔摘要、信息檢索等任務(wù)的基礎(chǔ)。然而現(xiàn)有的無(wú)監(jiān)督短語(yǔ)挖掘方法存在候選短語(yǔ)質(zhì)量不高、Quality Phrase的特征權(quán)重平均分配的問(wèn)題。本文提出基于統(tǒng)計(jì)特征的Quality Phrase挖掘方法,將頻繁N-Gram挖掘、多詞短語(yǔ)組合性約束及單詞短語(yǔ)拼寫檢查相結(jié)合,保證了候選短語(yǔ)的質(zhì)量;引入公共知識(shí)庫(kù)對(duì)候選短語(yǔ)添加類別標(biāo)簽,實(shí)現(xiàn)了Quality Phrase特征權(quán)重的分配,并考慮特征之間相互影響設(shè)置懲罰因子調(diào)整權(quán)重比例;按照候選短語(yǔ)的特征加權(quán)函數(shù)得分排序,提取Quality Phrase。實(shí)驗(yàn)結(jié)果表明,基于統(tǒng)計(jì)特征的Quality Phrase挖掘方法明顯提高了短語(yǔ)挖掘的精度,與最優(yōu)的無(wú)監(jiān)督短語(yǔ)挖掘方法相比,精確率、召回率及F1-Score分別提升了5.97%,1.77%和4.02%。
【文章頁(yè)數(shù)】:16 頁(yè)
【文章目錄】:
引言
1相關(guān)定義
2 Quality Phrase評(píng)價(jià)準(zhǔn)則
3基于統(tǒng)計(jì)特征的候選短語(yǔ)挖掘方法
3.1頻繁N?Gram短語(yǔ)挖掘
3.2多詞短語(yǔ)組合性約束
3.3單詞短語(yǔ)拼寫檢查
4基于統(tǒng)計(jì)特征的Quality Phrase選擇方法
4.1特征對(duì)Quality Phrase的貢獻(xiàn)程度
4.2特征之間相互影響
5實(shí)驗(yàn)驗(yàn)證
5.1數(shù)據(jù)集
5.2對(duì)比算法
5.3評(píng)價(jià)指標(biāo)
5.4實(shí)驗(yàn)結(jié)果
5.4.1組合性統(tǒng)計(jì)意義度量選擇
5.4.2候選短語(yǔ)挖掘階段實(shí)驗(yàn)結(jié)果對(duì)比
5.4.3本文算法與其他算法的對(duì)比
6結(jié)束語(yǔ)
本文編號(hào):4011740
【文章頁(yè)數(shù)】:16 頁(yè)
【文章目錄】:
引言
1相關(guān)定義
2 Quality Phrase評(píng)價(jià)準(zhǔn)則
3基于統(tǒng)計(jì)特征的候選短語(yǔ)挖掘方法
3.1頻繁N?Gram短語(yǔ)挖掘
3.2多詞短語(yǔ)組合性約束
3.3單詞短語(yǔ)拼寫檢查
4基于統(tǒng)計(jì)特征的Quality Phrase選擇方法
4.1特征對(duì)Quality Phrase的貢獻(xiàn)程度
4.2特征之間相互影響
5實(shí)驗(yàn)驗(yàn)證
5.1數(shù)據(jù)集
5.2對(duì)比算法
5.3評(píng)價(jià)指標(biāo)
5.4實(shí)驗(yàn)結(jié)果
5.4.1組合性統(tǒng)計(jì)意義度量選擇
5.4.2候選短語(yǔ)挖掘階段實(shí)驗(yàn)結(jié)果對(duì)比
5.4.3本文算法與其他算法的對(duì)比
6結(jié)束語(yǔ)
本文編號(hào):4011740
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/4011740.html
上一篇:基于機(jī)器學(xué)習(xí)的多源數(shù)據(jù)態(tài)勢(shì)評(píng)估技術(shù)研究
下一篇:沒(méi)有了
下一篇:沒(méi)有了
最近更新
教材專著