基于詞頻統(tǒng)計(jì)的文本關(guān)鍵詞提取方法
發(fā)布時(shí)間:2017-12-13 22:21
本文關(guān)鍵詞:基于詞頻統(tǒng)計(jì)的文本關(guān)鍵詞提取方法
更多相關(guān)文章: 詞頻統(tǒng)計(jì) 齊普夫定律 同頻詞 關(guān)鍵詞提取 TF-IDF算法
【摘要】:針對(duì)傳統(tǒng)TF-IDF算法關(guān)鍵詞提取效率低下及準(zhǔn)確率欠佳的問(wèn)題,提出一種基于詞頻統(tǒng)計(jì)的文本關(guān)鍵詞提取方法。首先,通過(guò)齊普夫定律推導(dǎo)出文本中同頻詞數(shù)的計(jì)算公式;其次,根據(jù)同頻詞數(shù)計(jì)算公式確定文本中各頻次詞語(yǔ)所占比重,發(fā)現(xiàn)文本中絕大多數(shù)是低頻詞;最后,將詞頻統(tǒng)計(jì)規(guī)律應(yīng)用于關(guān)鍵詞提取,提出基于詞頻統(tǒng)計(jì)的TFIDF算法。采用中、英文文本實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn),其中推導(dǎo)出的同頻詞數(shù)計(jì)算公式平均相對(duì)誤差未超過(guò)0.05;確立的各頻次詞語(yǔ)所占比重的最大誤差絕對(duì)值為0.04;提出的基于詞頻統(tǒng)計(jì)的TF-IDF算法與傳統(tǒng)TF-IDF算法相比,平均查準(zhǔn)率、平均查全率和平均F1度量均有提高,而平均運(yùn)行時(shí)間則均有降低。實(shí)驗(yàn)結(jié)果表明,在文本關(guān)鍵詞提取中,基于詞頻統(tǒng)計(jì)的TF-IDF算法在查準(zhǔn)率、查全率及F1指標(biāo)上均優(yōu)于傳統(tǒng)TF-IDF算法,并能夠有效減少關(guān)鍵詞提取運(yùn)行時(shí)間。
【作者單位】: 河北師范大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院;河北師范大學(xué)河北省計(jì)算數(shù)學(xué)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室;河北師范大學(xué)移動(dòng)物聯(lián)網(wǎng)研究院;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(71271067) 國(guó)家社會(huì)科學(xué)基金資助項(xiàng)目(13BTY011);國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目(13&ZD091) 河北省高等學(xué)?茖W(xué)技術(shù)研究項(xiàng)目(QN2014196) 河北師范大學(xué)碩士基金資助項(xiàng)目(201402002)~~
【分類號(hào)】:TP391.1
【正文快照】: 0引言隨著互聯(lián)網(wǎng)的飛速發(fā)展,各種文本信息迅速擴(kuò)張,面對(duì)如此海量的信息,人們需要花費(fèi)大量時(shí)間和精力對(duì)其進(jìn)行挑選和甄別。關(guān)鍵詞是一篇文章核心內(nèi)容的體現(xiàn)和主題信息的濃縮,用戶可以通過(guò)閱讀關(guān)鍵詞快速明確文章主旨,從海量的文章中獲取有用信息。關(guān)鍵詞提取是信息處理領(lǐng)域的基,
本文編號(hào):1286809
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1286809.html
最近更新
教材專著