基于語義相似度的文本聚類研究
本文關(guān)鍵詞:基于語義相似度的文本聚類研究
更多相關(guān)文章: 同義詞詞林?jǐn)U展版 語義相似度 譜聚類 文本挖掘
【摘要】:【目的】為解決傳統(tǒng)的文本聚類無法充分挖掘文本資源語義信息以及相似度矩陣高維性、稀疏性等問題,并進(jìn)一步改善文本聚類質(zhì)量,提出基于語義相似度的文本聚類方法。【方法】通過《同義詞詞林?jǐn)U展版》計算詞語的語義相似度并得到文本語義相似度矩陣,根據(jù)文本語義相似度矩陣進(jìn)行譜聚類,將文本聚集為文本簇。【結(jié)果】利用復(fù)旦大學(xué)文本語料庫與搜狗文本語料庫中的文本資源作為數(shù)據(jù)來源分別對傳統(tǒng)聚類算法與本文提出的算法進(jìn)行實(shí)驗(yàn),結(jié)果表明,當(dāng)聚類個數(shù)為10時,本文算法的準(zhǔn)確率最高,并且Purity值高于傳統(tǒng)聚類算法的Purity值!揪窒蕖俊锻x詞詞林?jǐn)U展版》中包含的領(lǐng)域術(shù)語不完整,部分相似度計算結(jié)果需要手工進(jìn)行調(diào)整!窘Y(jié)論】該方法考慮了詞語間語義關(guān)系,充分挖掘文本主體潛在信息,并且改善了聚類質(zhì)量,為文本聚類和推薦提供了一條新途徑。
【作者單位】: 吉林大學(xué)管理學(xué)院;內(nèi)蒙古大學(xué)圖書館;
【基金】:國家自然科學(xué)基金項(xiàng)目“語義網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館資源多維度聚合與可視化展示研究”(項(xiàng)目編號:71273111)的研究成果之一
【分類號】:TP391.1
【正文快照】: 1引言Web2.0時代,文本數(shù)據(jù)呈現(xiàn)爆炸式增長[1]。文本聚類作為一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,可以對文本信息進(jìn)行有效的組織、分類和導(dǎo)航[2],從而保證用戶對知識進(jìn)行有效、便捷的獲取。然而,文本聚類過程中,采用向量空間模型計算文本間相似度的方法受共現(xiàn)特征詞影響較大[3],易造成描
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 胡艷波;崔新春;路青;;2002~2011年國內(nèi)語義相似度研究計量分析[J];情報科學(xué);2013年07期
2 王家琴;李仁發(fā);李仲生;唐劍波;;一種基于本體的概念語義相似度方法的研究[J];計算機(jī)工程;2007年11期
3 劉俊;;基于語義相似度的關(guān)鍵詞生成在企業(yè)搜索引擎營銷中應(yīng)用[J];電腦知識與技術(shù);2008年14期
4 宗裕朋;吳剛;;一種基于上下文的語義相似度算法[J];微計算機(jī)信息;2008年30期
5 劉春辰;劉大有;王生生;趙靜濱;王兆丹;;改進(jìn)的語義相似度計算模型及應(yīng)用[J];吉林大學(xué)學(xué)報(工學(xué)版);2009年01期
6 徐猛;劉宗田;周文;;一種基于知網(wǎng)語義相似度計算的應(yīng)用研究[J];微計算機(jī)信息;2010年03期
7 孫海霞;錢慶;成穎;;基于本體的語義相似度計算方法研究綜述[J];現(xiàn)代圖書情報技術(shù);2010年01期
8 魏椺;向陽;陳千;;計算術(shù)語間語義相似度的混合方法[J];計算機(jī)應(yīng)用;2010年06期
9 馬續(xù)補(bǔ);郭菊娥;;基于《知網(wǎng)》語義相似度的企業(yè)事實(shí)主題診斷研究[J];情報雜志;2010年05期
10 魏凱斌;冉延平;余牛;;語義相似度的計算方法研究與分析[J];計算機(jī)技術(shù)與發(fā)展;2010年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 關(guān)毅;王曉龍;;基于統(tǒng)計的漢語詞匯間語義相似度計算[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
2 李月雷;師瑞峰;林麗冰;周一民;;漢語語句語義相似度的計算方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
3 馮新元;魏建國;路文煥;黨建武;;引入領(lǐng)域知識的基于《知網(wǎng)》詞語語義相似度計算[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年
4 章成志;;詞語的語義相似度計算及其應(yīng)用研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
5 劉寒磊;關(guān)毅;徐永東;;多文檔文摘中基于語義相似度的最大邊緣相關(guān)技術(shù)研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
6 石靜;邱立坤;王菲;吳云芳;;相似詞獲取的集成方法[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
7 陳明;鹿e,
本文編號:1251991
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1251991.html