基于語義相似度的文本聚類研究

發(fā)布時間：2017-12-04 19:00

本文關(guān)鍵詞：基于語義相似度的文本聚類研究

【摘要】：【目的】為解決傳統(tǒng)的文本聚類無法充分挖掘文本資源語義信息以及相似度矩陣高維性、稀疏性等問題,并進(jìn)一步改善文本聚類質(zhì)量,提出基于語義相似度的文本聚類方法。【方法】通過《同義詞詞林?jǐn)U展版》計算詞語的語義相似度并得到文本語義相似度矩陣,根據(jù)文本語義相似度矩陣進(jìn)行譜聚類,將文本聚集為文本簇。【結(jié)果】利用復(fù)旦大學(xué)文本語料庫與搜狗文本語料庫中的文本資源作為數(shù)據(jù)來源分別對傳統(tǒng)聚類算法與本文提出的算法進(jìn)行實(shí)驗(yàn),結(jié)果表明,當(dāng)聚類個數(shù)為10時,本文算法的準(zhǔn)確率最高,并且Purity值高于傳統(tǒng)聚類算法的Purity值�！揪窒蕖俊锻x詞詞林?jǐn)U展版》中包含的領(lǐng)域術(shù)語不完整,部分相似度計算結(jié)果需要手工進(jìn)行調(diào)整�！窘Y(jié)論】該方法考慮了詞語間語義關(guān)系,充分挖掘文本主體潛在信息,并且改善了聚類質(zhì)量,為文本聚類和推薦提供了一條新途徑。
【作者單位】：吉林大學(xué)管理學(xué)院;內(nèi)蒙古大學(xué)圖書館;
【基金】：國家自然科學(xué)基金項(xiàng)目“語義網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館資源多維度聚合與可視化展示研究”(項(xiàng)目編號:71273111)的研究成果之一
【分類號】：TP391.1
【正文快照】： 1引言Web2.0時代,文本數(shù)據(jù)呈現(xiàn)爆炸式增長[1]。文本聚類作為一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,可以對文本信息進(jìn)行有效的組織、分類和導(dǎo)航[2],從而保證用戶對知識進(jìn)行有效、便捷的獲取。然而,文本聚類過程中,采用向量空間模型計算文本間相似度的方法受共現(xiàn)特征詞影響較大[3],易造成描

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 胡艷波;崔新春;路青;;2002～2011年國內(nèi)語義相似度研究計量分析[J];情報科學(xué);2013年07期

2 王家琴;李仁發(fā);李仲生;唐劍波;;一種基于本體的概念語義相似度方法的研究[J];計算機(jī)工程;2007年11期

3 劉俊;;基于語義相似度的關(guān)鍵詞生成在企業(yè)搜索引擎營銷中應(yīng)用[J];電腦知識與技術(shù);2008年14期

4 宗裕朋;吳剛;;一種基于上下文的語義相似度算法[J];微計算機(jī)信息;2008年30期

5 劉春辰;劉大有;王生生;趙靜濱;王兆丹;;改進(jìn)的語義相似度計算模型及應(yīng)用[J];吉林大學(xué)學(xué)報(工學(xué)版);2009年01期

6 徐猛;劉宗田;周文;;一種基于知網(wǎng)語義相似度計算的應(yīng)用研究[J];微計算機(jī)信息;2010年03期

7 孫海霞;錢慶;成穎;;基于本體的語義相似度計算方法研究綜述[J];現(xiàn)代圖書情報技術(shù);2010年01期

8 魏椺;向陽;陳千;;計算術(shù)語間語義相似度的混合方法[J];計算機(jī)應(yīng)用;2010年06期

9 馬續(xù)補(bǔ);郭菊娥;;基于《知網(wǎng)》語義相似度的企業(yè)事實(shí)主題診斷研究[J];情報雜志;2010年05期

10 魏凱斌;冉延平;余牛;;語義相似度的計算方法研究與分析[J];計算機(jī)技術(shù)與發(fā)展;2010年07期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 關(guān)毅;王曉龍;;基于統(tǒng)計的漢語詞匯間語義相似度計算[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

2 李月雷;師瑞峰;林麗冰;周一民;;漢語語句語義相似度的計算方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集（一）[C];2008年

3 馮新元;魏建國;路文煥;黨建武;;引入領(lǐng)域知識的基于《知網(wǎng)》詞語語義相似度計算[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議（NCMMSC'2013）論文集[C];2013年

4 章成志;;詞語的語義相似度計算及其應(yīng)用研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

5 劉寒磊;關(guān)毅;徐永東;;多文檔文摘中基于語義相似度的最大邊緣相關(guān)技術(shù)研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議（JSCL-2005）論文集[C];2005年

6 石靜;邱立坤;王菲;吳云芳;;相似詞獲取的集成方法[A];中國計算語言學(xué)研究前沿進(jìn)展（2009-2011）[C];2011年

7 陳明;鹿e，

本文編號：1251991

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1251991.html

上一篇：分類分級企業(yè)信息管理平臺的設(shè)計與實(shí)現(xiàn)
下一篇：3D打印和鑄造鈷鉻合金耐蝕性及力學(xué)穩(wěn)定性比較

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于語義相似度的文本聚類研究