基于Word2Vec的一種文檔向量表示
本文選題:TF-IDF + wordvec。 參考:《計算機科學(xué)》2016年06期
【摘要】:在文本分類中,如何運用word2vec詞向量高效地表達一篇文檔一直是一個難點。目前,將word2vec模型與聚類算法結(jié)合形成的doc2vec模型能有效地表達文檔信息。但是,這種方法很少考慮單個詞對整篇文檔的影響力。為了解決這個問題,利用TF-IDF算法計算每篇文檔中詞的權(quán)重,并結(jié)合word2vec詞向量生成文檔向量,最后將其應(yīng)用于中文文檔分類。在搜狗中文語料庫上的實驗驗證了新方法的有效性。
[Abstract]:In text classification, how to express a document efficiently using the word2vec word vector is always a difficult point. At present, the doc2vec model which combines the word2vec model and the clustering algorithm can effectively express the document information. However, this method seldom considers the influence of the single word to the whole document. In order to solve this problem, the use of TF-ID The F algorithm calculates the weight of the word in each document and generates the document vector with the word2vec word vector, and finally applies it to the Chinese document classification. The experiment on the Chinese corpus of Sogou Chinese verifies the effectiveness of the new method.
【作者單位】: 西南大學(xué)計算機與信息科學(xué)學(xué)院;
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 盧紅;;對檔案管理中的文檔分類技術(shù)應(yīng)用的分析[J];科技與企業(yè);2013年18期
2 周水庚,俞紅奇,胡江滔,付辛,胡運發(fā);基于相鄰字對信息的中文文檔分類研究[J];小型微型計算機系統(tǒng);2001年04期
3 方加沛;黃戰(zhàn);;基于單類別文檔分類的主題爬蟲[J];計算機工程與應(yīng)用;2010年16期
4 孟海東;劉小榮;;基于聚類分析的圖模型文檔分類[J];計算機應(yīng)用與軟件;2012年01期
5 姜鵬;許峰;戚榮志;;一種基于云平臺的防汛文檔智能生成模型構(gòu)建[J];水利信息化;2013年03期
6 周水庚,關(guān)佶紅,胡運發(fā),周傲英;一個無需詞典支持和切詞處理的中文文檔分類系統(tǒng)[J];計算機研究與發(fā)展;2001年07期
7 王蘭富;;不同時間文檔分類有妙招[J];電腦迷;2005年13期
8 陳頻,王周敬;基于語義分析和外延匹配的文檔分類方法[J];福建電腦;2005年10期
9 周水庚,關(guān)佶紅,胡運發(fā);無需詞典支持和切詞處理的中文文檔分類[J];高技術(shù)通訊;2001年03期
10 覃剛力;黃科;楊家本;;基于主動學(xué)習(xí)的文檔分類[J];計算機科學(xué);2003年10期
相關(guān)會議論文 前4條
1 雷景生;康耀紅;;基于模糊相關(guān)的Web文檔分類方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
2 胡江滔;周水庚;周傲英;;基于遺傳算法的中文WEB文檔分類研究[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2001年
3 王自強;孫霞;錢旭;;基于信息瓶頸和拉普拉斯SVM的Web文檔分類算法[A];2011年中國智能自動化學(xué)術(shù)會議論文集(第一分冊)[C];2011年
4 陳峰;張欣;樂嘉錦;;EKS:XML文檔上的關(guān)鍵字查詢[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
相關(guān)重要報紙文章 前2條
1 ;管理您的信息[N];網(wǎng)絡(luò)世界;2001年
2 曉蕙;合肥協(xié)力儀表:CAXA提升設(shè)計開發(fā)管理水平[N];科技日報;2008年
相關(guān)博士學(xué)位論文 前3條
1 古平;基于貝葉斯模型的文檔分類及相關(guān)技術(shù)研究[D];重慶大學(xué);2006年
2 譚琦;面向跨領(lǐng)域文檔分類的異構(gòu)遷移學(xué)習(xí)算法研究[D];華南理工大學(xué);2013年
3 蔡鵬;排序?qū)W習(xí)中的領(lǐng)域自適應(yīng)研究[D];華東師范大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 鄒亞R,
本文編號:1858832
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1858832.html