基于特征向量構建的文本分類方法研究
發(fā)布時間:2022-02-19 01:41
文本是多樣信息的來源,由于其非結構化特性,從中獲取見解耗時過多且相對困難。文本分類是自然語言處理領域中的經(jīng)典主題,是根據(jù)內(nèi)容分配預定義標簽或類別的過程。神經(jīng)網(wǎng)絡作為處理文本分類的主流技術,是一種自動化預測分析方法。基于神經(jīng)網(wǎng)絡模型來構建特征向量的文本表示方法能夠準確獲取詞義、語義信息,但易呈現(xiàn)高稀疏性,且文本分類模型中針對特定情況常會出現(xiàn)分類性能不佳的情況。面對上述問題,本文進行了如下研究:(1)文本表示方面。針對GloVe模型在詞向量表示訓練過程中存在大批量無關詞的問題,本文提出了一種基于WT-GloVe的詞向量加權模型。首先,借助基于詞間距和類間貢獻度的特征加權算法進行特征詞提取;其次,根據(jù)GloVe模型的自身缺點提出了一種過濾無關詞方法,以提高詞向量訓練質(zhì)量;最后,結合基于詞間距和類間分布的特征加權算法以及無關詞過濾后的GloVe共同生成了加權詞向量模型,有效獲取特征詞的重要程度及語義信息,構成新的詞向量加權模型。實驗結果表明,相同環(huán)境下與其它同類模型相比,基于WT-GloVe的詞向量加權模型能有效提高分類效果。(2)文本分類方面。針對fastText模型在中文文本分類時,子詞嵌...
【文章來源】:西安理工大學陜西省
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀及存在問題
1.2.1 國內(nèi)外研究現(xiàn)狀
1.2.2 現(xiàn)存問題及難點
1.3 研究框架及內(nèi)容
1.3.1 研究框架
1.3.2 研究內(nèi)容
1.4 本文組織結構
2 相關理論概述
2.1 傳統(tǒng)文本表示方法
2.1.1 布爾模型
2.1.2 空間向量模型
2.1.3 主題模型
2.2 TF-IDF算法
2.3 Word embedding模型
2.3.1 CBOW模型
2.3.2 Skip-gram模型
2.3.3 Glo Ve模型
2.4 文本分類方法
2.4.1 支持向量機模型
2.4.2 fast Text模型
2.5 評估指標
2.6 本章小結
3 基于WT-Glo Ve的詞向量加權模型
3.1 理論基礎
3.2 基于WT-Glo Ve的詞向量加權模型
3.2.1 基于WDID-TFIDF的特征加權算法
3.2.2 基于WT-Glo Ve的詞向量加權模型
3.3 實驗與結果分析
3.3.1 實驗數(shù)據(jù)
3.3.2 實驗設置
3.3.3 實驗分析
3.4 本章小結
4 基于STL-fast Text的文本分類模型
4.1 理論基礎
4.2 基于STL-fast Text的文本分類模型
4.2.1 基于SLF-TFIDF的低頻詞加權算法
4.2.2 基于STL-fast Text的文本分類模型
4.3 實驗與結果分析
4.3.1 實驗數(shù)據(jù)
4.3.2 實驗設置
4.3.3 實驗分析
4.4 本章小結
5 總結與展望
5.1 總結
5.2 展望
致謝
參考文獻
攻讀碩士學位期間主要研究成果
【參考文獻】:
期刊論文
[1]基于LDA主題模型的文本相似度計算[J]. 王振振,何明,杜永萍. 計算機科學. 2013(12)
[2]一種基于Sigmoid函數(shù)的改進協(xié)同過濾推薦算法[J]. 方耀寧,郭云飛,扈紅超,蘭巨龍. 計算機應用研究. 2013(06)
[3]基于SVM算法的文本分類技術研究[J]. 崔建明,劉建明,廖周宇. 計算機仿真. 2013(02)
[4]基于信息熵的TFIDF文本分類特征選擇算法研究[J]. 陳國松,黃大榮. 湖北民族學院學報(自然科學版). 2008(04)
[5]基于PLSA模型的文本分割[J]. 石晶,戴國忠. 計算機研究與發(fā)展. 2007(02)
[6]文本分類綜述[J]. 靳小波. 自動化博覽. 2006(S1)
[7]支持向量機(SVM)的研究進展[J]. 李曉宇,張新峰,沈蘭蓀. 測控技術. 2006(05)
博士論文
[1]文本分類及其相關技術研究[D]. 李榮陸.復旦大學 2005
碩士論文
[1]基于布爾模型的網(wǎng)頁查重算法研究[D]. 連浩.中國科學院研究生院(計算技術研究所) 2006
本文編號:3631957
【文章來源】:西安理工大學陜西省
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀及存在問題
1.2.1 國內(nèi)外研究現(xiàn)狀
1.2.2 現(xiàn)存問題及難點
1.3 研究框架及內(nèi)容
1.3.1 研究框架
1.3.2 研究內(nèi)容
1.4 本文組織結構
2 相關理論概述
2.1 傳統(tǒng)文本表示方法
2.1.1 布爾模型
2.1.2 空間向量模型
2.1.3 主題模型
2.2 TF-IDF算法
2.3 Word embedding模型
2.3.1 CBOW模型
2.3.2 Skip-gram模型
2.3.3 Glo Ve模型
2.4 文本分類方法
2.4.1 支持向量機模型
2.4.2 fast Text模型
2.5 評估指標
2.6 本章小結
3 基于WT-Glo Ve的詞向量加權模型
3.1 理論基礎
3.2 基于WT-Glo Ve的詞向量加權模型
3.2.1 基于WDID-TFIDF的特征加權算法
3.2.2 基于WT-Glo Ve的詞向量加權模型
3.3 實驗與結果分析
3.3.1 實驗數(shù)據(jù)
3.3.2 實驗設置
3.3.3 實驗分析
3.4 本章小結
4 基于STL-fast Text的文本分類模型
4.1 理論基礎
4.2 基于STL-fast Text的文本分類模型
4.2.1 基于SLF-TFIDF的低頻詞加權算法
4.2.2 基于STL-fast Text的文本分類模型
4.3 實驗與結果分析
4.3.1 實驗數(shù)據(jù)
4.3.2 實驗設置
4.3.3 實驗分析
4.4 本章小結
5 總結與展望
5.1 總結
5.2 展望
致謝
參考文獻
攻讀碩士學位期間主要研究成果
【參考文獻】:
期刊論文
[1]基于LDA主題模型的文本相似度計算[J]. 王振振,何明,杜永萍. 計算機科學. 2013(12)
[2]一種基于Sigmoid函數(shù)的改進協(xié)同過濾推薦算法[J]. 方耀寧,郭云飛,扈紅超,蘭巨龍. 計算機應用研究. 2013(06)
[3]基于SVM算法的文本分類技術研究[J]. 崔建明,劉建明,廖周宇. 計算機仿真. 2013(02)
[4]基于信息熵的TFIDF文本分類特征選擇算法研究[J]. 陳國松,黃大榮. 湖北民族學院學報(自然科學版). 2008(04)
[5]基于PLSA模型的文本分割[J]. 石晶,戴國忠. 計算機研究與發(fā)展. 2007(02)
[6]文本分類綜述[J]. 靳小波. 自動化博覽. 2006(S1)
[7]支持向量機(SVM)的研究進展[J]. 李曉宇,張新峰,沈蘭蓀. 測控技術. 2006(05)
博士論文
[1]文本分類及其相關技術研究[D]. 李榮陸.復旦大學 2005
碩士論文
[1]基于布爾模型的網(wǎng)頁查重算法研究[D]. 連浩.中國科學院研究生院(計算技術研究所) 2006
本文編號:3631957
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3631957.html
最近更新
教材專著