基于特征向量構建的文本分類方法研究

發(fā)布時間：2022-02-19 01:41

　　文本是多樣信息的來源,由于其非結構化特性,從中獲取見解耗時過多且相對困難。文本分類是自然語言處理領域中的經(jīng)典主題,是根據(jù)內(nèi)容分配預定義標簽或類別的過程。神經(jīng)網(wǎng)絡作為處理文本分類的主流技術,是一種自動化預測分析方法。基于神經(jīng)網(wǎng)絡模型來構建特征向量的文本表示方法能夠準確獲取詞義、語義信息,但易呈現(xiàn)高稀疏性,且文本分類模型中針對特定情況常會出現(xiàn)分類性能不佳的情況。面對上述問題,本文進行了如下研究:（1）文本表示方面。針對GloVe模型在詞向量表示訓練過程中存在大批量無關詞的問題,本文提出了一種基于WT-GloVe的詞向量加權模型。首先,借助基于詞間距和類間貢獻度的特征加權算法進行特征詞提取;其次,根據(jù)GloVe模型的自身缺點提出了一種過濾無關詞方法,以提高詞向量訓練質(zhì)量;最后,結合基于詞間距和類間分布的特征加權算法以及無關詞過濾后的GloVe共同生成了加權詞向量模型,有效獲取特征詞的重要程度及語義信息,構成新的詞向量加權模型。實驗結果表明,相同環(huán)境下與其它同類模型相比,基于WT-GloVe的詞向量加權模型能有效提高分類效果。（2）文本分類方面。針對fastText模型在中文文本分類時,子詞嵌...

【文章來源】：西安理工大學陜西省

【文章頁數(shù)】：70 頁

【學位級別】：碩士

【文章目錄】：
摘要
Abstract
1 緒論
    1.1 研究背景與意義
        1.1.1 研究背景
        1.1.2 研究意義
    1.2 國內(nèi)外研究現(xiàn)狀及存在問題
        1.2.1 國內(nèi)外研究現(xiàn)狀
        1.2.2 現(xiàn)存問題及難點
    1.3 研究框架及內(nèi)容
        1.3.1 研究框架
        1.3.2 研究內(nèi)容
    1.4 本文組織結構
2 相關理論概述
    2.1 傳統(tǒng)文本表示方法
        2.1.1 布爾模型
        2.1.2 空間向量模型
        2.1.3 主題模型
    2.2 TF-IDF算法
    2.3 Word embedding模型
        2.3.1 CBOW模型
        2.3.2 Skip-gram模型
        2.3.3 Glo Ve模型
    2.4 文本分類方法
        2.4.1 支持向量機模型
        2.4.2 fast Text模型
    2.5 評估指標
    2.6 本章小結
3 基于WT-Glo Ve的詞向量加權模型
    3.1 理論基礎
    3.2 基于WT-Glo Ve的詞向量加權模型
        3.2.1 基于WDID-TFIDF的特征加權算法
        3.2.2 基于WT-Glo Ve的詞向量加權模型
    3.3 實驗與結果分析
        3.3.1 實驗數(shù)據(jù)
        3.3.2 實驗設置
        3.3.3 實驗分析
    3.4 本章小結
4 基于STL-fast Text的文本分類模型
    4.1 理論基礎
    4.2 基于STL-fast Text的文本分類模型
        4.2.1 基于SLF-TFIDF的低頻詞加權算法
        4.2.2 基于STL-fast Text的文本分類模型
    4.3 實驗與結果分析
        4.3.1 實驗數(shù)據(jù)
        4.3.2 實驗設置
        4.3.3 實驗分析
    4.4 本章小結
5 總結與展望
    5.1 總結
    5.2 展望
致謝
參考文獻
攻讀碩士學位期間主要研究成果

【參考文獻】：
期刊論文
[1]基于LDA主題模型的文本相似度計算[J]. 王振振,何明,杜永萍.  計算機科學. 2013(12)
[2]一種基于Sigmoid函數(shù)的改進協(xié)同過濾推薦算法[J]. 方耀寧,郭云飛,扈紅超,蘭巨龍.  計算機應用研究. 2013(06)
[3]基于SVM算法的文本分類技術研究[J]. 崔建明,劉建明,廖周宇.  計算機仿真. 2013(02)
[4]基于信息熵的TFIDF文本分類特征選擇算法研究[J]. 陳國松,黃大榮.  湖北民族學院學報(自然科學版). 2008(04)
[5]基于PLSA模型的文本分割[J]. 石晶,戴國忠.  計算機研究與發(fā)展. 2007(02)
[6]文本分類綜述[J]. 靳小波.  自動化博覽. 2006(S1)
[7]支持向量機（SVM）的研究進展[J]. 李曉宇,張新峰,沈蘭蓀.  測控技術. 2006(05)

博士論文
[1]文本分類及其相關技術研究[D]. 李榮陸.復旦大學 2005

碩士論文
[1]基于布爾模型的網(wǎng)頁查重算法研究[D]. 連浩.中國科學院研究生院（計算技術研究所） 2006

本文編號：3631957

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3631957.html

上一篇：生物3D打印制備SA/Ge凝膠支架探究淫羊藿苷對軟骨細胞增殖、分泌的影響
下一篇：隱私保護強度量化度量技術研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于特征向量構建的文本分類方法研究