天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于word2vec和自注意力機制的文本分類研究

發(fā)布時間:2021-05-17 06:08
  深度學習技術在自然語言處理方向的研究越來越深入,文本分類作為自然語言處理的基礎任務之一,已廣泛地應用于情感分析、新聞分類等領域。文本表示和特征提取是影響文本分類性能的兩個重要因素,決定著文本分類效果的上限。現(xiàn)在的文本表示一般是基于外部大型語料庫訓練獲得的,難以解決未登錄詞(Out of Vocabulary,OOV)問題,并且特征提取部分一般選擇基于卷積神經(jīng)網(wǎng)絡(CNN)或循環(huán)神經(jīng)網(wǎng)絡(RNN)的模型,進行文本特征的自動提取,其模型結構在訓練過程中可能會損失部分文本信息。因此,得到包含更多語義信息的文本表示,構造能充分提取文本特征的模型成為了目前了文本分類研究的難點和熱點。本文針對上述兩個問題,進行的研究工作如下:首先,針對word2vec模型,提出了一種改進的詞向量初始化方法CPword2vec,該方法可以有效地解決訓練集中未登錄詞的問題。防止因隨機初始化向量過多而導致詞向量空間被破壞,弱化了因分詞錯誤、拼寫錯誤等外部干擾等問題對詞向量質量的影響,為后續(xù)特征提取階段提供更豐富的語義信息。其次,本文基于Transformer模型結構提出一種層次化的神經(jīng)網(wǎng)絡模型HT... 

【文章來源】:廣東工業(yè)大學廣東省

【文章頁數(shù)】:74 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
第一章 緒論
    1.1 研究意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 國外發(fā)展現(xiàn)狀
        1.2.2 國內(nèi)發(fā)展現(xiàn)狀
    1.3 本文的研究內(nèi)容
    1.4 本文組織結構
第二章 相關技術介紹
    2.1 文本分類概述
    2.2 文本預處理
        2.2.1 文本數(shù)據(jù)清洗
        2.2.2 中文分詞
        2.2.3 去停用詞
    2.3 文本表示
        2.3.1 詞袋模型
        2.3.2 向量空間模型
        2.3.3 神經(jīng)網(wǎng)絡語言模型
    2.4 傳統(tǒng)文本分類算法
    2.5 評估函數(shù)
    2.6 本章小結
第三章 文本分類領域的深度學習模型
    3.1 卷積神經(jīng)網(wǎng)絡
    3.2 循環(huán)神經(jīng)網(wǎng)絡
    3.3 注意力模型
    3.4 本章小結
第四章 基于word2vec的文本表示方法
    4.1 問題描述
    4.2 word2vec文本表示
    4.3 改進的word2vec文本表示方法(CP_word2vec)
    4.4 實驗及其結果分析
        4.4.1 數(shù)據(jù)集介紹
        4.4.2 word2vec參數(shù)設置
        4.4.3 min_count對分類效果的影響
        4.4.4 不同模型對比試驗設計
    4.5 本章小結
第五章 基于CP_word2vec和自注意力神經(jīng)網(wǎng)絡文本分類模型設計
    5.1 問題描述
    5.2 Transformer概述
        5.2.1 Self-Attention結構
        5.2.2 其它層
        5.2.3 Position Embedding
    5.3 層次Transformer網(wǎng)絡模型(HTN)
    5.4 基于CP_word2vec和 HTN的模型介紹(CPW_HTN)
    5.5 對比實驗與結果分析
        5.5.1 數(shù)據(jù)集介紹
        5.5.2 超參數(shù)對Transformer模型的影響
        5.5.3 模型及其參數(shù)設計
        5.5.4 對比實驗結果分析
    5.6 本章小結
第六章 總結與展望
    6.1 總結
    6.2 展望
參考文獻
攻讀學位期間科研成果
致謝


【參考文獻】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡的中文財經(jīng)新聞分類方法[J]. 謝志峰,吳佳萍,馬利莊.  山東大學學報(工學版). 2018(03)
[2]基于TF-IDF和余弦相似度的文本分類方法[J]. 武永亮,趙書良,李長鏡,魏娜娣,王子晏.  中文信息學報. 2017(05)
[3]空間信息的自然語言表達模型[J]. 杜清運,任福.  武漢大學學報(信息科學版). 2014(06)
[4]文本情感分析[J]. 趙妍妍,秦兵,劉挺.  軟件學報. 2010(08)
[5]基于TF*IDF的垃圾郵件過濾特征選擇改進算法[J]. 陳琦,伍朝輝,姚芳,宋秀榮,張付志.  計算機應用研究. 2009(06)
[6]文本分類的性能評估指標[J]. 張啟蕊,董守斌,張凌.  廣西師范大學學報(自然科學版). 2007(02)
[7]使用增量SVM進行文本分類[J]. 張永,周振龍,侯莉莉,張世宏.  蘭州理工大學學報. 2007(01)
[8]文本分類綜述[J]. 靳小波.  自動化博覽. 2006(S1)
[9]基于模式聚合和決策樹的文本分類規(guī)則抽取[J]. 王煜,王正歐.  情報科學. 2006(01)
[10]使用最大熵模型進行中文文本分類[J]. 李榮陸,王建會,陳曉云,陶曉鵬,胡運發(fā).  計算機研究與發(fā)展. 2005(01)

博士論文
[1]面向小樣本的文本分類模型及算法研究[D]. 劉川.電子科技大學 2017

碩士論文
[1]基于特征學習的分布式文本挖掘算法研究與應用[D]. 尹航.北京郵電大學 2015
[2]基于條件隨機場的自動分詞技術的研究[D]. 陳晴.東北大學 2005



本文編號:3191236

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3191236.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶48e73***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com