天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文檔表示的文本分類算法研究

發(fā)布時間:2022-02-22 21:07
  隨著深度學習的興起,大量數(shù)據(jù)的產生,包括文本、語音、圖片等等,如何從大量數(shù)據(jù)中學習到有用的特征是當前最重要的組成部分。在自然語言處理領域,學習文檔表示對精確理解自然語言至關重要,同時可以把其運用到各種自然語言處理的任務中去,包括文本分類,文本相似度匹配,命名體識別等等。本文圍繞循環(huán)神經網絡與BERT模型開展研究,對這兩個網絡架構的輸入或者輸出進行優(yōu)化,提高模型的泛化性能,并在文本分類任務上進行研究,驗證分類算法的擴展性。本文的成果與主要工作如下:1.針對長短期記憶網絡訓練文本分類任務效果不佳,為更好地學習文檔表示訓練文本分類設計了帶池化與dropout的長短期記憶網絡來進行文檔的表示,其中池化操作可以保留主要的特征同時減少參數(shù)和計算量,同時獲得定長輸出;dropout也對有監(jiān)督的學習文檔表示起到防止過擬合,提高泛化性能的表現(xiàn)。對比詞袋模型、卷積神經網絡、長短期記憶網絡等模型,在四個數(shù)據(jù)集上優(yōu)化后的長短期記憶網絡比直接利用長短期記憶網絡在準確率上至少提升0.2%。2.針對目前在自然語言處理領域表現(xiàn)較好的BERT模型存在輸出層softmax產生類別的概率分布過于單一;同時受mixture ... 

【文章來源】:合肥工業(yè)大學安徽省211工程院校教育部直屬院校

【文章頁數(shù)】:61 頁

【學位級別】:碩士

【文章目錄】:
致謝
摘要
abstract
第一章 緒論
    1.1 課題研究背景與意義
    1.2 國內外研究現(xiàn)狀
    1.3 本文研究內容與難點
    1.4 本文的組織結構
第二章 文檔表示的相關算法介紹
    2.1 語言模型
    2.2 文本數(shù)據(jù)的特征提取器
        2.2.1 卷積神經網絡
        2.2.2 循環(huán)神經網絡
        2.2.3 Transformer模型
        2.2.4 分析三個模型的優(yōu)缺點
    2.3 本章小結
第三章 基于帶dropout與池化的LSTM文本表示
    3.1 模型的構建原理闡述
        3.1.1 詞向量層
        3.1.2 dropout
        3.1.3 雙向長短期記憶網絡
        3.1.4 池化
        3.1.5 模型的主要架構
    3.2 實驗數(shù)據(jù)準備與模型介紹
        3.2.1 實驗數(shù)據(jù)
        3.2.2 文本數(shù)據(jù)的預處理
        3.2.3 實驗模型及參數(shù)設置
    3.3 實驗結果分析
        3.3.1 模型之間的比較結果分析
        3.3.2 dropout對模型的影響
        3.3.3 池化操作對模型的影響
    3.4 本章小結
第四章 基于混合softmax的 BERT模型
    4.1 混合softmax的 BERT模型原理的闡述
        4.1.1 BERT模型的介紹
        4.1.2 混合softmax
        4.1.3 優(yōu)化函數(shù)
        4.1.4 模型架構說明
    4.2 實驗數(shù)據(jù)
        4.2.1 實驗數(shù)據(jù)說明
        4.2.2 文本預處理過程
    4.3 實驗結果分析
        4.3.1 預訓練模型與直接訓練模型的對比
        4.3.2 混合softmax的實驗分析
        4.3.3 隨機種子對模型的影響
    4.4 本章小結
第五章 總結與展望
    5.1 工作總結
    5.2 工作展望
參考文獻
攻讀碩士學位期間的學術活動及成果情況



本文編號:3640205

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3640205.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶e3727***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com