面向可解釋性雙向編碼語言模型的文本分類研究
發(fā)布時間:2021-03-25 04:50
深度學(xué)習作為大數(shù)據(jù)時代數(shù)據(jù)分析的重要手段,近些年來得到了國內(nèi)外科研界的廣泛關(guān)注。文本分類任務(wù)是在給定的分類體系中,按照一定的規(guī)則,將文本分到某個或幾個類別中。文本分類應(yīng)用場景一般包括新聞分類、情感分類、社交網(wǎng)站評論分類等,因此,為了實現(xiàn)對互聯(lián)網(wǎng)中海量文本數(shù)據(jù)的計算,人工智能領(lǐng)域研究者提出具有深層網(wǎng)絡(luò)的深度學(xué)習算法來解決文本分類問題,對于當今社會各界的科技進步具有重要意義。信息時代的迅猛發(fā)展,面對海量非結(jié)構(gòu)化的文本數(shù)據(jù),研究者和科技人員們所面臨的問題不再是如何獲得所需要的文本數(shù)據(jù),而是如何在大數(shù)據(jù)背景下從海量文本數(shù)據(jù)中準確高效地獲取滿足需求的信息。本文梳理機器學(xué)習和深度學(xué)習在文本分類任務(wù)上的發(fā)展歷史,進而引出近年來預(yù)訓(xùn)練微調(diào)體系結(jié)構(gòu)中的BERT模型,詳細介紹了BERT模型的內(nèi)部機制和訓(xùn)練方法,進一步了解了語言模型在預(yù)訓(xùn)練和微調(diào)方面的多種技術(shù)方法,經(jīng)過深入的研究,本文提出在BERT模型的基礎(chǔ)上做出幾點創(chuàng)新和改進,使得本文模型能夠有效的解決BERT模型預(yù)訓(xùn)練方法的不足,通過一些技巧增加模型的可解釋性,在下游任務(wù)針對文本分類做微調(diào),得到面向可解釋性雙向編碼語言模型,本文工作歸納如下:(1)因式...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
xh)(與ostyxhC)),((的關(guān)系圖
第2章相關(guān)技術(shù)概述14加快學(xué)習算法的一個辦法是隨時間慢慢減少學(xué)習率,稱為學(xué)習率衰減,在學(xué)習初期,學(xué)習率a較大,學(xué)習相對較快,當開始收斂的時候,學(xué)習率a變小,學(xué)習步伐慢一些。拆分出不同的mini-batch,第一次遍歷訓(xùn)練集叫做第一代。第二次就是第二代,依此類推,將a學(xué)習率設(shè)為011anumepochdecayratea++=,(decay-rate稱為衰減率,epoch-num為代數(shù),0a為初始學(xué)習率)。深度學(xué)習的優(yōu)化技巧對于模型的訓(xùn)練至關(guān)重要,這些優(yōu)化指標也是評估深度學(xué)習模型好壞的重要標準,在實踐過程中,根據(jù)不同的模型在不同的應(yīng)用場景中,使用的優(yōu)化方法各有不同,為達到模型最好實驗性能,需要在不斷調(diào)參的過程中,找出最優(yōu)化方案。2.2基于深度學(xué)習的文本分類深度學(xué)習在自然語言處理領(lǐng)域中的研究已經(jīng)將高深莫測的人類語言撕開一層神秘的面紗。其中是“詞向量”技術(shù)是進行基于深度學(xué)習的文本分類任務(wù)的敲門磚,將單詞用“詞向量”的方式表示可謂是將深度學(xué)習算法引入自然語言處理領(lǐng)域的一個核心技術(shù)。2.2.1詞向量自然語言處理相關(guān)任務(wù)中,首要任務(wù)是語言符號數(shù)字化。向量是人對機器輸入的主要方式。詞向量就是用來將語言中的詞進行數(shù)學(xué)化的一種方式,顧名思義,詞向量將詞表示為一個向量。在NLP中最直觀最簡單的詞表示方法是One-Hot向量,如圖2.5所示。圖2.5One-hot詞向量表示形式
第2章相關(guān)技術(shù)概述16圖2.6FastText模型結(jié)構(gòu)圖TextCNN是Kim在2014年的論文[2]中用于解決句子分類問題的模型。將CNN應(yīng)用到文本分類任務(wù),卷積操作中利用多個不同大小的卷積核來提取句子中的特征信息(類似于多窗口大小的n-gram),從而能夠更好地捕捉局部相關(guān)性,TextCNN模型結(jié)構(gòu)如圖2.7所示。圖2.7TextCNN模型結(jié)構(gòu)圖Bi-LSTM介紹了LSTM用于文本分類問題的設(shè)計,在自然語言處理中最常用的RNN能夠更好的表達上下文信息。在文本分類任務(wù)中,雙向LSTM可以捕獲變長且雙向的“n-gram”信息,Bi-LSTM模型結(jié)構(gòu)如圖2.8所示。
本文編號:3099059
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
xh)(與ostyxhC)),((的關(guān)系圖
第2章相關(guān)技術(shù)概述14加快學(xué)習算法的一個辦法是隨時間慢慢減少學(xué)習率,稱為學(xué)習率衰減,在學(xué)習初期,學(xué)習率a較大,學(xué)習相對較快,當開始收斂的時候,學(xué)習率a變小,學(xué)習步伐慢一些。拆分出不同的mini-batch,第一次遍歷訓(xùn)練集叫做第一代。第二次就是第二代,依此類推,將a學(xué)習率設(shè)為011anumepochdecayratea++=,(decay-rate稱為衰減率,epoch-num為代數(shù),0a為初始學(xué)習率)。深度學(xué)習的優(yōu)化技巧對于模型的訓(xùn)練至關(guān)重要,這些優(yōu)化指標也是評估深度學(xué)習模型好壞的重要標準,在實踐過程中,根據(jù)不同的模型在不同的應(yīng)用場景中,使用的優(yōu)化方法各有不同,為達到模型最好實驗性能,需要在不斷調(diào)參的過程中,找出最優(yōu)化方案。2.2基于深度學(xué)習的文本分類深度學(xué)習在自然語言處理領(lǐng)域中的研究已經(jīng)將高深莫測的人類語言撕開一層神秘的面紗。其中是“詞向量”技術(shù)是進行基于深度學(xué)習的文本分類任務(wù)的敲門磚,將單詞用“詞向量”的方式表示可謂是將深度學(xué)習算法引入自然語言處理領(lǐng)域的一個核心技術(shù)。2.2.1詞向量自然語言處理相關(guān)任務(wù)中,首要任務(wù)是語言符號數(shù)字化。向量是人對機器輸入的主要方式。詞向量就是用來將語言中的詞進行數(shù)學(xué)化的一種方式,顧名思義,詞向量將詞表示為一個向量。在NLP中最直觀最簡單的詞表示方法是One-Hot向量,如圖2.5所示。圖2.5One-hot詞向量表示形式
第2章相關(guān)技術(shù)概述16圖2.6FastText模型結(jié)構(gòu)圖TextCNN是Kim在2014年的論文[2]中用于解決句子分類問題的模型。將CNN應(yīng)用到文本分類任務(wù),卷積操作中利用多個不同大小的卷積核來提取句子中的特征信息(類似于多窗口大小的n-gram),從而能夠更好地捕捉局部相關(guān)性,TextCNN模型結(jié)構(gòu)如圖2.7所示。圖2.7TextCNN模型結(jié)構(gòu)圖Bi-LSTM介紹了LSTM用于文本分類問題的設(shè)計,在自然語言處理中最常用的RNN能夠更好的表達上下文信息。在文本分類任務(wù)中,雙向LSTM可以捕獲變長且雙向的“n-gram”信息,Bi-LSTM模型結(jié)構(gòu)如圖2.8所示。
本文編號:3099059
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3099059.html
最近更新
教材專著