基于ALBERT的藏文預(yù)訓(xùn)練模型及其應(yīng)用
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1音節(jié)結(jié)構(gòu)示意圖
蘭州大學(xué)碩士學(xué)位論文基于ALBERT的藏文預(yù)訓(xùn)練模型及其應(yīng)用8第二章相關(guān)理論和技術(shù)概述2.1藏文的文本信息處理特點(diǎn)藏文語(yǔ)法主要由“文法根本三十頌”和“字性組織法”組成,前者主要描述了藏文音節(jié)拼寫結(jié)構(gòu)、格助詞和各類虛詞的用法,后者描述了以動(dòng)詞為中心的形態(tài)變化、時(shí)態(tài)變化、施受關(guān)系、能....
圖2-2Transformer模型結(jié)構(gòu)
蘭州大學(xué)碩士學(xué)位論文基于ALBERT的藏文預(yù)訓(xùn)練模型及其應(yīng)用13的抽象。在自然語(yǔ)言處理領(lǐng)域RNN可以提取句子中單詞的位置信息,從而使得在序列生成時(shí)序列中的子串符合規(guī)則。Transformer是一次性輸入文本數(shù)據(jù)不存在前后關(guān)系,因此丟失了單詞的位置信息。為了在Transformer....
圖2-3Encoder的第一層網(wǎng)絡(luò)模型結(jié)構(gòu)
蘭州大學(xué)碩士學(xué)位論文基于ALBERT的藏文預(yù)訓(xùn)練模型及其應(yīng)用14Encoder中包含多個(gè)相同的網(wǎng)絡(luò)層,每個(gè)網(wǎng)絡(luò)層中間包含兩個(gè)子網(wǎng)絡(luò)層(Sublayer),圖2-3所示的是Encoder中第一層網(wǎng)絡(luò)的結(jié)構(gòu)。第一個(gè)子網(wǎng)絡(luò)層使用多頭自注意力機(jī)制,其輸入是語(yǔ)料文本經(jīng)過(guò)Embedding層....
圖2-4Decoder第一層網(wǎng)絡(luò)模型結(jié)構(gòu)
蘭州大學(xué)碩士學(xué)位論文基于ALBERT的藏文預(yù)訓(xùn)練模型及其應(yīng)用15圖2-4Decoder第一層網(wǎng)絡(luò)模型結(jié)構(gòu)2.4相關(guān)優(yōu)化器介紹深度學(xué)習(xí)中有多種優(yōu)化器用來(lái)尋找模型的最優(yōu)解,在BERT中所使用的是AdamW優(yōu)化器,但由于AdamW在大批次下會(huì)導(dǎo)致性能下降,因此GoogleBrain提出....
本文編號(hào):3928709
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3928709.html