基于遞歸神經(jīng)網(wǎng)絡(luò)的篇章連貫性建模研究
發(fā)布時(shí)間:2021-03-03 06:14
銜接性和連貫性是句子構(gòu)成篇章的兩個(gè)最基本特性。一般而言,銜接性是連句成章的詞匯和語(yǔ)法方面的手段,而連貫是采用這些手段所產(chǎn)生的結(jié)果。銜接性指語(yǔ)篇中表層結(jié)構(gòu)上的粘著性,是語(yǔ)篇的有形網(wǎng)絡(luò);而連貫性指語(yǔ)篇中底層語(yǔ)義上的關(guān)聯(lián)性,是語(yǔ)篇的無(wú)形網(wǎng)絡(luò)。根據(jù)功能語(yǔ)言學(xué)家Halliday所述,一個(gè)連貫的語(yǔ)篇由語(yǔ)義上相關(guān)的相似成份連接起來(lái)。如果篇章缺乏這種相似成份,必將出現(xiàn)語(yǔ)篇銜接上的缺口,從而導(dǎo)致不連貫現(xiàn)象。篇章連貫性建模旨在對(duì)篇章中句子間的連貫性程度建立可計(jì)算模型,是自然語(yǔ)言處理的一個(gè)基礎(chǔ)研究問(wèn)題,其可以被廣泛地應(yīng)用在許多與自然語(yǔ)言處理相關(guān)的應(yīng)用中,例如:情感分析、統(tǒng)計(jì)機(jī)器翻譯、篇章生成和文本摘要等。早期的篇章連貫性模型主要采用特征工程方法,從文本中提取出表示語(yǔ)義的各種特征,例如:篇章中的實(shí)體信息,句法路徑信息等,然后進(jìn)行特征選擇,并訓(xùn)練分類器;隨著深度學(xué)習(xí)在語(yǔ)音和圖像領(lǐng)域取得巨大成功后,有些學(xué)者開(kāi)始利用神經(jīng)網(wǎng)絡(luò)方法構(gòu)建英文篇章的連貫性模型。但是,目前基于深度學(xué)習(xí)的篇章連貫性模型沒(méi)有和早期的基于實(shí)體信息的模型進(jìn)行有效融合,以突顯篇章中實(shí)體在充當(dāng)篇章銜接性的重要作用;同時(shí),現(xiàn)有模型主要基于英文篇章,對(duì)中文...
【文章來(lái)源】:江西師范大學(xué)江西省
【文章頁(yè)數(shù)】:45 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
標(biāo)注好語(yǔ)法角色的語(yǔ)篇
圖 2-2 實(shí)體網(wǎng)格模型由圖中可以看出,實(shí)體網(wǎng)格是以句子作為其研究的基本單位,該模型用論的啟發(fā)用中心實(shí)體的語(yǔ)法角色來(lái)表示句子。借助了四個(gè)語(yǔ)法角色符號(hào)”,“X”,“-”來(lái)刻畫篇章中的實(shí)體主語(yǔ),賓語(yǔ),非主語(yǔ)和賓語(yǔ),不體。并且規(guī)定了實(shí)體語(yǔ)法角色的優(yōu)先級(jí):-<X<O<S。當(dāng)一個(gè)句子中存在上相同的實(shí)體時(shí),只標(biāo)識(shí)優(yōu)先級(jí)最高的實(shí)體。實(shí)體網(wǎng)格的研究工作是圍繞著中心實(shí)體在相鄰行的語(yǔ)法角色轉(zhuǎn)換開(kāi)展相鄰行間的語(yǔ)法角色轉(zhuǎn)換[O,-]出現(xiàn)了 7 次,相鄰行間語(yǔ)法角色轉(zhuǎn)換總,則該轉(zhuǎn)換在實(shí)體網(wǎng)格中的分布概率為 0.09,實(shí)體網(wǎng)格用相鄰句子間義角色轉(zhuǎn)換的頻率來(lái)隱式的模擬篇章連貫性。然后通過(guò)比較不同句子排篇章連貫性得分的大小對(duì)句子進(jìn)行排序,將學(xué)習(xí)篇章的連貫性轉(zhuǎn)為句子,取得了不錯(cuò)的成果。2.2.2 基于神經(jīng)網(wǎng)絡(luò)的模型
2014 年李紀(jì)為等人提出了分布式句子向量表示的神經(jīng)網(wǎng)絡(luò)模型,該模型用了兩種 RNN 生成句子的分布式表示。如圖 2-3 和 2-4 所示。從圖2-3中可以看出Recurrent Neural Network是按照輸入順序?yàn)榫渥由煞植际较蛄勘硎,?duì)于句子 s,循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)利用子節(jié)點(diǎn)對(duì)應(yīng)的詞和詞向量來(lái)預(yù)測(cè)父節(jié)點(diǎn)的詞向量,最后得到節(jié)點(diǎn)的向量表示就是句子的向量表示,計(jì)算公式如公式(2-1)所示: 1tt Recurrent t Recurrent w Recurrenth f V h W e b (2-1)其中 WRecurrent和 VRecurrent是 K*K 維矩陣,bRecurrent是 k 維偏置矩陣,f 是激活函數(shù)。用遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network)得到的句子向量表示是依賴于句法樹(shù)結(jié)構(gòu)的,每個(gè)父節(jié)點(diǎn)的向量都是通過(guò)其直接子結(jié)點(diǎn)計(jì)算得到的,類似地,用遞歸得到的根節(jié)點(diǎn)向量表示句子,對(duì)于給定的父節(jié)點(diǎn) p 和其兩個(gè)子節(jié)點(diǎn) c1、c2
【參考文獻(xiàn)】:
期刊論文
[1]語(yǔ)篇連貫性研究綜述[J]. 殷習(xí)芳,劉明東. 湖南第一師范學(xué)報(bào). 2006(03)
[2]篇章連貫性的定量分析[J]. 周光亞. 現(xiàn)代外語(yǔ). 1986(04)
碩士論文
[1]中文自動(dòng)分詞系統(tǒng)的研究與實(shí)現(xiàn)[D]. 周程遠(yuǎn).華東師范大學(xué) 2010
本文編號(hào):3060772
【文章來(lái)源】:江西師范大學(xué)江西省
【文章頁(yè)數(shù)】:45 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
標(biāo)注好語(yǔ)法角色的語(yǔ)篇
圖 2-2 實(shí)體網(wǎng)格模型由圖中可以看出,實(shí)體網(wǎng)格是以句子作為其研究的基本單位,該模型用論的啟發(fā)用中心實(shí)體的語(yǔ)法角色來(lái)表示句子。借助了四個(gè)語(yǔ)法角色符號(hào)”,“X”,“-”來(lái)刻畫篇章中的實(shí)體主語(yǔ),賓語(yǔ),非主語(yǔ)和賓語(yǔ),不體。并且規(guī)定了實(shí)體語(yǔ)法角色的優(yōu)先級(jí):-<X<O<S。當(dāng)一個(gè)句子中存在上相同的實(shí)體時(shí),只標(biāo)識(shí)優(yōu)先級(jí)最高的實(shí)體。實(shí)體網(wǎng)格的研究工作是圍繞著中心實(shí)體在相鄰行的語(yǔ)法角色轉(zhuǎn)換開(kāi)展相鄰行間的語(yǔ)法角色轉(zhuǎn)換[O,-]出現(xiàn)了 7 次,相鄰行間語(yǔ)法角色轉(zhuǎn)換總,則該轉(zhuǎn)換在實(shí)體網(wǎng)格中的分布概率為 0.09,實(shí)體網(wǎng)格用相鄰句子間義角色轉(zhuǎn)換的頻率來(lái)隱式的模擬篇章連貫性。然后通過(guò)比較不同句子排篇章連貫性得分的大小對(duì)句子進(jìn)行排序,將學(xué)習(xí)篇章的連貫性轉(zhuǎn)為句子,取得了不錯(cuò)的成果。2.2.2 基于神經(jīng)網(wǎng)絡(luò)的模型
2014 年李紀(jì)為等人提出了分布式句子向量表示的神經(jīng)網(wǎng)絡(luò)模型,該模型用了兩種 RNN 生成句子的分布式表示。如圖 2-3 和 2-4 所示。從圖2-3中可以看出Recurrent Neural Network是按照輸入順序?yàn)榫渥由煞植际较蛄勘硎,?duì)于句子 s,循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)利用子節(jié)點(diǎn)對(duì)應(yīng)的詞和詞向量來(lái)預(yù)測(cè)父節(jié)點(diǎn)的詞向量,最后得到節(jié)點(diǎn)的向量表示就是句子的向量表示,計(jì)算公式如公式(2-1)所示: 1tt Recurrent t Recurrent w Recurrenth f V h W e b (2-1)其中 WRecurrent和 VRecurrent是 K*K 維矩陣,bRecurrent是 k 維偏置矩陣,f 是激活函數(shù)。用遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network)得到的句子向量表示是依賴于句法樹(shù)結(jié)構(gòu)的,每個(gè)父節(jié)點(diǎn)的向量都是通過(guò)其直接子結(jié)點(diǎn)計(jì)算得到的,類似地,用遞歸得到的根節(jié)點(diǎn)向量表示句子,對(duì)于給定的父節(jié)點(diǎn) p 和其兩個(gè)子節(jié)點(diǎn) c1、c2
【參考文獻(xiàn)】:
期刊論文
[1]語(yǔ)篇連貫性研究綜述[J]. 殷習(xí)芳,劉明東. 湖南第一師范學(xué)報(bào). 2006(03)
[2]篇章連貫性的定量分析[J]. 周光亞. 現(xiàn)代外語(yǔ). 1986(04)
碩士論文
[1]中文自動(dòng)分詞系統(tǒng)的研究與實(shí)現(xiàn)[D]. 周程遠(yuǎn).華東師范大學(xué) 2010
本文編號(hào):3060772
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3060772.html
最近更新
教材專著