散文觀點類問題的自動解答方法研究
發(fā)布時間:2020-12-15 12:38
機器閱讀理解要求機器擁有理解、推斷文本能力,依據(jù)給定背景材料,回答對應的問題,F(xiàn)有的閱讀理解研究大多集中于各大開放域的語料庫,背景材料描述簡潔直白,問題清晰明了。而散文背景材料語句含蓄優(yōu)美,含義深刻,問題更加抽象概括,更具有挑戰(zhàn)性。本文針對高考散文閱讀理解觀點類問答題的自動解答方法展開研究,主要研究工作如下:(1)閱讀理解觀點類問題分析。通過對歷年高考語文閱讀理解題型進行統(tǒng)計,觀察到觀點類問題分值比較高。進行進一步實例分析后,本文觀察到觀點類問題中的背景材料所屬的散文體裁語句表達含蓄、有意境,問題表達較抽象、概括性較強,且提問方式多樣,經(jīng)過人工歸類,本文將其分為證據(jù)類與原因類。另外,為了支撐機器對觀點類問題的研究,本文構(gòu)建了觀點類問答題的語料庫。(2)基于問題詞匯擴展的證據(jù)類問題解答方法。由于證據(jù)類問題的表達復雜抽象,而背景材料的內(nèi)容表達豐富且含蓄,導致問題與答案之間出現(xiàn)語義鴻溝。針對該問題,本文提出了基于Multi-HLSTM模型的問題詞匯擴展方法。首先將背景材料與問題進行交互注意,同時構(gòu)建預測原問題和預測問題擴展兩個任務,使模型對問題進一步擴展。最后將擴展后的問題與原問題同時應用于...
【文章來源】:山西大學山西省
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
基于Multi-HLSTM的問題詞匯擴展模型
第四章融合情感特征的原因類問題解答方法21第四章融合情感特征的原因類問題解答方法基于第二章節(jié)的分析,觀察到的原因類問答題中答案句與問題句情感極性一致現(xiàn)象,提出融合情感特征的原因類問題解答方法,將情感信息融入模型,幫助原因類問題答案句的抽齲4.1融合情感特征的BERT句對識別方法(1)模型整體框架BERT(BidirectionalEncoderRepresentationsfromTransformers)[48]是Google開發(fā)的一種NLP領(lǐng)域的預訓練語言表示模型,BERT的出現(xiàn)徹底改變了預訓練產(chǎn)生詞向量和下游具體NLP任務相互獨立的關(guān)系,使得對11項下游任務都有極大地提升。它是基于Transformer-Encoder的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以通過聯(lián)合調(diào)節(jié)所有層中的左右上下文來預訓練深度雙向表示,對于下游任務,我們只需將特定的目標輸出層加以改造引入,對預訓練好的BERT語言模型進行微調(diào),可以獲得更符合真實語義的表示,進而得到更優(yōu)的任務表現(xiàn)。本文設(shè)計了基于BERT的句對識別方法,幫助解答原因類問題,具體見圖4.1所示。圖4.1基于BERT的句對識別模型中,將<問題句-候選答案句>成對輸入,利用BERT中的[CLS]字段進行判別是否候選答案句為真正答案句。另外,為了利用原因類問題問題句與答案句情感極性一致的特點,在BERT語言模型的輸入層中,加入文本的情感信息。對于中文字wi的表示有四個Embedding,包括當前字的字嵌入TokenEmbeddings(TE)、情感嵌入SentimentEmbedding(SE)、當前字所在句子的嵌入表示SegmentEmbeddings(SegE)和當前字的位置嵌入PositionEmbeddings(PE)。見圖4.2所示。
散文觀點類問題的自動解答方法研究22圖4.2BERT的輸入表示(2)情感向量表示為了使用情感極性信息幫助模型更有效地正確識別句對,經(jīng)過語料分析,本文總結(jié)了用于識別情感極性的情感特征詞,其中正面詞集(Positive)、負面詞集(Negative)、中性詞集(Neutral)分別包含詞匯109個,145個,67個,具體示例如表4.1所示。表4.1識別情感特征的情感詞示例極性情感詞示例正面(POSITIVE)著迷、屹立、散步、積淀、脊梁、豪邁、天然、頑強、淡雅、溫厚、肅然起敬……負面(NEGATIVE)墜落、呻吟、挽歌、聒噪、孤寂、焦慮、停滯、縹緲、無處躲藏……中性(NEUTRAL)細微、尋常、震動、清醒……鑒于BERT模型的底層輸入是基于字級的表示,對輸入文本分詞后,與表4.1中特征詞匹配,對匹配到的詞語的字賦予情感特征表示,見公式(4.1)所示。NegativePositiveNeural,2,1,0SEiiiicharcharcharcharwordwordword(4.1)其中,ichar為文本中字,icharword為ichar所在的詞。(3)輸入層表示將字嵌入TE引入情感特征SE,對應融入情感特征的字嵌入表示~TE見公式(4.2)所示。SETETE~(4.2)
本文編號:2918279
【文章來源】:山西大學山西省
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
基于Multi-HLSTM的問題詞匯擴展模型
第四章融合情感特征的原因類問題解答方法21第四章融合情感特征的原因類問題解答方法基于第二章節(jié)的分析,觀察到的原因類問答題中答案句與問題句情感極性一致現(xiàn)象,提出融合情感特征的原因類問題解答方法,將情感信息融入模型,幫助原因類問題答案句的抽齲4.1融合情感特征的BERT句對識別方法(1)模型整體框架BERT(BidirectionalEncoderRepresentationsfromTransformers)[48]是Google開發(fā)的一種NLP領(lǐng)域的預訓練語言表示模型,BERT的出現(xiàn)徹底改變了預訓練產(chǎn)生詞向量和下游具體NLP任務相互獨立的關(guān)系,使得對11項下游任務都有極大地提升。它是基于Transformer-Encoder的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以通過聯(lián)合調(diào)節(jié)所有層中的左右上下文來預訓練深度雙向表示,對于下游任務,我們只需將特定的目標輸出層加以改造引入,對預訓練好的BERT語言模型進行微調(diào),可以獲得更符合真實語義的表示,進而得到更優(yōu)的任務表現(xiàn)。本文設(shè)計了基于BERT的句對識別方法,幫助解答原因類問題,具體見圖4.1所示。圖4.1基于BERT的句對識別模型中,將<問題句-候選答案句>成對輸入,利用BERT中的[CLS]字段進行判別是否候選答案句為真正答案句。另外,為了利用原因類問題問題句與答案句情感極性一致的特點,在BERT語言模型的輸入層中,加入文本的情感信息。對于中文字wi的表示有四個Embedding,包括當前字的字嵌入TokenEmbeddings(TE)、情感嵌入SentimentEmbedding(SE)、當前字所在句子的嵌入表示SegmentEmbeddings(SegE)和當前字的位置嵌入PositionEmbeddings(PE)。見圖4.2所示。
散文觀點類問題的自動解答方法研究22圖4.2BERT的輸入表示(2)情感向量表示為了使用情感極性信息幫助模型更有效地正確識別句對,經(jīng)過語料分析,本文總結(jié)了用于識別情感極性的情感特征詞,其中正面詞集(Positive)、負面詞集(Negative)、中性詞集(Neutral)分別包含詞匯109個,145個,67個,具體示例如表4.1所示。表4.1識別情感特征的情感詞示例極性情感詞示例正面(POSITIVE)著迷、屹立、散步、積淀、脊梁、豪邁、天然、頑強、淡雅、溫厚、肅然起敬……負面(NEGATIVE)墜落、呻吟、挽歌、聒噪、孤寂、焦慮、停滯、縹緲、無處躲藏……中性(NEUTRAL)細微、尋常、震動、清醒……鑒于BERT模型的底層輸入是基于字級的表示,對輸入文本分詞后,與表4.1中特征詞匹配,對匹配到的詞語的字賦予情感特征表示,見公式(4.1)所示。NegativePositiveNeural,2,1,0SEiiiicharcharcharcharwordwordword(4.1)其中,ichar為文本中字,icharword為ichar所在的詞。(3)輸入層表示將字嵌入TE引入情感特征SE,對應融入情感特征的字嵌入表示~TE見公式(4.2)所示。SETETE~(4.2)
本文編號:2918279
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/2918279.html
最近更新
教材專著