基于深度學(xué)習(xí)技術(shù)的絕句生成方法研究
發(fā)布時間:2021-02-24 10:16
詩歌是一種凝練而特別的文學(xué)形式,中國傳統(tǒng)詩歌作為我國重要的文化遺產(chǎn),體現(xiàn)了勞動人民非凡的智慧和創(chuàng)造力。絕句是中國傳統(tǒng)詩歌中具有代表性的詩歌體裁,其在結(jié)構(gòu)、平仄、押韻等方面都有嚴格的要求。創(chuàng)作一首合格的絕句對于普通人來說并不是件容易的事情,而對于計算機來說,如何自動生成絕句同樣是充滿挑戰(zhàn)的課題。對絕句自動生成的研究,一方面可以降低詩歌創(chuàng)作門檻,讓普通民眾感受詩歌創(chuàng)作的魅力,有利于中華傳統(tǒng)文化的傳承;另一方面,絕句生成的研究讓計算機進行文學(xué)創(chuàng)作成為可能,將給傳統(tǒng)詩人及詩歌研究人員帶來沖擊,一定程度上將促進中國傳統(tǒng)詩歌的創(chuàng)新與發(fā)展;同時絕句生成作為自然語言處理領(lǐng)域一項特別且有趣的研究,可啟發(fā)其他文本類型的生成研究,促進自然語言處理相關(guān)技術(shù)的發(fā)展。因此對絕句生成的研究具有現(xiàn)實意義。絕句等體裁詩歌生成的研究,經(jīng)歷了基于規(guī)則和模板的生成方法、基于統(tǒng)計機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法三個階段,前兩類方法生成的詩歌通常需要人工參與,且常出現(xiàn)較低級的錯誤,而隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,基于深度學(xué)習(xí)的方法在詩歌生成中表現(xiàn)優(yōu)異,成為了主流。本文在現(xiàn)有絕句生成方法基礎(chǔ)上,針對絕句生成中主題漂移、語義不連貫等...
【文章來源】:江西師范大學(xué)江西省
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
孟浩然五言絕句《春曉》
基于深度學(xué)習(xí)技術(shù)的絕句生成方法研究52基于關(guān)鍵詞轉(zhuǎn)換擴展的絕句生成模型設(shè)計2.1絕句生成問題描述本文絕句生成的研究基于深度學(xué)習(xí)技術(shù),其整體流程如圖2-1。圖2-1:基于深度學(xué)習(xí)技術(shù)的絕句生成整體流程圖在絕句生成的研究中,首先對絕句數(shù)據(jù)集進行收集整理;特征工程階段對絕句數(shù)據(jù)進行文本表示,接著將收集的絕句數(shù)據(jù)預(yù)處理,讓計算機可以更好的理解處理絕句數(shù)據(jù);然后將數(shù)據(jù)分為測試集、訓(xùn)練集和驗證集,使用訓(xùn)練集對深度學(xué)習(xí)模型進行迭代訓(xùn)練,得到絕句生成最優(yōu)模型;驗證集用于驗證模型的性能;測試集用于對訓(xùn)練完成的絕句生成模型進行測試評價。2.2相關(guān)工作絕句是中國傳統(tǒng)詩歌中具有代表性的詩歌體裁,對于絕句生成相關(guān)工作的研究,可看作是詩歌生成相關(guān)工作的研究,因此本節(jié)對基于深度學(xué)習(xí)技術(shù)的絕句生成相關(guān)工作的闡述主要從詩歌生成相關(guān)工作進行闡述。20世紀60年代,國外便出現(xiàn)了詩歌生成的相關(guān)研究,而國內(nèi)對于相關(guān)研究相對起步較晚,直到20世紀90年代才出現(xiàn)中文詩歌的生成研究,在將近60年的不斷研究探索過程中,涌現(xiàn)了許多方法,詩歌生成的研究大致經(jīng)歷了基于規(guī)則和模板的生成方法、基于統(tǒng)計機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法三個階段;谝(guī)則和模板的生成方法階段主要有基于模板的方法[6][7][8]、基于實例推理的方法[9],這類方法更多的是通過模板設(shè)定進行填空組合生成,生成的詩歌很不連貫,甚至不能稱作傳統(tǒng)意義上的詩歌。在基于統(tǒng)計機器學(xué)習(xí)階段,周昌樂等人在宋詞生成中引入遺傳算法,把宋詞生成看作是最優(yōu)化問題[10];Yan等人把
基于深度學(xué)習(xí)技術(shù)的絕句生成方法研究9圖2-2:基于關(guān)鍵詞轉(zhuǎn)換擴展的絕句生成模型框架圖2.3.1關(guān)鍵詞轉(zhuǎn)換在關(guān)鍵詞轉(zhuǎn)換階段,用戶可輸入任意文本序列作為寫作意圖,該文本序列可以是一個主題詞、一個句子或是一段話。在以往的詩歌生成中[17],關(guān)鍵詞提取階段將從用戶輸入文本序列中提取出多個關(guān)鍵詞,使得關(guān)鍵詞數(shù)量與詩歌總行數(shù)相同,若不夠再進行關(guān)鍵詞擴展,達到關(guān)鍵詞與詩歌總行數(shù)相等。該模型在提取多個主題詞時,易造成寫作意圖表達不明確的問題,如在PPG模型中當(dāng)輸入句子“春天像一位姑娘,踏著輕盈的腳步來了”,經(jīng)過關(guān)鍵詞提取,將提取出“春天”、“姑娘”兩個關(guān)鍵詞,再經(jīng)過主題詞擴展,生成詩歌。這句話主題關(guān)鍵詞應(yīng)該是“春天”,但因為模型選擇多個主題詞,“姑娘”和“春天”相關(guān)性低,因此容易造成主題偏離問題,同時提取的主題詞過于白話文,不利于后續(xù)詩歌生成。而本文提出的KTEQG絕句生成模型在用戶寫作意圖關(guān)鍵詞(主題詞)提取時,為了明確寫作主題,只提取評分最高的唯一關(guān)鍵詞。因確定的唯一關(guān)鍵詞容易出現(xiàn)白話文詞語,其與詩詞預(yù)料庫中的古文詞語不匹配,不利于子主題詞生成和詩歌的生成,因此確定唯一關(guān)鍵詞后,還將進行文言文詞語轉(zhuǎn)換,確定唯一文言文主題關(guān)鍵字詞。下面將對主題關(guān)鍵詞提取及轉(zhuǎn)換的具體實現(xiàn)進行介紹。關(guān)鍵詞提取主要目標是從文本中自動提取出可以表示文本內(nèi)容的詞語。關(guān)鍵詞提取可分為有監(jiān)督、半監(jiān)督和無監(jiān)督的方法[22],有監(jiān)督方法將關(guān)鍵詞提取看作二元分類的問題,該方法須先提供已標注關(guān)鍵詞的訓(xùn)練語料,然后才能對關(guān)鍵詞進行判斷提取,也就是說要先通過語料訓(xùn)練獲得關(guān)鍵詞提取模型,然后再基于模型進行關(guān)鍵詞提齲半監(jiān)督方法需要人工參與,非全自動的實現(xiàn),無需大量的訓(xùn)練數(shù)據(jù),只需部分語?
【參考文獻】:
期刊論文
[1]論詩歌評價的標準:從柏拉圖到朱光潛[J]. 王改娣. 英美文學(xué)研究論叢. 2019(02)
[2]基于古詩文知識圖譜的詩詞創(chuàng)作系統(tǒng)[J]. 李星宇,王麗娟. 計算機產(chǎn)品與流通. 2019(04)
[3]唐詩宋詞賞析——中國古典詩歌的鑒賞藝術(shù)[J]. 梅敬忠. 領(lǐng)導(dǎo)科學(xué)論壇. 2018(16)
[4]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學(xué)報. 2017(09)
[5]從圖靈測試到深度學(xué)習(xí):人工智能60年[J]. 萬赟. 科技導(dǎo)報. 2016(07)
[6]空間信息的自然語言表達模型[J]. 杜清運,任福. 武漢大學(xué)學(xué)報(信息科學(xué)版). 2014(06)
[7]自然語言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰. 計算機學(xué)報. 2011(08)
[8]一種宋詞自動生成的遺傳算法及其機器實現(xiàn)[J]. 周昌樂,游維,丁曉君. 軟件學(xué)報. 2010(03)
碩士論文
[1]唐絕句章法藝術(shù)研究[D]. 馮佳寧.南京師范大學(xué) 2018
[2]基于深度學(xué)習(xí)技術(shù)的中國傳統(tǒng)詩歌生成方法研究[D]. 王哲.中國科學(xué)技術(shù)大學(xué) 2017
[3]基于長短時記憶網(wǎng)絡(luò)的中文文本情感分析[D]. 李丹.北京郵電大學(xué) 2017
[4]基于TextRank算法的單文檔自動文摘研究[D]. 曹洋.南京大學(xué) 2016
本文編號:3049219
【文章來源】:江西師范大學(xué)江西省
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
孟浩然五言絕句《春曉》
基于深度學(xué)習(xí)技術(shù)的絕句生成方法研究52基于關(guān)鍵詞轉(zhuǎn)換擴展的絕句生成模型設(shè)計2.1絕句生成問題描述本文絕句生成的研究基于深度學(xué)習(xí)技術(shù),其整體流程如圖2-1。圖2-1:基于深度學(xué)習(xí)技術(shù)的絕句生成整體流程圖在絕句生成的研究中,首先對絕句數(shù)據(jù)集進行收集整理;特征工程階段對絕句數(shù)據(jù)進行文本表示,接著將收集的絕句數(shù)據(jù)預(yù)處理,讓計算機可以更好的理解處理絕句數(shù)據(jù);然后將數(shù)據(jù)分為測試集、訓(xùn)練集和驗證集,使用訓(xùn)練集對深度學(xué)習(xí)模型進行迭代訓(xùn)練,得到絕句生成最優(yōu)模型;驗證集用于驗證模型的性能;測試集用于對訓(xùn)練完成的絕句生成模型進行測試評價。2.2相關(guān)工作絕句是中國傳統(tǒng)詩歌中具有代表性的詩歌體裁,對于絕句生成相關(guān)工作的研究,可看作是詩歌生成相關(guān)工作的研究,因此本節(jié)對基于深度學(xué)習(xí)技術(shù)的絕句生成相關(guān)工作的闡述主要從詩歌生成相關(guān)工作進行闡述。20世紀60年代,國外便出現(xiàn)了詩歌生成的相關(guān)研究,而國內(nèi)對于相關(guān)研究相對起步較晚,直到20世紀90年代才出現(xiàn)中文詩歌的生成研究,在將近60年的不斷研究探索過程中,涌現(xiàn)了許多方法,詩歌生成的研究大致經(jīng)歷了基于規(guī)則和模板的生成方法、基于統(tǒng)計機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法三個階段;谝(guī)則和模板的生成方法階段主要有基于模板的方法[6][7][8]、基于實例推理的方法[9],這類方法更多的是通過模板設(shè)定進行填空組合生成,生成的詩歌很不連貫,甚至不能稱作傳統(tǒng)意義上的詩歌。在基于統(tǒng)計機器學(xué)習(xí)階段,周昌樂等人在宋詞生成中引入遺傳算法,把宋詞生成看作是最優(yōu)化問題[10];Yan等人把
基于深度學(xué)習(xí)技術(shù)的絕句生成方法研究9圖2-2:基于關(guān)鍵詞轉(zhuǎn)換擴展的絕句生成模型框架圖2.3.1關(guān)鍵詞轉(zhuǎn)換在關(guān)鍵詞轉(zhuǎn)換階段,用戶可輸入任意文本序列作為寫作意圖,該文本序列可以是一個主題詞、一個句子或是一段話。在以往的詩歌生成中[17],關(guān)鍵詞提取階段將從用戶輸入文本序列中提取出多個關(guān)鍵詞,使得關(guān)鍵詞數(shù)量與詩歌總行數(shù)相同,若不夠再進行關(guān)鍵詞擴展,達到關(guān)鍵詞與詩歌總行數(shù)相等。該模型在提取多個主題詞時,易造成寫作意圖表達不明確的問題,如在PPG模型中當(dāng)輸入句子“春天像一位姑娘,踏著輕盈的腳步來了”,經(jīng)過關(guān)鍵詞提取,將提取出“春天”、“姑娘”兩個關(guān)鍵詞,再經(jīng)過主題詞擴展,生成詩歌。這句話主題關(guān)鍵詞應(yīng)該是“春天”,但因為模型選擇多個主題詞,“姑娘”和“春天”相關(guān)性低,因此容易造成主題偏離問題,同時提取的主題詞過于白話文,不利于后續(xù)詩歌生成。而本文提出的KTEQG絕句生成模型在用戶寫作意圖關(guān)鍵詞(主題詞)提取時,為了明確寫作主題,只提取評分最高的唯一關(guān)鍵詞。因確定的唯一關(guān)鍵詞容易出現(xiàn)白話文詞語,其與詩詞預(yù)料庫中的古文詞語不匹配,不利于子主題詞生成和詩歌的生成,因此確定唯一關(guān)鍵詞后,還將進行文言文詞語轉(zhuǎn)換,確定唯一文言文主題關(guān)鍵字詞。下面將對主題關(guān)鍵詞提取及轉(zhuǎn)換的具體實現(xiàn)進行介紹。關(guān)鍵詞提取主要目標是從文本中自動提取出可以表示文本內(nèi)容的詞語。關(guān)鍵詞提取可分為有監(jiān)督、半監(jiān)督和無監(jiān)督的方法[22],有監(jiān)督方法將關(guān)鍵詞提取看作二元分類的問題,該方法須先提供已標注關(guān)鍵詞的訓(xùn)練語料,然后才能對關(guān)鍵詞進行判斷提取,也就是說要先通過語料訓(xùn)練獲得關(guān)鍵詞提取模型,然后再基于模型進行關(guān)鍵詞提齲半監(jiān)督方法需要人工參與,非全自動的實現(xiàn),無需大量的訓(xùn)練數(shù)據(jù),只需部分語?
【參考文獻】:
期刊論文
[1]論詩歌評價的標準:從柏拉圖到朱光潛[J]. 王改娣. 英美文學(xué)研究論叢. 2019(02)
[2]基于古詩文知識圖譜的詩詞創(chuàng)作系統(tǒng)[J]. 李星宇,王麗娟. 計算機產(chǎn)品與流通. 2019(04)
[3]唐詩宋詞賞析——中國古典詩歌的鑒賞藝術(shù)[J]. 梅敬忠. 領(lǐng)導(dǎo)科學(xué)論壇. 2018(16)
[4]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學(xué)報. 2017(09)
[5]從圖靈測試到深度學(xué)習(xí):人工智能60年[J]. 萬赟. 科技導(dǎo)報. 2016(07)
[6]空間信息的自然語言表達模型[J]. 杜清運,任福. 武漢大學(xué)學(xué)報(信息科學(xué)版). 2014(06)
[7]自然語言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰. 計算機學(xué)報. 2011(08)
[8]一種宋詞自動生成的遺傳算法及其機器實現(xiàn)[J]. 周昌樂,游維,丁曉君. 軟件學(xué)報. 2010(03)
碩士論文
[1]唐絕句章法藝術(shù)研究[D]. 馮佳寧.南京師范大學(xué) 2018
[2]基于深度學(xué)習(xí)技術(shù)的中國傳統(tǒng)詩歌生成方法研究[D]. 王哲.中國科學(xué)技術(shù)大學(xué) 2017
[3]基于長短時記憶網(wǎng)絡(luò)的中文文本情感分析[D]. 李丹.北京郵電大學(xué) 2017
[4]基于TextRank算法的單文檔自動文摘研究[D]. 曹洋.南京大學(xué) 2016
本文編號:3049219
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3049219.html
最近更新
教材專著