天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 文藝論文 > 語言學論文 >

基于句群的漢語語篇內(nèi)容連貫性分析技術(shù)研究

發(fā)布時間:2020-05-21 21:15
【摘要】:近幾年,人工智能在各行各業(yè)激起了點點漣漪,進一步形成了層層熱浪。在實現(xiàn)了基本智能之后,更多的學者為人工智能的“人性化”問題投入了更多努力。語篇的銜接與連貫在許多領(lǐng)域中都擔任著重要的角色,并為相關(guān)領(lǐng)域的研究提供了一定程度的幫助。例如,智能寫作在實現(xiàn)了句子自動生成之后,應保證句子間的連貫性,使生成的文章通順不生硬。這就需要分析語篇句子之間的連貫性。另外,在閱讀理解任務中,如果能很好地識別句子之間的連貫性,在進行答案選擇時就能夠有效地在原文中定位,從而進行語義分析,選出較合適的答案。綜上,語篇的銜接與連貫是語篇分析的重點,是進行更多領(lǐng)域研究的基石。然而,直接在句子層面上進行連貫性研究會遺失很多上下文信息,直接使用整個篇章進行分析研究會因顆粒度較大存在許多技術(shù)上的問題。因此,本文在句群的層面上進行語篇連貫性的研究。對句群的劃分困難度、句群在不同體裁語料中的分布特征、句群的自動切分以及句群內(nèi)部句子間關(guān)系的自動識別進行了研究,具體如下。首先,本文從多角度總結(jié)了句群邊界以及類別的分布特點,分析了句群內(nèi)部句間的各種連接關(guān)系,提出了一種基于人工標注的語篇困難度識別模型,并利用雙人標注信息的差異性來驗證語篇困難度識別方法的有效性與準確性。實驗表明,該模型可以較好地區(qū)分不同體裁新聞類語篇的標注難度,為相關(guān)語篇內(nèi)容的分析理解打下了良好的基礎(chǔ)。其次,本文使用新聞、應用、散文和百科四個不同體裁語篇語料,使用雙人獨立標注的方式,對四個庫進行人工連貫性分析標注。在此基礎(chǔ)上,分析了四類語篇語料庫中的句群相關(guān)的連貫性分布特征,詳細對比了不同體裁語篇中的句群連貫性標注難度差異情況,為后續(xù)實現(xiàn)句群邊界的自動切分與句間關(guān)系的自動分析打下了良好基礎(chǔ)。再次,本文利用卷積神經(jīng)網(wǎng)絡以及注意力機制對語篇句對進行分類,并結(jié)合句群主題特征來提升句群邊界識別的準確率。利用大規(guī)模弱標注段落數(shù)據(jù)集解決句群語料短缺的難題。實驗表明,該方法能夠有效地進行句群邊界的自動識別,實現(xiàn)語篇句群的自動切分。最后,本文結(jié)合了卷積神經(jīng)網(wǎng)絡與詞語序列特征,綜合考慮了語義與結(jié)構(gòu)等多方面的特征,并加入注意力機制來深入挖掘句群內(nèi)部間雙核心(連貫關(guān)系、流水關(guān)系)句際關(guān)系。實驗表明,本文方法能夠有效地識別雙核心句際關(guān)系,并且可移植性強。
【圖文】:

對比圖,位標,對比圖


第 2 章 漢語語篇的連貫性標注困難度分析研究 數(shù)據(jù)結(jié)果討論困難度計算模型的各個特征的權(quán)重已經(jīng)通過訓練得出,因此目標函首先使用標注困難度計算模型對 45 篇測試語料進行計算,由于兩位標注不同,訓練得出的困難度模型各個特征權(quán)重不相同,因此計算得完全相同。將經(jīng)過數(shù)據(jù)處理之后的兩組困難度數(shù)據(jù)進行對比得出,對標注者得出的困難度數(shù)據(jù)不完全相同,但差別較;從總體趨勢來據(jù)點左右,困難度呈現(xiàn)出了較大下降,在 32 篇之前,,兩位標注者得在 2 以上,而 32 篇以后基本在 2 以下。具體原因?qū)⒃诤竺孢M行詳細分

對比圖,差異度,對比圖,位標


困難度呈現(xiàn)出了較大下降,在 32 篇之前,兩位標注者得在 2 以上,而 32 篇以后基本在 2 以下。具體原因?qū)⒃诤竺孢M行詳細分圖 2.1 兩位標注者困難度對比圖分析困難度數(shù)據(jù)的差異性,以困難度值為 2 作為界限,將前 32 篇 篇語料數(shù)據(jù)分開說明,可以得出,前 32 篇語料困難度與差異度的總,差異度較大的困難度數(shù)據(jù)也相對較大,差異度較小的困難度也相對數(shù)據(jù)較大,最大值達到 4.98,基本都在 2 以上。具體數(shù)據(jù)如下所示:
【學位授予單位】:北京信息科技大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:H15;TP183

【參考文獻】

相關(guān)期刊論文 前5條

1 周文翠;袁春風;;并列復句的自動識別初探[J];計算機應用研究;2008年03期

2 吳晨;張全;;自然語言處理中句群劃分及其判定規(guī)則研究[J];計算機工程;2007年04期

3 劉大為;意向動詞、言說動詞與篇章的視域[J];修辭學習;2004年06期

4 周強;漢語句法樹庫標注體系[J];中文信息學報;2004年04期

5 喬立山,王玉蘭,曾錦光;實驗數(shù)據(jù)處理中曲線擬合方法探討[J];成都理工大學學報(自然科學版);2004年01期

相關(guān)博士學位論文 前1條

1 黎明潔;敘述學視角下的新聞寫作改革研究[D];復旦大學;2004年



本文編號:2674915

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/wenyilunwen/yuyanxuelw/2674915.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f98a0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com