漢語宏觀篇章資源建設(shè)與結(jié)構(gòu)分析方法研究
發(fā)布時間:2021-01-30 18:22
在自然語言處理領(lǐng)域,隨著研究對象逐漸從字詞和句子轉(zhuǎn)移到句群、段落和章節(jié)等更大的語義層面,篇章分析變得越來越重要。篇章分析是理解文本整體語義的基礎(chǔ),廣泛應(yīng)用于情感分析、問答系統(tǒng)、自動摘要等更深層次的自然語言處理應(yīng)用。相較于微觀篇章分析研究取得的成功,宏觀篇章分析面臨諸多挑戰(zhàn)。宏觀篇章分析包括篇章結(jié)構(gòu)分析、篇章主次識別和篇章關(guān)系識別三個子任務(wù)。基于漢語宏觀篇章結(jié)構(gòu)表示體系,本文對漢語宏觀篇章資源建設(shè)與結(jié)構(gòu)分析方法展開深入研究,主要研究內(nèi)容包括以下三個方面:(1)針對漢語宏觀篇章語料匱乏的問題,本文構(gòu)建漢語宏觀篇章語料庫(MCDTB)。首先,基于漢語宏觀篇章結(jié)構(gòu)表示體系,標(biāo)注宏觀篇章結(jié)構(gòu)樹,并額外標(biāo)注段落主題句和篇章摘要等更高層次的宏觀篇章信息;其次,在詳細(xì)的標(biāo)注流程和標(biāo)注準(zhǔn)則確定后,開發(fā)標(biāo)注工具并提出質(zhì)量保證策略,以保證標(biāo)注速度和標(biāo)注質(zhì)量;最后,共標(biāo)注720篇漢語新聞?wù)Z料,并取得一致率大于80%和Kappa值大于0.6的標(biāo)注一致性。在MCDTB上的篇章主次識別實(shí)驗(yàn)驗(yàn)證了該語料庫的可用性。(2)針對高層次篇章結(jié)構(gòu)識別由于樣本過少而產(chǎn)生過擬合的問題,本文提出基于標(biāo)簽退化組合模型的宏觀篇章結(jié)構(gòu)識...
【文章來源】:蘇州大學(xué)江蘇省
【文章頁數(shù)】:82 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1?chtb_0056的宏觀篇章結(jié)構(gòu)樹??
章構(gòu)建一棵完整??的篇章結(jié)構(gòu)樹,沒有顯式區(qū)分微觀層次和宏觀層次。??\f\?2-\i?(a)?In?addition,?(b)?Mrs.?Lidenvoodsaid,?(c)?Norfolk?is?hkely?to?draw?down?its??cash?initially?(d)?to?finance?the?purchases?(e)?and?this?forfeit?some?interest?income.??例2-1為RST-DT中wsj_l111的一個句子,其篇章結(jié)構(gòu)樹標(biāo)注如圖2-1所示,標(biāo)??注內(nèi)容主要包括篇章的結(jié)構(gòu)、主次(核性)和關(guān)系三個方面。篇章基本單元為a,?b,c,??d和e,箭頭指向的節(jié)點(diǎn)(如a,?c,a-d)為篇章關(guān)系中較為重要的部分,即核心(Nucelus)。??兩個篇章單兀使用篇章關(guān)系(如attribution-embedded,?same-unit)連接,從而合并為更??大的篇章單元,RST-DT的篇章關(guān)系分為18大類78小類。??a-e??consequence-s??a-d?e??same-unit??a-b?c-d??attribution-embedded?purpose??a?b?|?c?—?d??圖2-1?RST-DT?wsjj?111的篇章結(jié)構(gòu)子樹??10??
料庫語料來源于CTB6.0,共標(biāo)注500篇新??聞類文章,其中有效標(biāo)注2342個篇章(段落),篇章基本單元(EDU)為子句或句子。??你\1-11?(a)亞洲國家和地區(qū)是中國主要外資來源,(b)來自香港、臺灣、日本、??韓國、東盟等國家和地區(qū),投資額占全國利用外資總額的百分之八十五以上。(c)其??中香港仍是內(nèi)地吸收外資的主要來源,(d)占累計(jì)實(shí)際吸收外商投資的比重為百分之??五十五以上。??在CDTB中,文章chtb_0076的部分片段如例2-2所示,其標(biāo)注的篇章結(jié)構(gòu)樹如??圖2-2所示,相較于RST-DT和PDTB,?CDTB既標(biāo)注篇章的結(jié)構(gòu)、主次和關(guān)系(如??RST-DT),也標(biāo)注篇章關(guān)系中所包含的連接詞(共標(biāo)注278個連接詞)和顯式、隱式??關(guān)系(共標(biāo)注7310個關(guān)系,其中顯式1814個,隱式54%個)等。與RST-DT不同,??CDTB以-個段落構(gòu)建?棵篇章結(jié)構(gòu)樹,沒有構(gòu)建段落及以上的篇章結(jié)構(gòu)。??a-d?('今分){其中,符合語感,+吋刪除!??〈符合語感,f可添加>?〈符合語感,f可刪除〉???a???b??I?c?I??d???圖2-2?CDTB的基于鏈接依存樹的篇章結(jié)構(gòu)樹(chtb_0076)??2.2漢語宏觀篇章分析相關(guān)任務(wù)介紹??篇章分析分為兩個層次:微觀層面和宏觀層面。在微觀層面,篇章基本單元(EDU)??為子句或句子,而在宏觀層面,篇章基本單元(EDU)為自然段落。篇章分析目的是??分析出篇章的層次結(jié)構(gòu)及語義關(guān)系,具體的,是判斷篇章單元間是否存在關(guān)系、判斷??篇章單元的重要性以及對篇章單元間存在的關(guān)系分類。??篇章分析主要分為3個子任務(wù):篇章結(jié)構(gòu)分析、
【參考文獻(xiàn)】:
期刊論文
[1]基于轉(zhuǎn)移的中文篇章結(jié)構(gòu)解析研究[J]. 孫成,孔芳. 中文信息學(xué)報(bào). 2018(12)
[2]自然語言處理中的篇章主次關(guān)系研究[J]. 褚曉敏,朱巧明,周國棟. 計(jì)算機(jī)學(xué)報(bào). 2017(04)
[3]基于框架的漢語篇章結(jié)構(gòu)生成和篇章關(guān)系識別[J]. 呂國英,蘇娜,李茹,王智強(qiáng),柴清華. 中文信息學(xué)報(bào). 2015(06)
[4]漢語篇章修辭結(jié)構(gòu)的標(biāo)注研究[J]. 樂明. 中文信息學(xué)報(bào). 2008(04)
[5]漢英語篇主題與段落結(jié)構(gòu)模式的比較研究[J]. 李錦,廖開洪. 暨南學(xué)報(bào)(哲學(xué)社會科學(xué)版). 2001(05)
博士論文
[1]漢語篇章結(jié)構(gòu)表示體系及資源構(gòu)建研究[D]. 李艷翠.蘇州大學(xué) 2015
碩士論文
[1]面向問答系統(tǒng)的復(fù)述識別技術(shù)研究與實(shí)現(xiàn)[D]. 徐帥.哈爾濱工業(yè)大學(xué) 2009
本文編號:3009369
【文章來源】:蘇州大學(xué)江蘇省
【文章頁數(shù)】:82 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1?chtb_0056的宏觀篇章結(jié)構(gòu)樹??
章構(gòu)建一棵完整??的篇章結(jié)構(gòu)樹,沒有顯式區(qū)分微觀層次和宏觀層次。??\f\?2-\i?(a)?In?addition,?(b)?Mrs.?Lidenvoodsaid,?(c)?Norfolk?is?hkely?to?draw?down?its??cash?initially?(d)?to?finance?the?purchases?(e)?and?this?forfeit?some?interest?income.??例2-1為RST-DT中wsj_l111的一個句子,其篇章結(jié)構(gòu)樹標(biāo)注如圖2-1所示,標(biāo)??注內(nèi)容主要包括篇章的結(jié)構(gòu)、主次(核性)和關(guān)系三個方面。篇章基本單元為a,?b,c,??d和e,箭頭指向的節(jié)點(diǎn)(如a,?c,a-d)為篇章關(guān)系中較為重要的部分,即核心(Nucelus)。??兩個篇章單兀使用篇章關(guān)系(如attribution-embedded,?same-unit)連接,從而合并為更??大的篇章單元,RST-DT的篇章關(guān)系分為18大類78小類。??a-e??consequence-s??a-d?e??same-unit??a-b?c-d??attribution-embedded?purpose??a?b?|?c?—?d??圖2-1?RST-DT?wsjj?111的篇章結(jié)構(gòu)子樹??10??
料庫語料來源于CTB6.0,共標(biāo)注500篇新??聞類文章,其中有效標(biāo)注2342個篇章(段落),篇章基本單元(EDU)為子句或句子。??你\1-11?(a)亞洲國家和地區(qū)是中國主要外資來源,(b)來自香港、臺灣、日本、??韓國、東盟等國家和地區(qū),投資額占全國利用外資總額的百分之八十五以上。(c)其??中香港仍是內(nèi)地吸收外資的主要來源,(d)占累計(jì)實(shí)際吸收外商投資的比重為百分之??五十五以上。??在CDTB中,文章chtb_0076的部分片段如例2-2所示,其標(biāo)注的篇章結(jié)構(gòu)樹如??圖2-2所示,相較于RST-DT和PDTB,?CDTB既標(biāo)注篇章的結(jié)構(gòu)、主次和關(guān)系(如??RST-DT),也標(biāo)注篇章關(guān)系中所包含的連接詞(共標(biāo)注278個連接詞)和顯式、隱式??關(guān)系(共標(biāo)注7310個關(guān)系,其中顯式1814個,隱式54%個)等。與RST-DT不同,??CDTB以-個段落構(gòu)建?棵篇章結(jié)構(gòu)樹,沒有構(gòu)建段落及以上的篇章結(jié)構(gòu)。??a-d?('今分){其中,符合語感,+吋刪除!??〈符合語感,f可添加>?〈符合語感,f可刪除〉???a???b??I?c?I??d???圖2-2?CDTB的基于鏈接依存樹的篇章結(jié)構(gòu)樹(chtb_0076)??2.2漢語宏觀篇章分析相關(guān)任務(wù)介紹??篇章分析分為兩個層次:微觀層面和宏觀層面。在微觀層面,篇章基本單元(EDU)??為子句或句子,而在宏觀層面,篇章基本單元(EDU)為自然段落。篇章分析目的是??分析出篇章的層次結(jié)構(gòu)及語義關(guān)系,具體的,是判斷篇章單元間是否存在關(guān)系、判斷??篇章單元的重要性以及對篇章單元間存在的關(guān)系分類。??篇章分析主要分為3個子任務(wù):篇章結(jié)構(gòu)分析、
【參考文獻(xiàn)】:
期刊論文
[1]基于轉(zhuǎn)移的中文篇章結(jié)構(gòu)解析研究[J]. 孫成,孔芳. 中文信息學(xué)報(bào). 2018(12)
[2]自然語言處理中的篇章主次關(guān)系研究[J]. 褚曉敏,朱巧明,周國棟. 計(jì)算機(jī)學(xué)報(bào). 2017(04)
[3]基于框架的漢語篇章結(jié)構(gòu)生成和篇章關(guān)系識別[J]. 呂國英,蘇娜,李茹,王智強(qiáng),柴清華. 中文信息學(xué)報(bào). 2015(06)
[4]漢語篇章修辭結(jié)構(gòu)的標(biāo)注研究[J]. 樂明. 中文信息學(xué)報(bào). 2008(04)
[5]漢英語篇主題與段落結(jié)構(gòu)模式的比較研究[J]. 李錦,廖開洪. 暨南學(xué)報(bào)(哲學(xué)社會科學(xué)版). 2001(05)
博士論文
[1]漢語篇章結(jié)構(gòu)表示體系及資源構(gòu)建研究[D]. 李艷翠.蘇州大學(xué) 2015
碩士論文
[1]面向問答系統(tǒng)的復(fù)述識別技術(shù)研究與實(shí)現(xiàn)[D]. 徐帥.哈爾濱工業(yè)大學(xué) 2009
本文編號:3009369
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3009369.html
最近更新
教材專著