依存語(yǔ)法樹(shù)在中文問(wèn)題分類中的應(yīng)用研究
發(fā)布時(shí)間:2024-04-08 19:20
問(wèn)題分類是自動(dòng)問(wèn)答系統(tǒng)中的關(guān)鍵技術(shù),能夠有效地縮減答案的搜索空間,提高問(wèn)答系統(tǒng)的準(zhǔn)確性和效率。對(duì)于中文問(wèn)題而言,由于漢語(yǔ)存在意合性、無(wú)時(shí)態(tài)變化以及語(yǔ)序的靈活性等特點(diǎn),其分類特征的提取也更加困難。因此,本文從中文問(wèn)題依存語(yǔ)法樹(shù)出發(fā),研究分類特征提取及其在問(wèn)題分類中應(yīng)用問(wèn)題。本文的主要研究工作如下:(1)問(wèn)題中心詞是問(wèn)題分類時(shí)重要的特征,針對(duì)現(xiàn)有的中文問(wèn)題中心詞識(shí)別率不高的問(wèn)題,本文設(shè)計(jì)了從問(wèn)題依存語(yǔ)法樹(shù)集合中挖掘頻繁子樹(shù)模式并進(jìn)行模式精簡(jiǎn)的方法,以獲取中心詞與問(wèn)題依存樹(shù)局部結(jié)構(gòu)特征的之間的關(guān)聯(lián)關(guān)系。據(jù)此提出了基于雙向門控循環(huán)單元(BiGRU)與精簡(jiǎn)頻繁子樹(shù)模式相結(jié)合的中心詞識(shí)別方法,先利用BiGRU對(duì)問(wèn)題中心詞進(jìn)行初始標(biāo)注,再選用高置信度的頻繁子樹(shù)規(guī)則對(duì)初始標(biāo)注結(jié)果進(jìn)行校正。實(shí)驗(yàn)結(jié)果表明,該方法可以有效提升中心詞的識(shí)別率。(2)研究分析了中文問(wèn)題及其對(duì)應(yīng)的依存語(yǔ)法樹(shù),本文發(fā)現(xiàn)問(wèn)題句中不同詞匯對(duì)問(wèn)題分類的重要性差異很大,詞匯的依存距離與其重要性之間存在著關(guān)聯(lián)關(guān)系,F(xiàn)有基于深度學(xué)習(xí)的問(wèn)題分類模型未能充分利用依存距離信息。本文提出了一種結(jié)合依存距離特征與語(yǔ)義特征的注意力機(jī)制,可用于計(jì)算問(wèn)題中各...
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文主要研究?jī)?nèi)容
1.4 問(wèn)題分類體系與數(shù)據(jù)集
1.5 本文主要組織結(jié)構(gòu)
1.6 本章小結(jié)
第二章 中文問(wèn)題分類
2.1 問(wèn)題分類的概念
2.2 基于支持向量機(jī)的問(wèn)題分類模型
2.2.1 問(wèn)題特征提取
2.2.2 支持向量機(jī)分類器
2.3 相關(guān)深度學(xué)習(xí)技術(shù)
2.3.1 詞向量
2.3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.3.3 門控循環(huán)單元
2.4 基于雙向門控循環(huán)單元的問(wèn)題分類模型
2.4.1 模型輸入
2.4.2 特征提取
2.4.3 特征融合
2.4.4 問(wèn)題分類
2.4.5 模型訓(xùn)練
2.5 本章小結(jié)
第三章 基于精簡(jiǎn)頻繁子樹(shù)規(guī)則的中心詞提取方法
3.1 引言
3.2 頻繁子樹(shù)模式
3.2.1 問(wèn)題的依存語(yǔ)法樹(shù)
3.2.2 頻繁子樹(shù)
3.2.3 頻繁子樹(shù)規(guī)則
3.3 基于密度的頻繁子樹(shù)模式精簡(jiǎn)方法
3.3.1 頻繁子樹(shù)的精簡(jiǎn)方法
3.3.2 頻繁子樹(shù)規(guī)則的精簡(jiǎn)方法
3.4 中文問(wèn)題中心詞識(shí)別方法
3.4.1 問(wèn)題中心詞的初始標(biāo)注
3.4.2 中文問(wèn)題中心詞的再標(biāo)注
3.5 實(shí)驗(yàn)結(jié)果與分析
3.5.1 實(shí)驗(yàn)設(shè)置
3.5.2 中心詞標(biāo)注性能
3.5.3 頻繁子樹(shù)壓縮效果
3.5.4 規(guī)則精簡(jiǎn)情況對(duì)比
3.6 本章小結(jié)
第四章 基于注意力機(jī)制的中文問(wèn)題分類模型
4.1 引言
4.2 基于依存特征的注意力機(jī)制
4.2.1 問(wèn)題分類時(shí)的注意力分析
4.2.2 注意力機(jī)制模型
4.2.3 依存距離的特征向量
4.3 中文問(wèn)題深度分類模型
4.3.1 輸入數(shù)據(jù)
4.3.2 雙向GRU語(yǔ)義特征計(jì)算模型
4.3.3 注意力計(jì)算模塊
4.3.4 分類輸出層
4.3.5 模型訓(xùn)練
4.4 實(shí)驗(yàn)結(jié)果與分析
4.4.1 實(shí)驗(yàn)設(shè)置
4.4.2 中文問(wèn)題分類性能
4.4.3 注意力機(jī)制效果
4.4.4 詞向量對(duì)于分類性能的影響
4.5 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況
本文編號(hào):3948687
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文主要研究?jī)?nèi)容
1.4 問(wèn)題分類體系與數(shù)據(jù)集
1.5 本文主要組織結(jié)構(gòu)
1.6 本章小結(jié)
第二章 中文問(wèn)題分類
2.1 問(wèn)題分類的概念
2.2 基于支持向量機(jī)的問(wèn)題分類模型
2.2.1 問(wèn)題特征提取
2.2.2 支持向量機(jī)分類器
2.3 相關(guān)深度學(xué)習(xí)技術(shù)
2.3.1 詞向量
2.3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.3.3 門控循環(huán)單元
2.4 基于雙向門控循環(huán)單元的問(wèn)題分類模型
2.4.1 模型輸入
2.4.2 特征提取
2.4.3 特征融合
2.4.4 問(wèn)題分類
2.4.5 模型訓(xùn)練
2.5 本章小結(jié)
第三章 基于精簡(jiǎn)頻繁子樹(shù)規(guī)則的中心詞提取方法
3.1 引言
3.2 頻繁子樹(shù)模式
3.2.1 問(wèn)題的依存語(yǔ)法樹(shù)
3.2.2 頻繁子樹(shù)
3.2.3 頻繁子樹(shù)規(guī)則
3.3 基于密度的頻繁子樹(shù)模式精簡(jiǎn)方法
3.3.1 頻繁子樹(shù)的精簡(jiǎn)方法
3.3.2 頻繁子樹(shù)規(guī)則的精簡(jiǎn)方法
3.4 中文問(wèn)題中心詞識(shí)別方法
3.4.1 問(wèn)題中心詞的初始標(biāo)注
3.4.2 中文問(wèn)題中心詞的再標(biāo)注
3.5 實(shí)驗(yàn)結(jié)果與分析
3.5.1 實(shí)驗(yàn)設(shè)置
3.5.2 中心詞標(biāo)注性能
3.5.3 頻繁子樹(shù)壓縮效果
3.5.4 規(guī)則精簡(jiǎn)情況對(duì)比
3.6 本章小結(jié)
第四章 基于注意力機(jī)制的中文問(wèn)題分類模型
4.1 引言
4.2 基于依存特征的注意力機(jī)制
4.2.1 問(wèn)題分類時(shí)的注意力分析
4.2.2 注意力機(jī)制模型
4.2.3 依存距離的特征向量
4.3 中文問(wèn)題深度分類模型
4.3.1 輸入數(shù)據(jù)
4.3.2 雙向GRU語(yǔ)義特征計(jì)算模型
4.3.3 注意力計(jì)算模塊
4.3.4 分類輸出層
4.3.5 模型訓(xùn)練
4.4 實(shí)驗(yàn)結(jié)果與分析
4.4.1 實(shí)驗(yàn)設(shè)置
4.4.2 中文問(wèn)題分類性能
4.4.3 注意力機(jī)制效果
4.4.4 詞向量對(duì)于分類性能的影響
4.5 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況
本文編號(hào):3948687
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3948687.html
最近更新
教材專著