基于文本蘊(yùn)含識別的答案驗證技術(shù)研究
發(fā)布時間:2022-10-05 17:10
近年來隨著人工智能的火熱,自動問答技術(shù)得到了廣泛的關(guān)注。問答系統(tǒng)和傳統(tǒng)的搜素引擎根本性的不同在于問答系統(tǒng)可以返回給用戶精確的答案,而不是候選的一些列表,為了確保答案的準(zhǔn)確,問答系統(tǒng)在返回答案給用戶前需要對返回結(jié)果進(jìn)行驗證,如何應(yīng)用文本蘊(yùn)含識別的方法進(jìn)行答案驗證即為本課題的主要研究內(nèi)容。因為缺乏大規(guī)模的中文蘊(yùn)含語料,為應(yīng)用基于深度學(xué)習(xí)的文本蘊(yùn)含識別方法,本課題首先采用百度翻譯翻譯英文的SNLI語料到中文,構(gòu)建中文的蘊(yùn)含語料。然后我們根據(jù)翻譯的中文蘊(yùn)含語料訓(xùn)練文本蘊(yùn)含識別的模型。本課題分別訓(xùn)練了三種基于匹配編碼的文本蘊(yùn)含識別模型,應(yīng)用于后面答案驗證技術(shù)的研究。問答系統(tǒng)的返回結(jié)果主要分為詞匯級和句子級的答案,本課題針對詞匯級和句子級的答案分別進(jìn)行研究。針對詞匯級的答案,答案可能來自于知識庫、百度知道,我們采用知識庫三元組拼接、知道問句和答案改寫成陳述句做為蘊(yùn)含前件,問題和答案改寫為陳述句做為蘊(yùn)含后件判斷蘊(yùn)含進(jìn)行答案驗證。針對句子級的答案,答案可能來自百度知道和百度百科,采用答案作為蘊(yùn)含前件判斷蘊(yùn)含、由答案生成問題再判斷問句間的蘊(yùn)含關(guān)系進(jìn)行答案驗證。此外,有些問答系統(tǒng)返回的答案既不是詞匯也不是...
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景及研究目的和意義
1.1.1 課題背景
1.1.2 課題研究的目的和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.2.3 國內(nèi)外研究現(xiàn)狀簡析
1.3 本文研究內(nèi)容及章節(jié)安排
1.3.1 本文研究內(nèi)容
1.3.2 本文章節(jié)安排
第2章 詞匯級答案的答案驗證研究
2.1 引言
2.2 數(shù)據(jù)集構(gòu)建
2.2.1 訓(xùn)練數(shù)據(jù)集-SNLI
2.2.2 詞匯級答案測試集構(gòu)建
2.3 基于深度學(xué)習(xí)的文本蘊(yùn)含識別的兩類模型
2.3.1 基于句子編碼的文本蘊(yùn)含識別模型
2.3.2 基于匹配編碼的文本蘊(yùn)含識別模型
2.4 基于匹配編碼文本蘊(yùn)含識別的詞匯級答案驗證研究
2.4.1 分解注意力模型介紹
2.4.2 增強(qiáng)序列推斷模型介紹
2.4.3 依賴閱讀雙向LSTM模型介紹
2.4.4 詞匯級答案驗證方法
2.5 實驗與分析
2.5.1 實驗設(shè)置
2.5.2 實驗結(jié)果與分析
2.6 本章小結(jié)
第3章 句子級答案的答案驗證研究
3.1 引言
3.2 問句生成
3.2.1 序列到序列模型概述
3.2.2 注意力機(jī)制
3.3 基于序列到序列模型的句子級答案驗證
3.3.1 訓(xùn)練集構(gòu)建-QNLI
3.3.2 句子級答案測試集構(gòu)建
3.3.3 句子級答案驗證方法
3.4 實驗結(jié)果與分析
3.4.1 實驗設(shè)置
3.4.2 實驗結(jié)果與分析
3.5 答案驗證模塊對問答系統(tǒng)的作用
3.5.1 深度問答系統(tǒng)
3.5.2 實驗結(jié)果與分析
3.6 本章小結(jié)
第4章 段落級答案的答案驗證研究
4.1 引言
4.2 基于文本蘊(yùn)含對齊和關(guān)鍵詞的段落級答案驗證研究
4.2.1 文本蘊(yùn)含中的對齊
4.2.2 關(guān)鍵詞獲取
4.2.3 基于文本蘊(yùn)含對齊和關(guān)鍵詞的段落級答案驗證方法
4.3 實驗結(jié)果與分析
4.3.1 段落級答案測試集的構(gòu)建
4.3.2 實驗結(jié)果及分析
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于知識話題模型的文本蘊(yùn)涵識別[J]. 任函,盛雅琦,馮文賀,劉茂福. 中文信息學(xué)報. 2015(06)
[2]基于文本蘊(yùn)含的選擇類問題解答技術(shù)研究[J]. 王寶鑫,鄭德權(quán),王曉雪,趙姍姍,趙鐵軍. 北京大學(xué)學(xué)報(自然科學(xué)版). 2016(01)
[3]多特征文本蘊(yùn)涵識別研究[J]. 趙紅燕,劉鵬,李茹,王智強(qiáng). 中文信息學(xué)報. 2014(02)
[4]基于FrameNet框架關(guān)系的文本蘊(yùn)含識別[J]. 張鵬,李國臣,李茹,劉海靜,石向榮,Collin Baker. 中文信息學(xué)報. 2012(02)
碩士論文
[1]面向問答的問句關(guān)鍵詞提取技術(shù)研究[D]. 王煦祥.哈爾濱工業(yè)大學(xué) 2016
本文編號:3686174
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景及研究目的和意義
1.1.1 課題背景
1.1.2 課題研究的目的和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.2.3 國內(nèi)外研究現(xiàn)狀簡析
1.3 本文研究內(nèi)容及章節(jié)安排
1.3.1 本文研究內(nèi)容
1.3.2 本文章節(jié)安排
第2章 詞匯級答案的答案驗證研究
2.1 引言
2.2 數(shù)據(jù)集構(gòu)建
2.2.1 訓(xùn)練數(shù)據(jù)集-SNLI
2.2.2 詞匯級答案測試集構(gòu)建
2.3 基于深度學(xué)習(xí)的文本蘊(yùn)含識別的兩類模型
2.3.1 基于句子編碼的文本蘊(yùn)含識別模型
2.3.2 基于匹配編碼的文本蘊(yùn)含識別模型
2.4 基于匹配編碼文本蘊(yùn)含識別的詞匯級答案驗證研究
2.4.1 分解注意力模型介紹
2.4.2 增強(qiáng)序列推斷模型介紹
2.4.3 依賴閱讀雙向LSTM模型介紹
2.4.4 詞匯級答案驗證方法
2.5 實驗與分析
2.5.1 實驗設(shè)置
2.5.2 實驗結(jié)果與分析
2.6 本章小結(jié)
第3章 句子級答案的答案驗證研究
3.1 引言
3.2 問句生成
3.2.1 序列到序列模型概述
3.2.2 注意力機(jī)制
3.3 基于序列到序列模型的句子級答案驗證
3.3.1 訓(xùn)練集構(gòu)建-QNLI
3.3.2 句子級答案測試集構(gòu)建
3.3.3 句子級答案驗證方法
3.4 實驗結(jié)果與分析
3.4.1 實驗設(shè)置
3.4.2 實驗結(jié)果與分析
3.5 答案驗證模塊對問答系統(tǒng)的作用
3.5.1 深度問答系統(tǒng)
3.5.2 實驗結(jié)果與分析
3.6 本章小結(jié)
第4章 段落級答案的答案驗證研究
4.1 引言
4.2 基于文本蘊(yùn)含對齊和關(guān)鍵詞的段落級答案驗證研究
4.2.1 文本蘊(yùn)含中的對齊
4.2.2 關(guān)鍵詞獲取
4.2.3 基于文本蘊(yùn)含對齊和關(guān)鍵詞的段落級答案驗證方法
4.3 實驗結(jié)果與分析
4.3.1 段落級答案測試集的構(gòu)建
4.3.2 實驗結(jié)果及分析
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于知識話題模型的文本蘊(yùn)涵識別[J]. 任函,盛雅琦,馮文賀,劉茂福. 中文信息學(xué)報. 2015(06)
[2]基于文本蘊(yùn)含的選擇類問題解答技術(shù)研究[J]. 王寶鑫,鄭德權(quán),王曉雪,趙姍姍,趙鐵軍. 北京大學(xué)學(xué)報(自然科學(xué)版). 2016(01)
[3]多特征文本蘊(yùn)涵識別研究[J]. 趙紅燕,劉鵬,李茹,王智強(qiáng). 中文信息學(xué)報. 2014(02)
[4]基于FrameNet框架關(guān)系的文本蘊(yùn)含識別[J]. 張鵬,李國臣,李茹,劉海靜,石向榮,Collin Baker. 中文信息學(xué)報. 2012(02)
碩士論文
[1]面向問答的問句關(guān)鍵詞提取技術(shù)研究[D]. 王煦祥.哈爾濱工業(yè)大學(xué) 2016
本文編號:3686174
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3686174.html
最近更新
教材專著