基于多輪交互的任務型對話系統(tǒng)關鍵技術研究與應用
發(fā)布時間:2022-02-22 02:52
任務型對話系統(tǒng)(Task-oriented Dialogue System)是自然語言處理中的重要任務之一,在日常生活中的智能客服、個人助手等場景下有廣泛的應用。其任務是根據(jù)用戶的輸入返回系統(tǒng)生成的回復,通過多輪交互的形式實現(xiàn)用戶的請求或者目標。為完成這一任務,經典的神經網絡模型被用于構建任務型對話系統(tǒng)實現(xiàn)對話狀態(tài)追蹤和系統(tǒng)回復生成。但此類方法依舊面臨一些挑戰(zhàn),例如,如何緩解神經網絡構建的對話系統(tǒng)依賴于大量標注數(shù)據(jù)的問題,以及如何在對話系統(tǒng)中有效地引入外部知識以適應復雜場景的問題。為了應對上述挑戰(zhàn),本文提出了基于領域自適應和引入外部知識的任務型對話模型。通過使用領域自適應方法來緩解任務型對話系統(tǒng)中面臨的缺乏標注語料問題,實現(xiàn)任務型對話模型的領域遷移。通過使用一種引入外部知識的方法,將知識圖譜的推理結果加入到對話系統(tǒng)中,使對話系統(tǒng)適應于復雜領域。本文的主要工作包括:1.提出了基于領域自適應的任務型對話模型。該模型可以將訓練得到的源領域知識轉移到訓練樣本有限的目標領域中,從而應對缺乏標注語料的問題。具體而言,本文在序列到序列模型中設計了一個領域特征過濾器,以減少源領域中的無效特征并保留通用...
【文章來源】:華東師范大學上海市211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【部分圖文】:
多輪對話系統(tǒng)流程圖
華東師范大學碩士學位論文11=(·[1,]+)(2-1)其中σ表示sigmod激活函數(shù)。對于輸入門,其決定了要新加入的信息量的多少,決定因素分別為:sigmod函數(shù)輸出的,以及tan函數(shù)輸出的。輸入門的計算公式如下:=(·[1,]+)(2-2)=tan(·[1,]+)(2-3)已知需要上述這些信息后,就可以計算當前單元的信息表示,計算公式如下:=1+(2-4)最后對于輸出門,決定了網絡的輸出h。輸出門也由兩個激活函數(shù)所組成,計算公式表示如下:=([1,]+)(2-5)=tan()(2-6)2.2.3注意力機制在神經網絡相關的模型中,研究者往往會通過引入注意力機制來提升模型對特征提取的能力[46]。在文本處理中,我們可以認為文本的每個部分對于整個句子占的權重不同,文本中一些關鍵詞占的比重較大,而一些虛詞或語氣詞則對語義貢獻很校注意力機制的目標就是對神經網絡中的各個單元不同的權重值,權重值越低,表示該單元的信息所占比重越小;否則該單元的信息就更重要。在一些任務中,若要提取細粒度的信息,那么神經網絡對文本的處理往往需要分層提圖2-2長短期記憶網絡模型結構
華東師范大學碩士學位論文14饋信息。策略的定義是智能體在給定時間的行為方式,即當前狀態(tài)到行為之間的映射關系,或者當前狀態(tài)下智能體可能采取的動作概率分布。獎勵信號定義了強化學習問題的目標,智能體通過不斷探索行動空間,使得獎勵信號最大化。2.4.1馬爾科夫決策過程馬爾可夫決策過程(MarkovDecisionProcess,MDP)是序貫決策的數(shù)學模型。強化學習的問題通?梢赞D化為馬爾可夫決策過程。如圖2-3所示,環(huán)境向智能體給出當前的狀態(tài),然后智能體根據(jù)當前狀態(tài)狀態(tài)和策略π,執(zhí)行動作,接著環(huán)境會對動作作出反饋,并將獎勵返回給智能體,同時更新下一個狀態(tài)。這個過程如此反復,智能體需要在這個過程中不斷學習最優(yōu)策略,以使得累積獎勵最大化。在上述過程中,在策略π下,狀態(tài)的價值函數(shù)就是從狀態(tài)開始,根據(jù)策略π而執(zhí)行動作,直到結束可以獲得的期望累積回報,用()表示,其計算方法可以表示如下:()=[|=]=[∑++1|=∞=0](2-12)其中,表示在時間步獲得的回報,是衰減系數(shù),表示距離當前狀態(tài)越遠的獎勵的系數(shù)越小.圖2-3馬爾科夫決策過程示意圖
本文編號:3638543
【文章來源】:華東師范大學上海市211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【部分圖文】:
多輪對話系統(tǒng)流程圖
華東師范大學碩士學位論文11=(·[1,]+)(2-1)其中σ表示sigmod激活函數(shù)。對于輸入門,其決定了要新加入的信息量的多少,決定因素分別為:sigmod函數(shù)輸出的,以及tan函數(shù)輸出的。輸入門的計算公式如下:=(·[1,]+)(2-2)=tan(·[1,]+)(2-3)已知需要上述這些信息后,就可以計算當前單元的信息表示,計算公式如下:=1+(2-4)最后對于輸出門,決定了網絡的輸出h。輸出門也由兩個激活函數(shù)所組成,計算公式表示如下:=([1,]+)(2-5)=tan()(2-6)2.2.3注意力機制在神經網絡相關的模型中,研究者往往會通過引入注意力機制來提升模型對特征提取的能力[46]。在文本處理中,我們可以認為文本的每個部分對于整個句子占的權重不同,文本中一些關鍵詞占的比重較大,而一些虛詞或語氣詞則對語義貢獻很校注意力機制的目標就是對神經網絡中的各個單元不同的權重值,權重值越低,表示該單元的信息所占比重越小;否則該單元的信息就更重要。在一些任務中,若要提取細粒度的信息,那么神經網絡對文本的處理往往需要分層提圖2-2長短期記憶網絡模型結構
華東師范大學碩士學位論文14饋信息。策略的定義是智能體在給定時間的行為方式,即當前狀態(tài)到行為之間的映射關系,或者當前狀態(tài)下智能體可能采取的動作概率分布。獎勵信號定義了強化學習問題的目標,智能體通過不斷探索行動空間,使得獎勵信號最大化。2.4.1馬爾科夫決策過程馬爾可夫決策過程(MarkovDecisionProcess,MDP)是序貫決策的數(shù)學模型。強化學習的問題通?梢赞D化為馬爾可夫決策過程。如圖2-3所示,環(huán)境向智能體給出當前的狀態(tài),然后智能體根據(jù)當前狀態(tài)狀態(tài)和策略π,執(zhí)行動作,接著環(huán)境會對動作作出反饋,并將獎勵返回給智能體,同時更新下一個狀態(tài)。這個過程如此反復,智能體需要在這個過程中不斷學習最優(yōu)策略,以使得累積獎勵最大化。在上述過程中,在策略π下,狀態(tài)的價值函數(shù)就是從狀態(tài)開始,根據(jù)策略π而執(zhí)行動作,直到結束可以獲得的期望累積回報,用()表示,其計算方法可以表示如下:()=[|=]=[∑++1|=∞=0](2-12)其中,表示在時間步獲得的回報,是衰減系數(shù),表示距離當前狀態(tài)越遠的獎勵的系數(shù)越小.圖2-3馬爾科夫決策過程示意圖
本文編號:3638543
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3638543.html
最近更新
教材專著