在線學(xué)習(xí)聊天機器人回復(fù)安全性的研究
發(fā)布時間:2021-07-21 03:57
隨著人工智能技術(shù)的快速發(fā)展,越來越多的人工智能技術(shù)走出實驗室,在市場和實踐中落地。典型例子有情感陪護類聊天機器人和個人助手類對話系統(tǒng),如Tay、小冰、Alex智能音箱和Siri等。人們感嘆人工智能產(chǎn)品給生活帶來便利的同時,也對人工智能產(chǎn)品的安全性感到擔(dān)憂。事實證明,這些擔(dān)憂并不是多余的。人工智能技術(shù)在產(chǎn)品化的過程中暴露出很多安全問題。其中,針對聊天機器人的在線學(xué)習(xí)漏洞的攻擊就頻頻發(fā)生:黑客或惡意用戶利用聊天系統(tǒng)的在線學(xué)習(xí)接口漏洞,“教”給機器人極端言論,導(dǎo)致聊天機器人產(chǎn)生不當言論而觸犯了當?shù)胤煞ㄒ?guī),導(dǎo)致聊天機器人產(chǎn)品被迫下架整頓,給公司帶來極大損失。此外,由于無法確定模型“學(xué)壞”的具體時刻,因此很難精確地回滾到未受污染的版本,只能回滾到相對早期的版本。如果模型退回到早期的版本就丟失了這期間從在線學(xué)習(xí)接口中學(xué)到的有價值的內(nèi)容,給整頓工作帶來了不小的難度。這使得在線學(xué)習(xí)聊天機器人回復(fù)的安全性成了工業(yè)界和學(xué)術(shù)界亟待解決的問題。因此,本文針對在線學(xué)習(xí)聊天機器人回復(fù)的安全性問題進行了研究。本文的主要工作如下:1.提出了一個針對在線學(xué)習(xí)聊天機器人的安全回復(fù)框架。首先,該框架能夠結(jié)合用戶輸入句的語...
【文章來源】:東華大學(xué)上海市 211工程院校 教育部直屬院校
【文章頁數(shù)】:107 頁
【學(xué)位級別】:博士
【部分圖文】:
在線學(xué)習(xí)流程圖
第一章緒論3復(fù)中?梢,該架構(gòu)下機器人擁有很強的在線學(xué)習(xí)能力。圖1-2.聊天機器人的在線學(xué)習(xí)場景1.2.2在線學(xué)習(xí)聊天機器人的回復(fù)安全性問題在線學(xué)習(xí)技術(shù)使得聊天機器人能夠在與人類的對話中進行學(xué)習(xí),這極大豐富了回復(fù)的多樣性,提升了產(chǎn)品趣味。然而,在實際應(yīng)用中,黑客或惡意用戶會利用在線學(xué)習(xí)接口“教”聊天機器人產(chǎn)生非安全回復(fù)。因此,在線學(xué)習(xí)技術(shù)在改善聊天機器人產(chǎn)品體驗的同時也增添了風(fēng)險。本節(jié)首先給出問題描述,然后討論衡量問題解決效果的評測標準。非安全回復(fù)侵犯言論的定義如下:侵犯言論(OffensiveLanguage)是指粗魯?shù)幕蛄钊朔锤械恼Z言。它可以表現(xiàn)為對某人或某事的貶低,或者被視為對某事物的強烈表達1。與為人熟知的“侵犯言論”這一概括性的定義不同的是,非安全回復(fù)(UnsafeResponse)是本文根據(jù)聊天機器人領(lǐng)域的回復(fù)特點,從詞匯、語義和語境三個方面歸納的定義:定義1.如果聊天機器人的回復(fù)句中包含以下三種情況的任意一種,即認為1http://wikipedia.moesalih.com/Offensive_language
第一章緒論9年來,深度學(xué)習(xí)模型發(fā)展迅速并在各項任務(wù)中取得矚目的成果。其端到端的訓(xùn)練形式可以自動提取文本特征,這使得研究人員只需專注于模型結(jié)構(gòu)本身。文獻[44]使用情感和詞嵌入的長短期記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)模型做仇恨言論檢測。文獻[45]利用雙向循環(huán)網(wǎng)絡(luò)(BidirectionalRecurrentNeuralNetworks,Bi-RNN)和注意力機制來檢測網(wǎng)絡(luò)欺凌,雙向循環(huán)網(wǎng)絡(luò)用于整合雙向的上下文信息,注意力機制反映了句中不同單詞對于分類的貢獻。文獻[46]提出了多層注意力模型(HierarchicalAttentionNetworks)架構(gòu)來捕捉社交媒體會話的層次結(jié)構(gòu)。雖然針對聊天機器人回復(fù)的言論審查與針對用戶生成內(nèi)容的言論審查之間有很多相似之處,但二者也存在如下區(qū)別:1)針對聊天機器人的言論審查不僅需要審查回復(fù)句,還需要結(jié)合用戶輸入句的語境來判斷。而針對用戶生成內(nèi)容的審查無此特性。2)針對聊天機器人的言論審查存在一個從審查器到聊天模型的管道,而針對用戶生成內(nèi)容的審查沒有此管道。換言之,審查系統(tǒng)無權(quán)也無法對用戶的思想和行為做改變,但可以改變聊天機器人的“思想”和行為。1.4研究路線針對在線學(xué)習(xí)聊天機器人回復(fù)安全性問題面臨的挑戰(zhàn)和已有工作的不足,本文首先提出一個在線學(xué)習(xí)聊天機器人的安全回復(fù)系統(tǒng)框架,然后研究此框架的三項關(guān)鍵技術(shù),最后設(shè)計并實現(xiàn)了一個基于此框架的應(yīng)用示例。本文的研究思路如圖1-4所示。圖1-4.在線聊天機器人回復(fù)安全性的研究思路在整體框架上,本文將安全回復(fù)框架分為以下兩個任務(wù):聊天機器人回復(fù)的言論審查和受污染的聊天機器人的言論凈化。為了應(yīng)對只檢測回復(fù)句在
本文編號:3294255
【文章來源】:東華大學(xué)上海市 211工程院校 教育部直屬院校
【文章頁數(shù)】:107 頁
【學(xué)位級別】:博士
【部分圖文】:
在線學(xué)習(xí)流程圖
第一章緒論3復(fù)中?梢,該架構(gòu)下機器人擁有很強的在線學(xué)習(xí)能力。圖1-2.聊天機器人的在線學(xué)習(xí)場景1.2.2在線學(xué)習(xí)聊天機器人的回復(fù)安全性問題在線學(xué)習(xí)技術(shù)使得聊天機器人能夠在與人類的對話中進行學(xué)習(xí),這極大豐富了回復(fù)的多樣性,提升了產(chǎn)品趣味。然而,在實際應(yīng)用中,黑客或惡意用戶會利用在線學(xué)習(xí)接口“教”聊天機器人產(chǎn)生非安全回復(fù)。因此,在線學(xué)習(xí)技術(shù)在改善聊天機器人產(chǎn)品體驗的同時也增添了風(fēng)險。本節(jié)首先給出問題描述,然后討論衡量問題解決效果的評測標準。非安全回復(fù)侵犯言論的定義如下:侵犯言論(OffensiveLanguage)是指粗魯?shù)幕蛄钊朔锤械恼Z言。它可以表現(xiàn)為對某人或某事的貶低,或者被視為對某事物的強烈表達1。與為人熟知的“侵犯言論”這一概括性的定義不同的是,非安全回復(fù)(UnsafeResponse)是本文根據(jù)聊天機器人領(lǐng)域的回復(fù)特點,從詞匯、語義和語境三個方面歸納的定義:定義1.如果聊天機器人的回復(fù)句中包含以下三種情況的任意一種,即認為1http://wikipedia.moesalih.com/Offensive_language
第一章緒論9年來,深度學(xué)習(xí)模型發(fā)展迅速并在各項任務(wù)中取得矚目的成果。其端到端的訓(xùn)練形式可以自動提取文本特征,這使得研究人員只需專注于模型結(jié)構(gòu)本身。文獻[44]使用情感和詞嵌入的長短期記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)模型做仇恨言論檢測。文獻[45]利用雙向循環(huán)網(wǎng)絡(luò)(BidirectionalRecurrentNeuralNetworks,Bi-RNN)和注意力機制來檢測網(wǎng)絡(luò)欺凌,雙向循環(huán)網(wǎng)絡(luò)用于整合雙向的上下文信息,注意力機制反映了句中不同單詞對于分類的貢獻。文獻[46]提出了多層注意力模型(HierarchicalAttentionNetworks)架構(gòu)來捕捉社交媒體會話的層次結(jié)構(gòu)。雖然針對聊天機器人回復(fù)的言論審查與針對用戶生成內(nèi)容的言論審查之間有很多相似之處,但二者也存在如下區(qū)別:1)針對聊天機器人的言論審查不僅需要審查回復(fù)句,還需要結(jié)合用戶輸入句的語境來判斷。而針對用戶生成內(nèi)容的審查無此特性。2)針對聊天機器人的言論審查存在一個從審查器到聊天模型的管道,而針對用戶生成內(nèi)容的審查沒有此管道。換言之,審查系統(tǒng)無權(quán)也無法對用戶的思想和行為做改變,但可以改變聊天機器人的“思想”和行為。1.4研究路線針對在線學(xué)習(xí)聊天機器人回復(fù)安全性問題面臨的挑戰(zhàn)和已有工作的不足,本文首先提出一個在線學(xué)習(xí)聊天機器人的安全回復(fù)系統(tǒng)框架,然后研究此框架的三項關(guān)鍵技術(shù),最后設(shè)計并實現(xiàn)了一個基于此框架的應(yīng)用示例。本文的研究思路如圖1-4所示。圖1-4.在線聊天機器人回復(fù)安全性的研究思路在整體框架上,本文將安全回復(fù)框架分為以下兩個任務(wù):聊天機器人回復(fù)的言論審查和受污染的聊天機器人的言論凈化。為了應(yīng)對只檢測回復(fù)句在
本文編號:3294255
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/3294255.html
最近更新
教材專著