基于深層雙向轉(zhuǎn)換編碼器的謠言檢測方法
發(fā)布時間:2021-10-08 18:25
微博,Twitter,微信等網(wǎng)絡(luò)社交平臺的發(fā)展徹底改變了人們的交流方式,在方便人們獲取最新信息的同時,謠言和虛假信息在網(wǎng)絡(luò)平臺上的大量傳播對個人,社會甚至國家?guī)淼奈:σ踩找婕觿。由于信息的傳播速度極快,想通過人工方式及時發(fā)現(xiàn)謠言或虛假信息是不現(xiàn)實的,因此謠言的自動檢測成為近年來的研究熱點,F(xiàn)有的謠言檢測方法主要是提取多特征用于分類,但這并不適用于謠言的早期檢測,并且對于長文本信息,常用的循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)也不能很好的理解語義。為解決現(xiàn)有的謠言檢測研究中存在的問題,本文提出了一種新的謠言檢測方法,通過分析文本的內(nèi)容特征來實現(xiàn)謠言的早期檢測任務(wù)。本文借鑒了預(yù)訓(xùn)練的思想,進一步提高謠言檢測模型的檢測的時效性,并且采用了深層雙向的轉(zhuǎn)換編碼器用于特征提取,有效地解決了長文本中的遠距離特性依賴問題,因此能更加準確地理解語義,提高謠言檢測的準確率。為進一步提升模型的檢測性能,本文還對原始數(shù)據(jù)做了數(shù)據(jù)增強處理。本文在Twitter謠言數(shù)據(jù)集和FakeNewsNet虛假新聞數(shù)據(jù)集上進行了實驗,結(jié)果表明,本文提出的謠言檢測模型準確率和F1-評測值都要優(yōu)于當前的基準模型。
【文章來源】:浙江工商大學(xué)浙江省
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
謠言檢測方法分類示意圖
234.1.2模型整體架構(gòu)本文提出的謠言檢測方法采用的是一種深層雙向的轉(zhuǎn)換編碼器架構(gòu)用于特征提取,最后通過一個前饋神經(jīng)網(wǎng)絡(luò)(Feed-forwardNeuralNetwork)加上一個softmax歸一化的輸出層組合來完成謠言的分類預(yù)測。本文為了能夠?qū)崿F(xiàn)謠言的早期檢測,所用到的有標簽的訓(xùn)練數(shù)據(jù)集中的每一條數(shù)據(jù)是由文本信息和信息所對應(yīng)標簽組成,模型的輸入數(shù)據(jù)只是信息的內(nèi)容本身,不包含例如信息的發(fā)布者等其它相關(guān)信息,模型的輸出則是預(yù)測的輸入文本的類別標簽值(“謠言”或者“非謠言”)。本文提出的謠言檢測模型的整體架構(gòu)如圖4.1所示,按照模型內(nèi)部的運行流程,該模型可以大致分為四個部分:第一部分是對數(shù)據(jù)文本的處理,首先對輸入文本做了數(shù)據(jù)清洗,再利用同義詞替換的方式做了數(shù)據(jù)增強,最后對文本進行分詞;第二部分是嵌入層,將分詞之后的每個標記符號變?yōu)檗D(zhuǎn)換器的輸入向量表示;第三部分是雙向轉(zhuǎn)換編碼模塊,主要是做文本特征的抽取和文本類別的預(yù)測;第四部分是分類輸出,通過得到的預(yù)測值來判斷輸入信息的類別。接下來本文將對模型的這四個部分的具體實現(xiàn)細節(jié)做進一步的描述。圖4.1謠言檢測模型的整體架構(gòu)4.2嵌入層基于轉(zhuǎn)換編碼器的謠言檢測模型是一種句子級別的二分類模型,模型的輸入是一個線性序列,輸入的數(shù)據(jù)內(nèi)容是是單個句子文本。和自然語言處理里所用到的經(jīng)典深度學(xué)習(xí)模型一樣,本文所用到的預(yù)訓(xùn)練語言模型BERT會將輸入文本序列中的每一個詞送到詞嵌入層,從而將序列中每一個詞轉(zhuǎn)換成對應(yīng)向量表示。但不同于其它模型的地方是BERT在詞嵌入層的基礎(chǔ)上又增加了兩個特別的嵌入層,分別是句子切分嵌入層和位置嵌入層。最后在這三個嵌入層中得到的三種向量表示會通過元素簡單求和,得到接下去
詞嵌入層的輸出結(jié)果
【參考文獻】:
期刊論文
[1]在線社會網(wǎng)絡(luò)謠言檢測綜述[J]. 陳燕方,李志宇,梁循,齊金山. 計算機學(xué)報. 2018(07)
本文編號:3424713
【文章來源】:浙江工商大學(xué)浙江省
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
謠言檢測方法分類示意圖
234.1.2模型整體架構(gòu)本文提出的謠言檢測方法采用的是一種深層雙向的轉(zhuǎn)換編碼器架構(gòu)用于特征提取,最后通過一個前饋神經(jīng)網(wǎng)絡(luò)(Feed-forwardNeuralNetwork)加上一個softmax歸一化的輸出層組合來完成謠言的分類預(yù)測。本文為了能夠?qū)崿F(xiàn)謠言的早期檢測,所用到的有標簽的訓(xùn)練數(shù)據(jù)集中的每一條數(shù)據(jù)是由文本信息和信息所對應(yīng)標簽組成,模型的輸入數(shù)據(jù)只是信息的內(nèi)容本身,不包含例如信息的發(fā)布者等其它相關(guān)信息,模型的輸出則是預(yù)測的輸入文本的類別標簽值(“謠言”或者“非謠言”)。本文提出的謠言檢測模型的整體架構(gòu)如圖4.1所示,按照模型內(nèi)部的運行流程,該模型可以大致分為四個部分:第一部分是對數(shù)據(jù)文本的處理,首先對輸入文本做了數(shù)據(jù)清洗,再利用同義詞替換的方式做了數(shù)據(jù)增強,最后對文本進行分詞;第二部分是嵌入層,將分詞之后的每個標記符號變?yōu)檗D(zhuǎn)換器的輸入向量表示;第三部分是雙向轉(zhuǎn)換編碼模塊,主要是做文本特征的抽取和文本類別的預(yù)測;第四部分是分類輸出,通過得到的預(yù)測值來判斷輸入信息的類別。接下來本文將對模型的這四個部分的具體實現(xiàn)細節(jié)做進一步的描述。圖4.1謠言檢測模型的整體架構(gòu)4.2嵌入層基于轉(zhuǎn)換編碼器的謠言檢測模型是一種句子級別的二分類模型,模型的輸入是一個線性序列,輸入的數(shù)據(jù)內(nèi)容是是單個句子文本。和自然語言處理里所用到的經(jīng)典深度學(xué)習(xí)模型一樣,本文所用到的預(yù)訓(xùn)練語言模型BERT會將輸入文本序列中的每一個詞送到詞嵌入層,從而將序列中每一個詞轉(zhuǎn)換成對應(yīng)向量表示。但不同于其它模型的地方是BERT在詞嵌入層的基礎(chǔ)上又增加了兩個特別的嵌入層,分別是句子切分嵌入層和位置嵌入層。最后在這三個嵌入層中得到的三種向量表示會通過元素簡單求和,得到接下去
詞嵌入層的輸出結(jié)果
【參考文獻】:
期刊論文
[1]在線社會網(wǎng)絡(luò)謠言檢測綜述[J]. 陳燕方,李志宇,梁循,齊金山. 計算機學(xué)報. 2018(07)
本文編號:3424713
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3424713.html
最近更新
教材專著