基于ALBERT-BiLSTM模型的微博謠言識別方法研究

發(fā)布時間：2020-12-04 08:54

　　隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡上的信息劇增,如何識別網(wǎng)絡謠言也成為當下研究熱點之一。針對謠言初期的傳播具有一定隱蔽性的特征,結合預訓練語言模型ALBERT和雙向長短期記憶網(wǎng)絡設計了ALBERT-BiLSTM謠言識別模型,通過挖掘謠言內(nèi)容的深層文本特征進行識別,使之在謠言初期也能應用。五折交叉驗證實驗結果表明,ALBERTBiLSTM模型在實驗組中達到了最高的準確率98.095%、召回率98.014%和F1值98.098%,能夠較好地識別微博謠言,對維護網(wǎng)絡信息安全具有重要意義。

【文章來源】：計算機時代. 2020年08期第21-26頁

【文章頁數(shù)】：6 頁

【部分圖文】：

謠言識別流程圖

模型結構,語句,單詞,概率

BERT (Bidirectional Encoder Representation from Transformers）是google的Devlin J等[10]于2018年10月提出的新型預訓練模型，在當時11項自然語言處理任務中刷新了記錄。其結構如圖2所示。BERT模型是采用了雙向Transformer編碼器，其訓練方法分為兩步：一是通過隨機MASK訓練集中15%的詞。其中被打上[MASK]標記的詞有80%的概率直接替換為[MASK]標簽，10%概率替換為任意單詞，10%概率保留原始Token，讓模型預測被MASK的單詞含義；二是通過從訓練文本中挑選語句對，其中包括連續(xù)的語句對和非連續(xù)的語句對，讓模型來判斷語句對是否呈“上下句”關系。

結構圖,結構圖,單元,注意力

BERT模型中Transformer具體單元結構如圖3所示。在輸入文本后先進行詞嵌入（Embedding）處理，將文本詞向量化，再對其進行位置信息編碼（Positional Encoding）。為了充分考慮每一個句子中不同詞語之間的語義和語法聯(lián)系，設計了自注意力層（Self-Attention），同時考慮到不同head中單詞的Attention（側(cè)重點）不同，通過結合多個自注意力層形成多頭（Multi-Head）機制來使模型獲得更大容量�；诙囝^機制的自注意力層的輸出會經(jīng)過Add&Norm層，其中Add表示殘差連接（Residual Connection),Norm表示層歸一化（Layer Normalization），通過將經(jīng)過位置信息編碼后的輸出與多頭機制自注意力層的輸出相加，再進行層歸一化操作，這樣可以做到僅關注差異部分并使模型更容易訓練。Add&Norm層的輸出傳遞到前饋神經(jīng)網(wǎng)絡層（Feed Forward），再經(jīng)過Add&Norm層后輸出。ALBERT(ALITE BERT）是GOOLE公司基于BERT基礎上進行了一系列改造后的預訓練小模型[11]，該模型參數(shù)量相比傳統(tǒng)BERT大幅度降低，運行速度提高，在一定程度上突破了硬件的限制，并在許多自然語言處理任務上發(fā)揮出色。

【參考文獻】：
期刊論文
[1]基于LDA和隨機森林的微博謠言識別研究——以2016年霧霾謠言為例[J]. 曾子明,王婧. 情報學報. 2019(01)

碩士論文
[1]微博謠言識別模型研究[D]. 王勤穎.山東師范大學 2019
[2]基于敏感詞庫的微博謠言識別研究[D]. 林榮蓉.中南財經(jīng)政法大學 2018
[3]新浪微博謠言識別研究[D]. 楊真.鄭州大學 2018

本文編號：2897315

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/xinwenchuanbolunwen/2897315.html

上一篇：縣級融媒體中心的效用發(fā)揮及提升路徑——基于新冠肺炎疫情期間義烏市融媒體中心的個案研究
下一篇：波蘭媒體中的中國形象：波蘭媒體新聞報道的框架分析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于ALBERT-BiLSTM模型的微博謠言識別方法研究