天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 新聞傳播論文 >

基于ALBERT-BiLSTM模型的微博謠言識別方法研究

發(fā)布時間:2020-12-04 08:54
  隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡上的信息劇增,如何識別網(wǎng)絡謠言也成為當下研究熱點之一。針對謠言初期的傳播具有一定隱蔽性的特征,結合預訓練語言模型ALBERT和雙向長短期記憶網(wǎng)絡設計了ALBERT-BiLSTM謠言識別模型,通過挖掘謠言內(nèi)容的深層文本特征進行識別,使之在謠言初期也能應用。五折交叉驗證實驗結果表明,ALBERTBiLSTM模型在實驗組中達到了最高的準確率98.095%、召回率98.014%和F1值98.098%,能夠較好地識別微博謠言,對維護網(wǎng)絡信息安全具有重要意義。 

【文章來源】:計算機時代. 2020年08期 第21-26頁

【文章頁數(shù)】:6 頁

【部分圖文】:

基于ALBERT-BiLSTM模型的微博謠言識別方法研究


謠言識別流程圖

模型結構,語句,單詞,概率


BERT (Bidirectional Encoder Representation from Transformers)是google的Devlin J等[10]于2018年10月提出的新型預訓練模型,在當時11項自然語言處理任務中刷新了記錄。其結構如圖2所示。BERT模型是采用了雙向Transformer編碼器,其訓練方法分為兩步:一是通過隨機MASK訓練集中15%的詞。其中被打上[MASK]標記的詞有80%的概率直接替換為[MASK]標簽,10%概率替換為任意單詞,10%概率保留原始Token,讓模型預測被MASK的單詞含義;二是通過從訓練文本中挑選語句對,其中包括連續(xù)的語句對和非連續(xù)的語句對,讓模型來判斷語句對是否呈“上下句”關系。

結構圖,結構圖,單元,注意力


BERT模型中Transformer具體單元結構如圖3所示。在輸入文本后先進行詞嵌入(Embedding)處理,將文本詞向量化,再對其進行位置信息編碼(Positional Encoding)。為了充分考慮每一個句子中不同詞語之間的語義和語法聯(lián)系,設計了自注意力層(Self-Attention),同時考慮到不同head中單詞的Attention(側(cè)重點)不同,通過結合多個自注意力層形成多頭(Multi-Head)機制來使模型獲得更大容量;诙囝^機制的自注意力層的輸出會經(jīng)過Add&Norm層,其中Add表示殘差連接(Residual Connection),Norm表示層歸一化(Layer Normalization),通過將經(jīng)過位置信息編碼后的輸出與多頭機制自注意力層的輸出相加,再進行層歸一化操作,這樣可以做到僅關注差異部分并使模型更容易訓練。Add&Norm層的輸出傳遞到前饋神經(jīng)網(wǎng)絡層(Feed Forward),再經(jīng)過Add&Norm層后輸出。ALBERT(ALITE BERT)是GOOLE公司基于BERT基礎上進行了一系列改造后的預訓練小模型[11],該模型參數(shù)量相比傳統(tǒng)BERT大幅度降低,運行速度提高,在一定程度上突破了硬件的限制,并在許多自然語言處理任務上發(fā)揮出色。

【參考文獻】:
期刊論文
[1]基于LDA和隨機森林的微博謠言識別研究——以2016年霧霾謠言為例[J]. 曾子明,王婧.  情報學報. 2019(01)

碩士論文
[1]微博謠言識別模型研究[D]. 王勤穎.山東師范大學 2019
[2]基于敏感詞庫的微博謠言識別研究[D]. 林榮蓉.中南財經(jīng)政法大學 2018
[3]新浪微博謠言識別研究[D]. 楊真.鄭州大學 2018



本文編號:2897315

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/xinwenchuanbolunwen/2897315.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶37f93***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com