利用深度學(xué)習(xí)融合模型提升文本內(nèi)容安全的研究
發(fā)布時(shí)間:2022-01-11 15:54
互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)中的信息內(nèi)容急速膨脹,導(dǎo)致其中充斥著違法違規(guī)和不良信息,影響互聯(lián)網(wǎng)空間的內(nèi)容安全;诿舾性~匹配的傳統(tǒng)文本內(nèi)容安全識(shí)別方法忽略上下文語義,導(dǎo)致誤報(bào)率高、準(zhǔn)確率低。在分析傳統(tǒng)文本內(nèi)容安全識(shí)別方法的基礎(chǔ)上,提出了利用深度學(xué)習(xí)的融合識(shí)別模型以及模型融合算法流程。深入介紹了基于利用深度學(xué)習(xí)的融合識(shí)別模型的文本內(nèi)容安全識(shí)別系統(tǒng),并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。結(jié)果表明,所提模型可以有效解決傳統(tǒng)識(shí)別方法缺乏語義理解造成誤報(bào)率高的問題,提高了不良信息檢測(cè)的準(zhǔn)確性。
【文章來源】:電信科學(xué). 2020,36(05)
【文章頁數(shù)】:6 頁
【部分圖文】:
傳統(tǒng)文本類內(nèi)容安全識(shí)別系統(tǒng)
在文本類內(nèi)容安全識(shí)別中引入基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,解決傳統(tǒng)文本類內(nèi)容安全識(shí)別方法中的上下文語義理解缺失的問題。神經(jīng)網(wǎng)絡(luò)模型雖然能夠?qū)ξ谋拘畔⑦M(jìn)行上下文關(guān)聯(lián)的語義理解分類[9],然而,由于神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練需要涵蓋每個(gè)類別標(biāo)簽的大量樣本數(shù)據(jù),而違法違規(guī)和不良信息的類別標(biāo)簽存在時(shí)效性,會(huì)經(jīng)常進(jìn)行增刪,在增加某一類別時(shí),相應(yīng)的敏感詞庫能夠快速更新,而對(duì)應(yīng)新類別標(biāo)簽的樣本數(shù)據(jù)卻不那么容易獲得,所以無法做到樣本庫的及時(shí)有效更新。所以,僅依賴神經(jīng)網(wǎng)絡(luò)模型來識(shí)別違法違規(guī)和不良信息,存在漏報(bào)的風(fēng)險(xiǎn)。所以,應(yīng)綜合應(yīng)用敏感詞匹配和神經(jīng)網(wǎng)絡(luò)模型兩種方法,結(jié)合神經(jīng)網(wǎng)絡(luò)和敏感詞匹配兩種方法的融合識(shí)別模型結(jié)構(gòu)如圖2所示。融合識(shí)別模型包含兩種識(shí)別方法:敏感詞匹配和神經(jīng)網(wǎng)絡(luò)模型,通過模型融合算法,發(fā)揮兩種模型的不同優(yōu)勢(shì),實(shí)現(xiàn)兩種方法的有效融合。融合識(shí)別模型既實(shí)現(xiàn)了對(duì)上下文語義的分析,又能夠在樣本庫內(nèi)容不夠完備的情況下,盡可能避免漏報(bào),有效提高識(shí)別準(zhǔn)確率。
步驟2當(dāng)步驟1條件不滿足時(shí),若神經(jīng)網(wǎng)絡(luò)模型識(shí)別為某個(gè)類別的概率值大于或等于80%,同時(shí)敏感詞匹配識(shí)別結(jié)果為正常信息,模型融合算法輸出為神經(jīng)網(wǎng)絡(luò)模型的最大概率值類別。步驟3當(dāng)步驟2條件不滿足時(shí),若神經(jīng)網(wǎng)絡(luò)模型的識(shí)別結(jié)果的某個(gè)類別概率值大于或等于80%,同時(shí)敏感詞匹配識(shí)別結(jié)果為違法違規(guī)或不良信息,模型融合算法同時(shí)輸出神經(jīng)網(wǎng)絡(luò)模型的最大概率值類別和敏感詞匹配識(shí)別結(jié)果。
【參考文獻(xiàn)】:
期刊論文
[1]基于信息貧困理論的青少年信息行為淺析[J]. 劉丹. 時(shí)代金融. 2020(03)
[2]互聯(lián)網(wǎng)數(shù)據(jù)在高校大數(shù)據(jù)平臺(tái)中的應(yīng)用研究[J]. 高顯俊,黃儒樂. 科技資訊. 2019(36)
[3]基于深度學(xué)習(xí)的文本分類系統(tǒng)關(guān)鍵技術(shù)研究與模型驗(yàn)證[J]. 汪少敏,楊迪,任華. 電信科學(xué). 2018(12)
[4]基于LSTM深度學(xué)習(xí)模型的中國電信官方微博用戶情緒分析[J]. 蔡鑫,婁京生. 電信科學(xué). 2017(12)
[5]深度學(xué)習(xí):多層神經(jīng)網(wǎng)絡(luò)的復(fù)興與變革[J]. 山世光,闞美娜,劉昕,劉夢(mèng)怡,鄔書哲. 科技導(dǎo)報(bào). 2016(14)
[6]爬蟲技術(shù)在WAP網(wǎng)站內(nèi)容監(jiān)測(cè)中的應(yīng)用[J]. 鄒一心,范海平. 電信科學(xué). 2010(S1)
本文編號(hào):3583053
【文章來源】:電信科學(xué). 2020,36(05)
【文章頁數(shù)】:6 頁
【部分圖文】:
傳統(tǒng)文本類內(nèi)容安全識(shí)別系統(tǒng)
在文本類內(nèi)容安全識(shí)別中引入基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,解決傳統(tǒng)文本類內(nèi)容安全識(shí)別方法中的上下文語義理解缺失的問題。神經(jīng)網(wǎng)絡(luò)模型雖然能夠?qū)ξ谋拘畔⑦M(jìn)行上下文關(guān)聯(lián)的語義理解分類[9],然而,由于神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練需要涵蓋每個(gè)類別標(biāo)簽的大量樣本數(shù)據(jù),而違法違規(guī)和不良信息的類別標(biāo)簽存在時(shí)效性,會(huì)經(jīng)常進(jìn)行增刪,在增加某一類別時(shí),相應(yīng)的敏感詞庫能夠快速更新,而對(duì)應(yīng)新類別標(biāo)簽的樣本數(shù)據(jù)卻不那么容易獲得,所以無法做到樣本庫的及時(shí)有效更新。所以,僅依賴神經(jīng)網(wǎng)絡(luò)模型來識(shí)別違法違規(guī)和不良信息,存在漏報(bào)的風(fēng)險(xiǎn)。所以,應(yīng)綜合應(yīng)用敏感詞匹配和神經(jīng)網(wǎng)絡(luò)模型兩種方法,結(jié)合神經(jīng)網(wǎng)絡(luò)和敏感詞匹配兩種方法的融合識(shí)別模型結(jié)構(gòu)如圖2所示。融合識(shí)別模型包含兩種識(shí)別方法:敏感詞匹配和神經(jīng)網(wǎng)絡(luò)模型,通過模型融合算法,發(fā)揮兩種模型的不同優(yōu)勢(shì),實(shí)現(xiàn)兩種方法的有效融合。融合識(shí)別模型既實(shí)現(xiàn)了對(duì)上下文語義的分析,又能夠在樣本庫內(nèi)容不夠完備的情況下,盡可能避免漏報(bào),有效提高識(shí)別準(zhǔn)確率。
步驟2當(dāng)步驟1條件不滿足時(shí),若神經(jīng)網(wǎng)絡(luò)模型識(shí)別為某個(gè)類別的概率值大于或等于80%,同時(shí)敏感詞匹配識(shí)別結(jié)果為正常信息,模型融合算法輸出為神經(jīng)網(wǎng)絡(luò)模型的最大概率值類別。步驟3當(dāng)步驟2條件不滿足時(shí),若神經(jīng)網(wǎng)絡(luò)模型的識(shí)別結(jié)果的某個(gè)類別概率值大于或等于80%,同時(shí)敏感詞匹配識(shí)別結(jié)果為違法違規(guī)或不良信息,模型融合算法同時(shí)輸出神經(jīng)網(wǎng)絡(luò)模型的最大概率值類別和敏感詞匹配識(shí)別結(jié)果。
【參考文獻(xiàn)】:
期刊論文
[1]基于信息貧困理論的青少年信息行為淺析[J]. 劉丹. 時(shí)代金融. 2020(03)
[2]互聯(lián)網(wǎng)數(shù)據(jù)在高校大數(shù)據(jù)平臺(tái)中的應(yīng)用研究[J]. 高顯俊,黃儒樂. 科技資訊. 2019(36)
[3]基于深度學(xué)習(xí)的文本分類系統(tǒng)關(guān)鍵技術(shù)研究與模型驗(yàn)證[J]. 汪少敏,楊迪,任華. 電信科學(xué). 2018(12)
[4]基于LSTM深度學(xué)習(xí)模型的中國電信官方微博用戶情緒分析[J]. 蔡鑫,婁京生. 電信科學(xué). 2017(12)
[5]深度學(xué)習(xí):多層神經(jīng)網(wǎng)絡(luò)的復(fù)興與變革[J]. 山世光,闞美娜,劉昕,劉夢(mèng)怡,鄔書哲. 科技導(dǎo)報(bào). 2016(14)
[6]爬蟲技術(shù)在WAP網(wǎng)站內(nèi)容監(jiān)測(cè)中的應(yīng)用[J]. 鄒一心,范海平. 電信科學(xué). 2010(S1)
本文編號(hào):3583053
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3583053.html
最近更新
教材專著