基于深度學(xué)習(xí)的垃圾短信智能識別算法研究
發(fā)布時(shí)間:2021-02-21 03:02
垃圾短信(Spam,Messages,SM)是指未經(jīng)過用戶同意向用戶發(fā)送不愿接收的商業(yè)廣告或者不符合法律規(guī)范的短信。隨著手機(jī)的普及,垃圾短信在日常生活日益泛濫,已經(jīng)嚴(yán)重的影響到了人們的正常生活娛樂,乃至社會的穩(wěn)定。中國移動在2017年月攔截垃圾短信就已經(jīng)達(dá)到2億多條,這個(gè)數(shù)量隨著時(shí)代的變化也在以倍數(shù)的速度不斷遞增,如今每個(gè)人月平均收到的垃圾短信也達(dá)到了9條左右。大數(shù)據(jù)時(shí)代的到來使得大量個(gè)人信息數(shù)據(jù)得以沉淀和積累,但是龐大的數(shù)據(jù)量缺乏有效的整理規(guī)范,在面對量級如此巨大的短信數(shù)據(jù)時(shí),為了保證更良好的用戶體驗(yàn),如何從數(shù)據(jù)中挖掘出更多有意義的信息為人們免受垃圾短信騷擾成為當(dāng)前亟待解決的問題。隨著深度學(xué)習(xí)和自然語言處理領(lǐng)域的高速發(fā)展,深度學(xué)習(xí)模型在提取句子信息的能力進(jìn)一步得到肯定,本文針對垃圾短信分類中的深度學(xué)習(xí)方法進(jìn)行深入的研究,具體研究內(nèi)容及結(jié)果如下:首先對垃圾短信預(yù)處理時(shí),發(fā)現(xiàn)數(shù)據(jù)噪音數(shù)據(jù)大和jieba分詞不能識別新詞。針對這一個(gè)問題,數(shù)據(jù)采用流程化處理,包括“繁體字轉(zhuǎn)換,數(shù)字和特殊符號替換,錯別字糾正”三部分。對未能識別的新詞,引入了改進(jìn)的新詞識別工具,將獲得的新詞字典導(dǎo)入jieba自定...
【文章來源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)挖掘說明Figure2-1Datamininginstructions
北京工業(yè)大學(xué)工程碩士專業(yè)學(xué)位論文度擬合。其中‘l’損失函數(shù),可以采用泰勒展開,進(jìn)行計(jì)算。 ( △ ) ( ) ( )△ ( ) △ (2 = ( 1) ( ) , = ( 1) ( ) ,對原損失函數(shù)替: ( )= ( ) ( ) ( ) ( ) 于 ( ) 的結(jié)果是一個(gè)定值,不存在優(yōu)化的問題,所以損失函數(shù)變成 ( )= ∑ ( ) ( ) ( ) (2下來定義樹的結(jié)構(gòu),W 表示每顆 CART 樹的權(quán)重,q 表示 CART 樹的結(jié)構(gòu)。體 ( )表示落在哪個(gè)葉子節(jié)點(diǎn)上了。
圖 2-4 xgboost 樹的復(fù)雜度定義Figure 2-4 Definition of the complexity of the xgboost tree樹結(jié)構(gòu)和樹的復(fù)雜度公式代入損失函數(shù)中,我們得到一個(gè)很簡潔的結(jié)果。 ( )= ∑ ( ) ( ) T ∑ = ∑ ∑ ∑ (通過對損失函數(shù)求導(dǎo)數(shù),得到權(quán)重的表示方式,最后得到一個(gè)關(guān)于一階梯二階梯度的表示函數(shù)。
【參考文獻(xiàn)】:
期刊論文
[1]壓降工信部12321平臺垃圾短信被舉報(bào)率淺談[J]. 張俊. 信息通信. 2017(07)
[2]2016年12月12321受理網(wǎng)絡(luò)不良與垃圾信息舉報(bào)數(shù)據(jù)分析[J]. 互聯(lián)網(wǎng)天地. 2017(01)
[3]12321舉報(bào)中心正式開通不良和垃圾彩信舉報(bào)通道[J]. 中國信息安全. 2012(11)
[4]垃圾短信治理對策研究[J]. 黃良友. 重慶郵電大學(xué)學(xué)報(bào)(社會科學(xué)版). 2010(03)
碩士論文
[1]基于文本分類的多層次垃圾短信過濾系統(tǒng)研究[D]. 李雪梅.重慶理工大學(xué) 2012
本文編號:3043750
【文章來源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)挖掘說明Figure2-1Datamininginstructions
北京工業(yè)大學(xué)工程碩士專業(yè)學(xué)位論文度擬合。其中‘l’損失函數(shù),可以采用泰勒展開,進(jìn)行計(jì)算。 ( △ ) ( ) ( )△ ( ) △ (2 = ( 1) ( ) , = ( 1) ( ) ,對原損失函數(shù)替: ( )= ( ) ( ) ( ) ( ) 于 ( ) 的結(jié)果是一個(gè)定值,不存在優(yōu)化的問題,所以損失函數(shù)變成 ( )= ∑ ( ) ( ) ( ) (2下來定義樹的結(jié)構(gòu),W 表示每顆 CART 樹的權(quán)重,q 表示 CART 樹的結(jié)構(gòu)。體 ( )表示落在哪個(gè)葉子節(jié)點(diǎn)上了。
圖 2-4 xgboost 樹的復(fù)雜度定義Figure 2-4 Definition of the complexity of the xgboost tree樹結(jié)構(gòu)和樹的復(fù)雜度公式代入損失函數(shù)中,我們得到一個(gè)很簡潔的結(jié)果。 ( )= ∑ ( ) ( ) T ∑ = ∑ ∑ ∑ (通過對損失函數(shù)求導(dǎo)數(shù),得到權(quán)重的表示方式,最后得到一個(gè)關(guān)于一階梯二階梯度的表示函數(shù)。
【參考文獻(xiàn)】:
期刊論文
[1]壓降工信部12321平臺垃圾短信被舉報(bào)率淺談[J]. 張俊. 信息通信. 2017(07)
[2]2016年12月12321受理網(wǎng)絡(luò)不良與垃圾信息舉報(bào)數(shù)據(jù)分析[J]. 互聯(lián)網(wǎng)天地. 2017(01)
[3]12321舉報(bào)中心正式開通不良和垃圾彩信舉報(bào)通道[J]. 中國信息安全. 2012(11)
[4]垃圾短信治理對策研究[J]. 黃良友. 重慶郵電大學(xué)學(xué)報(bào)(社會科學(xué)版). 2010(03)
碩士論文
[1]基于文本分類的多層次垃圾短信過濾系統(tǒng)研究[D]. 李雪梅.重慶理工大學(xué) 2012
本文編號:3043750
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3043750.html
最近更新
教材專著