天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

不良短文本變體的識(shí)別

發(fā)布時(shí)間:2021-01-20 04:42
  互聯(lián)網(wǎng)技術(shù)的發(fā)展給人們的生活帶來(lái)極大的便利,人們通過(guò)網(wǎng)絡(luò)獲取信息變得越來(lái)越便捷。大量的信息充斥著我們生活的同時(shí),一些不良分子出于利益的目的,發(fā)布了一些包含有色情暴力、政治敏感和廣告促銷等不良敏感信息。這些不良信息會(huì)對(duì)人們的財(cái)產(chǎn)和身心健康造成惡劣的影響,也給社會(huì)和國(guó)家?guī)?lái)不穩(wěn)定因素,F(xiàn)有的網(wǎng)絡(luò)監(jiān)管平臺(tái)通過(guò)設(shè)置敏感詞的關(guān)鍵詞表來(lái)對(duì)這些不良信息進(jìn)行過(guò)濾,這種方法對(duì)不良文本中使用的規(guī)范敏感詞的識(shí)別效果很好,實(shí)現(xiàn)起來(lái)也比較簡(jiǎn)單,然而近年來(lái),很多惡意的發(fā)布者為了避開(kāi)網(wǎng)絡(luò)監(jiān)管平臺(tái)的審查,會(huì)將不良文本中的敏感詞進(jìn)行變體,這些變體的敏感詞特征多樣,含義隱晦,給網(wǎng)絡(luò)監(jiān)管平臺(tái)的識(shí)別帶來(lái)極大的挑戰(zhàn)。針對(duì)上述的問(wèn)題,本文通過(guò)研究不良文本變體特點(diǎn)、分析現(xiàn)有的過(guò)濾算法優(yōu)缺點(diǎn)的基礎(chǔ)之上,提出了基于Stacking組合的不良文本變體的識(shí)別模型,并在這基礎(chǔ)上進(jìn)行改進(jìn)。首先,目前用于不良文本變體識(shí)別任務(wù)的開(kāi)放語(yǔ)料相對(duì)匱乏,本文收集了網(wǎng)絡(luò)上一些不良文本及其變體,然后通過(guò)去除非法字符、中文分詞等文本預(yù)處理,來(lái)構(gòu)建文本的數(shù)據(jù)集。接著在研究詞向量的離散表示和分布表示的基礎(chǔ)之上,結(jié)合不良文本變體的特點(diǎn),使用Word2vec進(jìn)行詞語(yǔ)向... 

【文章來(lái)源】:西南交通大學(xué)四川省 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:66 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

不良短文本變體的識(shí)別


中國(guó)網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率

流程圖,識(shí)別研究,變體,文本


用于識(shí)別敏感詞變體具有理論上的意義也有實(shí)際應(yīng)用的主要內(nèi)容及論文組織結(jié)構(gòu)要內(nèi)容文本變體的任務(wù),首先介紹其背景意義、研究現(xiàn)狀的優(yōu)缺點(diǎn)。然后分析了不良文本變體的特點(diǎn),再經(jīng)到適合本次任務(wù)的文本數(shù)據(jù);接著對(duì)比不同詞向量詞的聯(lián)系,通過(guò)分布表示詞向量。接著研究基于深神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和多層感知機(jī)算法在本次于前文研究的基礎(chǔ)之上,將前文的模型作為初級(jí)分 Stacking 組合模型,同時(shí)根據(jù) Stacking 算法的特點(diǎn)不良文本變體進(jìn)行識(shí)別,進(jìn)一步提升識(shí)別的準(zhǔn)確率能,和傳統(tǒng)的不良文本變體模型進(jìn)行對(duì)比。本文的研

流程圖,文本分類,流程


圖 2-1 文本分類流程如上圖所示,文本的整個(gè)分類流程為:(1)文本預(yù)處理:收集數(shù)據(jù)集之后,需要將數(shù)據(jù)集進(jìn)行清洗。(2)特征提。航⒛P吞崛√卣鳌#3)文本表示:將文本數(shù)據(jù)轉(zhuǎn)化成數(shù)字向量,為特征提取做準(zhǔn)備。(4)分類器:最后進(jìn)行判別分類,并根據(jù)給定的指標(biāo)進(jìn)行分類效果的評(píng)價(jià)。其中特征工程部分是文本分類中相當(dāng)重要的一部分,特征工程的是“數(shù)據(jù) 信息”的過(guò)程,決定了結(jié)果的上限,而分類器則是“信息 知識(shí)”的過(guò)程,是去逼近這個(gè)上限的,所以,特征工程的好壞深刻影響分類的結(jié)果,并且特征工程是沒(méi)有通用性的,需要具體任務(wù)具體分析。2.3 文本預(yù)處理在文本相關(guān)的任務(wù)中,文本預(yù)處理是非常重要的,我們需要花幾乎一半的時(shí)間在這上面,而中文文本和英文文本的預(yù)處理流程是不同的。首先,英文每個(gè)單詞之間是有空格的,而中文是沒(méi)有的,所以中文在分詞的時(shí)候不能簡(jiǎn)單地用空格和標(biāo)點(diǎn)符號(hào)進(jìn)行

【參考文獻(xiàn)】:
期刊論文
[1]全媒體語(yǔ)境下消防宣傳路徑分析[J]. 孫藝嘉,李婷婷,李璽峰.  新聞研究導(dǎo)刊. 2019(02)
[2]中文分詞算法研究綜述[J]. 汪文妃,徐豪杰,楊文珍,吳新麗.  成組技術(shù)與生產(chǎn)現(xiàn)代化. 2018(03)
[3]一種基于關(guān)聯(lián)規(guī)則的中文變體詞識(shí)別算法[J]. 趙俊杰.  重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)). 2018(03)
[4]面向中文敏感詞變形體的識(shí)別方法研究[J]. 付聰,余敦輝,張靈莉.  計(jì)算機(jī)應(yīng)用研究. 2019(04)
[5]一種基于Java Web的敏感詞過(guò)濾方法研究與實(shí)現(xiàn)[J]. 傅明建.  智能計(jì)算機(jī)與應(yīng)用. 2017(04)
[6]基于短文本情感分析的敏感信息識(shí)別[J]. 李揚(yáng),潘泉,楊濤.  西安交通大學(xué)學(xué)報(bào). 2016(09)
[7]基于混合余弦相似度的中文文本層次關(guān)系挖掘[J]. 董洋溢,李偉華,于會(huì).  計(jì)算機(jī)應(yīng)用研究. 2017(05)
[8]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒.  工業(yè)控制計(jì)算機(jī). 2016(02)
[9]基于區(qū)位碼字典對(duì)數(shù)控程序進(jìn)行中文注釋[J]. 楊超,謝劍剛.  中國(guó)科技信息. 2015(17)
[10]不良文本變體關(guān)鍵詞識(shí)別的詞匯串相似度計(jì)算[J]. 李少卿,吳承榮,曾劍平,鐘亦平.  計(jì)算機(jī)應(yīng)用與軟件. 2015(03)

碩士論文
[1]基于深度學(xué)習(xí)的垃圾郵件文本分類方法[D]. 李雨亭.中北大學(xué) 2018
[2]統(tǒng)計(jì)與規(guī)則相結(jié)合的中文分詞模型設(shè)計(jì)與實(shí)現(xiàn)[D]. 賀歡.西南交通大學(xué) 2013
[3]基于理解的漢語(yǔ)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 蘇勇.電子科技大學(xué) 2011
[4]手機(jī)垃圾短信過(guò)濾平臺(tái)的分析與應(yīng)用[D]. 張春麟.北京郵電大學(xué) 2010
[5]基于貝葉斯的中文垃圾郵件過(guò)濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 黃志剛.電子科技大學(xué) 2007



本文編號(hào):2988397

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/2988397.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7f008***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com