天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

網(wǎng)絡(luò)垃圾信息識(shí)別方法研究

發(fā)布時(shí)間:2021-03-29 13:30
  網(wǎng)絡(luò)以一種全新的信息傳播方式影響和改變著我們的生活,也讓我們不經(jīng)意進(jìn)入了一種大眾傳媒的新時(shí)代中。在網(wǎng)絡(luò)中人人都可以隨時(shí)發(fā)布信息,這導(dǎo)致了網(wǎng)絡(luò)信息的泛濫,同時(shí)也導(dǎo)致了網(wǎng)絡(luò)垃圾信息的泛濫。近幾年,深度學(xué)習(xí)技術(shù)迅猛發(fā)展,大大改變了自然語言處理領(lǐng)域的現(xiàn)狀。本文針對(duì)Quora網(wǎng)站上的提問標(biāo)題作為文本數(shù)據(jù)進(jìn)行分析,希望識(shí)別出其中的垃圾信息即虛假提問。由于數(shù)據(jù)的特殊性,很多提問文本作為垃圾信息具有一定的隱蔽性。傳統(tǒng)的基于詞頻的機(jī)器學(xué)習(xí)方法的表現(xiàn)受到了限制,這類問題對(duì)我們的模型和效果提出了新的要求。因此,本文同時(shí)運(yùn)用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法,進(jìn)行對(duì)比研究,探索各種方法在Quora數(shù)據(jù)集上的表現(xiàn)情況。本文采用的傳統(tǒng)機(jī)器學(xué)習(xí)方法分別是樸素貝葉斯模型和邏輯回歸模型。在傳統(tǒng)機(jī)器學(xué)習(xí)方法中,我們通過TF-IDF技術(shù)將文本轉(zhuǎn)化成向量,作為模型的輸入,通過對(duì)模型超參數(shù)進(jìn)行調(diào)整,提高模型分類效果,然而,這兩種單個(gè)模型的表現(xiàn)均不優(yōu)秀。因此,本文又將兩種分類的結(jié)果作為輸入,用嶺回歸構(gòu)建堆疊法集成模型,并通過調(diào)整正則化項(xiàng)系數(shù),使模型效果提升,同時(shí)避免過擬合。最優(yōu)秀的傳統(tǒng)機(jī)器學(xué)習(xí)模型達(dá)到了0.60436的F1-score。在... 

【文章來源】:上海師范大學(xué)上海市

【文章頁(yè)數(shù)】:71 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

網(wǎng)絡(luò)垃圾信息識(shí)別方法研究


Quora流量來源分布圖

垃圾信息,識(shí)別系統(tǒng)


垃圾信息識(shí)別系統(tǒng)

文本分類,相關(guān)理論,垃圾信息,文獻(xiàn)綜述


4圖 1-3 本文研究框架第一章,緒論 首先闡述了本文的研究背景和研究?jī)?nèi)容,然后介紹了研究的框架和意義,對(duì)全文有提綱挈領(lǐng)的作用 第二章,文獻(xiàn)綜述和相關(guān)理論 垃圾信息識(shí)別,歸根到底是一個(gè)文本分類的問題,而文本分類又從屬于自然語言處理的范疇 這一章節(jié)列舉了國(guó)內(nèi)外關(guān)于文本分類的對(duì)本文有指導(dǎo)意義的研究,既有國(guó)外學(xué)者的成果,也有國(guó)內(nèi)學(xué)者的內(nèi)容 在相關(guān)理論部分,本文重點(diǎn)研究了三個(gè)方面,分別是文本預(yù)處理方

【參考文獻(xiàn)】:
期刊論文
[1]基于CapsNet的中文文本分類研究[J]. 馮國(guó)明,張曉冬,劉素輝.  數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2018(12)
[2]基于Word2vec的文檔分類方法[J]. 陳杰,陳彩,梁毅.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(11)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生.  計(jì)算機(jī)與現(xiàn)代化. 2017(04)
[4]基于遞歸神經(jīng)網(wǎng)絡(luò)的文本分類研究[J]. 黃磊,杜昌順.  北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[5]基于事件卷積特征的新聞文本分類[J]. 夏從零,錢濤,姬東鴻.  計(jì)算機(jī)應(yīng)用研究. 2017(04)
[6]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春.  計(jì)算機(jī)科學(xué). 2016(06)
[7]基于最近鄰子空間搜索的兩類文本分類方法[J]. 李玉鑑,王影,冷強(qiáng)奎.  計(jì)算機(jī)工程與科學(xué). 2015(01)
[8]基于LDA特征擴(kuò)展的短文本分類[J]. 呂超鎮(zhèn),姬東鴻,吳飛飛.  計(jì)算機(jī)工程與應(yīng)用. 2015(04)
[9]基于SVM算法的文本分類技術(shù)研究[J]. 崔建明,劉建明,廖周宇.  計(jì)算機(jī)仿真. 2013(02)



本文編號(hào):3107628

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3107628.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d08f2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com