網(wǎng)絡(luò)垃圾信息識(shí)別方法研究
發(fā)布時(shí)間:2021-03-29 13:30
網(wǎng)絡(luò)以一種全新的信息傳播方式影響和改變著我們的生活,也讓我們不經(jīng)意進(jìn)入了一種大眾傳媒的新時(shí)代中。在網(wǎng)絡(luò)中人人都可以隨時(shí)發(fā)布信息,這導(dǎo)致了網(wǎng)絡(luò)信息的泛濫,同時(shí)也導(dǎo)致了網(wǎng)絡(luò)垃圾信息的泛濫。近幾年,深度學(xué)習(xí)技術(shù)迅猛發(fā)展,大大改變了自然語言處理領(lǐng)域的現(xiàn)狀。本文針對(duì)Quora網(wǎng)站上的提問標(biāo)題作為文本數(shù)據(jù)進(jìn)行分析,希望識(shí)別出其中的垃圾信息即虛假提問。由于數(shù)據(jù)的特殊性,很多提問文本作為垃圾信息具有一定的隱蔽性。傳統(tǒng)的基于詞頻的機(jī)器學(xué)習(xí)方法的表現(xiàn)受到了限制,這類問題對(duì)我們的模型和效果提出了新的要求。因此,本文同時(shí)運(yùn)用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法,進(jìn)行對(duì)比研究,探索各種方法在Quora數(shù)據(jù)集上的表現(xiàn)情況。本文采用的傳統(tǒng)機(jī)器學(xué)習(xí)方法分別是樸素貝葉斯模型和邏輯回歸模型。在傳統(tǒng)機(jī)器學(xué)習(xí)方法中,我們通過TF-IDF技術(shù)將文本轉(zhuǎn)化成向量,作為模型的輸入,通過對(duì)模型超參數(shù)進(jìn)行調(diào)整,提高模型分類效果,然而,這兩種單個(gè)模型的表現(xiàn)均不優(yōu)秀。因此,本文又將兩種分類的結(jié)果作為輸入,用嶺回歸構(gòu)建堆疊法集成模型,并通過調(diào)整正則化項(xiàng)系數(shù),使模型效果提升,同時(shí)避免過擬合。最優(yōu)秀的傳統(tǒng)機(jī)器學(xué)習(xí)模型達(dá)到了0.60436的F1-score。在...
【文章來源】:上海師范大學(xué)上海市
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Quora流量來源分布圖
垃圾信息識(shí)別系統(tǒng)
4圖 1-3 本文研究框架第一章,緒論 首先闡述了本文的研究背景和研究?jī)?nèi)容,然后介紹了研究的框架和意義,對(duì)全文有提綱挈領(lǐng)的作用 第二章,文獻(xiàn)綜述和相關(guān)理論 垃圾信息識(shí)別,歸根到底是一個(gè)文本分類的問題,而文本分類又從屬于自然語言處理的范疇 這一章節(jié)列舉了國(guó)內(nèi)外關(guān)于文本分類的對(duì)本文有指導(dǎo)意義的研究,既有國(guó)外學(xué)者的成果,也有國(guó)內(nèi)學(xué)者的內(nèi)容 在相關(guān)理論部分,本文重點(diǎn)研究了三個(gè)方面,分別是文本預(yù)處理方
【參考文獻(xiàn)】:
期刊論文
[1]基于CapsNet的中文文本分類研究[J]. 馮國(guó)明,張曉冬,劉素輝. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2018(12)
[2]基于Word2vec的文檔分類方法[J]. 陳杰,陳彩,梁毅. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(11)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計(jì)算機(jī)與現(xiàn)代化. 2017(04)
[4]基于遞歸神經(jīng)網(wǎng)絡(luò)的文本分類研究[J]. 黃磊,杜昌順. 北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[5]基于事件卷積特征的新聞文本分類[J]. 夏從零,錢濤,姬東鴻. 計(jì)算機(jī)應(yīng)用研究. 2017(04)
[6]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計(jì)算機(jī)科學(xué). 2016(06)
[7]基于最近鄰子空間搜索的兩類文本分類方法[J]. 李玉鑑,王影,冷強(qiáng)奎. 計(jì)算機(jī)工程與科學(xué). 2015(01)
[8]基于LDA特征擴(kuò)展的短文本分類[J]. 呂超鎮(zhèn),姬東鴻,吳飛飛. 計(jì)算機(jī)工程與應(yīng)用. 2015(04)
[9]基于SVM算法的文本分類技術(shù)研究[J]. 崔建明,劉建明,廖周宇. 計(jì)算機(jī)仿真. 2013(02)
本文編號(hào):3107628
【文章來源】:上海師范大學(xué)上海市
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Quora流量來源分布圖
垃圾信息識(shí)別系統(tǒng)
4圖 1-3 本文研究框架第一章,緒論 首先闡述了本文的研究背景和研究?jī)?nèi)容,然后介紹了研究的框架和意義,對(duì)全文有提綱挈領(lǐng)的作用 第二章,文獻(xiàn)綜述和相關(guān)理論 垃圾信息識(shí)別,歸根到底是一個(gè)文本分類的問題,而文本分類又從屬于自然語言處理的范疇 這一章節(jié)列舉了國(guó)內(nèi)外關(guān)于文本分類的對(duì)本文有指導(dǎo)意義的研究,既有國(guó)外學(xué)者的成果,也有國(guó)內(nèi)學(xué)者的內(nèi)容 在相關(guān)理論部分,本文重點(diǎn)研究了三個(gè)方面,分別是文本預(yù)處理方
【參考文獻(xiàn)】:
期刊論文
[1]基于CapsNet的中文文本分類研究[J]. 馮國(guó)明,張曉冬,劉素輝. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2018(12)
[2]基于Word2vec的文檔分類方法[J]. 陳杰,陳彩,梁毅. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(11)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計(jì)算機(jī)與現(xiàn)代化. 2017(04)
[4]基于遞歸神經(jīng)網(wǎng)絡(luò)的文本分類研究[J]. 黃磊,杜昌順. 北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[5]基于事件卷積特征的新聞文本分類[J]. 夏從零,錢濤,姬東鴻. 計(jì)算機(jī)應(yīng)用研究. 2017(04)
[6]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計(jì)算機(jī)科學(xué). 2016(06)
[7]基于最近鄰子空間搜索的兩類文本分類方法[J]. 李玉鑑,王影,冷強(qiáng)奎. 計(jì)算機(jī)工程與科學(xué). 2015(01)
[8]基于LDA特征擴(kuò)展的短文本分類[J]. 呂超鎮(zhèn),姬東鴻,吳飛飛. 計(jì)算機(jī)工程與應(yīng)用. 2015(04)
[9]基于SVM算法的文本分類技術(shù)研究[J]. 崔建明,劉建明,廖周宇. 計(jì)算機(jī)仿真. 2013(02)
本文編號(hào):3107628
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3107628.html
最近更新
教材專著