基于深度學(xué)習(xí)混合模型的商品垃圾評(píng)論識(shí)別研究
發(fā)布時(shí)間:2023-03-12 18:02
隨著互聯(lián)網(wǎng)應(yīng)用的不斷發(fā)展,網(wǎng)絡(luò)購物等線上消費(fèi)行為已經(jīng)逐漸成為社會(huì)中的一種潮流。線上電商平臺(tái)每天都會(huì)產(chǎn)生海量評(píng)論數(shù)據(jù),這些商品評(píng)論已經(jīng)成為用戶選擇商品的主要依據(jù)。由于網(wǎng)絡(luò)的開放性以及用戶的言論自由,有些用戶會(huì)給出一些垃圾評(píng)論,這些評(píng)論信息往往會(huì)影響用戶體驗(yàn),不僅不利于系統(tǒng)的維護(hù)與完善,也對(duì)信息資源造成了極大的浪費(fèi)。為了解決上述問題并挖掘商品評(píng)論信息中蘊(yùn)含的價(jià)值,本文綜合利用數(shù)據(jù)爬蟲、模型構(gòu)建以及實(shí)驗(yàn)對(duì)比等手段進(jìn)行研究,論文的主要工作如下:(1)對(duì)京東商城網(wǎng)站進(jìn)行目標(biāo)商品信息和評(píng)論爬取。本文基于Scrapy框架,根據(jù)網(wǎng)頁的XPath路徑對(duì)網(wǎng)頁進(jìn)行分析,通過多線程模型加快爬蟲速度,利用改進(jìn)網(wǎng)絡(luò)爬蟲策略獲取更有價(jià)值的各類商品評(píng)論信息,最終將數(shù)據(jù)儲(chǔ)存到MongoDB中,為后期訓(xùn)練分類模型做準(zhǔn)備。(2)針對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)在處理評(píng)論文本分類時(shí)存在的不足,深度學(xué)習(xí)可以有效地解決了人工干預(yù)的問題,能夠自動(dòng)的獲取數(shù)據(jù)中的結(jié)構(gòu)特征,大大節(jié)約了人力和時(shí)間成本。因此,本文利用深度學(xué)習(xí)中CNN識(shí)別局部特征與LSTM利用文本序列的優(yōu)勢,并結(jié)合注意力機(jī)制,提出了一種基于注意力機(jī)制的CLSTM混合模型算法,最大化地提取上...
【文章頁數(shù)】:70 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 文本分類研究現(xiàn)狀
1.2.2 深度學(xué)習(xí)研究現(xiàn)狀
1.3 本文主要工作
1.4 論文組織結(jié)構(gòu)與安排
第2章 相關(guān)理論與技術(shù)
2.1 文本預(yù)處理
2.1.1 中文分詞
2.1.2 停用詞
2.2 詞向量
2.2.1 CBOW模型
2.2.2 Skip-gram模型
2.3 文本分類算法
2.3.1 SVM算法
2.3.2 CNN算法
2.3.3 LSTM算法
2.4 注意力機(jī)制
2.4.1 編碼-解碼模型
2.4.2 注意力機(jī)制
2.5 本章小結(jié)
第3章 基于改進(jìn)爬蟲策略的商品評(píng)論爬取研究
3.1 網(wǎng)絡(luò)爬蟲的基本原理
3.2 常見的網(wǎng)絡(luò)爬蟲類型
3.2.1 通用網(wǎng)絡(luò)爬蟲
3.2.2 聚焦網(wǎng)絡(luò)爬蟲
3.2.3 增量式網(wǎng)絡(luò)爬蟲
3.3 改進(jìn)的網(wǎng)絡(luò)爬蟲策略
3.4 基于Scrapy框架的網(wǎng)絡(luò)爬蟲總體設(shè)計(jì)
3.4.1 Scrapy爬蟲程序框架
3.4.2 爬蟲數(shù)據(jù)庫MongoDB
3.5 網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)
3.5.1 定義參數(shù)
3.5.2 爬取操作
3.5.3 數(shù)據(jù)存儲(chǔ)
3.6 爬蟲程序?qū)Ρ确治?br> 3.7 本章小結(jié)
第4章 基于Attention-CLSTM模型的商品評(píng)論分類研究
4.1 文本分類流程
4.2 垃圾評(píng)論的基本特征
4.3 文本預(yù)處理
4.4 詞向量訓(xùn)練
4.5 基于注意力機(jī)制的CLSTM混合模型實(shí)現(xiàn)文本分類
4.5.1 CNN提取評(píng)論短語特征序列
4.5.2 LSTM提取文本特征
4.5.3 注意力引用
4.5.4 softmax分類
4.6 實(shí)驗(yàn)結(jié)果與分析
4.6.1 數(shù)據(jù)集
4.6.2 參數(shù)設(shè)置
4.6.3 評(píng)價(jià)指標(biāo)
4.6.4 實(shí)驗(yàn)結(jié)果
4.7 本章小結(jié)
第5章 結(jié)論與展望
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的論文
致謝
詳細(xì)摘要
本文編號(hào):3761691
【文章頁數(shù)】:70 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 文本分類研究現(xiàn)狀
1.2.2 深度學(xué)習(xí)研究現(xiàn)狀
1.3 本文主要工作
1.4 論文組織結(jié)構(gòu)與安排
第2章 相關(guān)理論與技術(shù)
2.1 文本預(yù)處理
2.1.1 中文分詞
2.1.2 停用詞
2.2 詞向量
2.2.1 CBOW模型
2.2.2 Skip-gram模型
2.3 文本分類算法
2.3.1 SVM算法
2.3.2 CNN算法
2.3.3 LSTM算法
2.4 注意力機(jī)制
2.4.1 編碼-解碼模型
2.4.2 注意力機(jī)制
2.5 本章小結(jié)
第3章 基于改進(jìn)爬蟲策略的商品評(píng)論爬取研究
3.1 網(wǎng)絡(luò)爬蟲的基本原理
3.2 常見的網(wǎng)絡(luò)爬蟲類型
3.2.1 通用網(wǎng)絡(luò)爬蟲
3.2.2 聚焦網(wǎng)絡(luò)爬蟲
3.2.3 增量式網(wǎng)絡(luò)爬蟲
3.3 改進(jìn)的網(wǎng)絡(luò)爬蟲策略
3.4 基于Scrapy框架的網(wǎng)絡(luò)爬蟲總體設(shè)計(jì)
3.4.1 Scrapy爬蟲程序框架
3.4.2 爬蟲數(shù)據(jù)庫MongoDB
3.5 網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)
3.5.1 定義參數(shù)
3.5.2 爬取操作
3.5.3 數(shù)據(jù)存儲(chǔ)
3.6 爬蟲程序?qū)Ρ确治?br> 3.7 本章小結(jié)
第4章 基于Attention-CLSTM模型的商品評(píng)論分類研究
4.1 文本分類流程
4.2 垃圾評(píng)論的基本特征
4.3 文本預(yù)處理
4.4 詞向量訓(xùn)練
4.5 基于注意力機(jī)制的CLSTM混合模型實(shí)現(xiàn)文本分類
4.5.1 CNN提取評(píng)論短語特征序列
4.5.2 LSTM提取文本特征
4.5.3 注意力引用
4.5.4 softmax分類
4.6 實(shí)驗(yàn)結(jié)果與分析
4.6.1 數(shù)據(jù)集
4.6.2 參數(shù)設(shè)置
4.6.3 評(píng)價(jià)指標(biāo)
4.6.4 實(shí)驗(yàn)結(jié)果
4.7 本章小結(jié)
第5章 結(jié)論與展望
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的論文
致謝
詳細(xì)摘要
本文編號(hào):3761691
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3761691.html
最近更新
教材專著