面向電子商務(wù)的虛假評論檢測的關(guān)鍵技術(shù)研究
發(fā)布時間:2017-04-02 08:13
本文關(guān)鍵詞:面向電子商務(wù)的虛假評論檢測的關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:評論數(shù)據(jù)作為電商平臺的重要信息數(shù)據(jù),在商業(yè)活動中發(fā)揮著重要的作用,但大量的虛假評論的存在,給消費者和商業(yè)組織帶來錯誤導(dǎo)向,造成巨大損失,因此,對其進(jìn)行檢測和控制具有重要意義。電商平臺存在大量的評論數(shù)據(jù),面對如此多的評論數(shù)據(jù),已有的虛假評論檢測方法存在一定局限性。電商平臺商品種類多,涉及到的評論數(shù)據(jù)類型紛繁復(fù)雜,基于內(nèi)容特征的方法采用的分類特征通常具有領(lǐng)域依賴性,分類性能依賴大量正確的領(lǐng)域標(biāo)注評論數(shù)據(jù),泛化能力差;谛袨榉治龅姆椒m然不需要標(biāo)注評論數(shù)據(jù),但其依賴特定的用戶評論行為,識別率不高。針對這些問題,本文提出系統(tǒng)性的面向電商平臺虛假評論的檢測方法。研究內(nèi)容包括三個方面。其一是識別含有虛假評論的目標(biāo)商品;其二是評論文本相似性度量;其三是虛假評論識別特征挖掘以及虛假評論檢測模型構(gòu)建。論文的主要工作如下:1)提出一種面向電商平臺的虛假評論目標(biāo)商品的識別算法。電商評論涉及范圍廣、數(shù)據(jù)量大,導(dǎo)致現(xiàn)有虛假評論檢測方法準(zhǔn)確率下降。為了從大數(shù)據(jù)量的電商評論中獲得虛假評論樣本數(shù)據(jù),進(jìn)行有針對性的研究,先對虛假評論目標(biāo)商品的識別進(jìn)行研究。研究發(fā)現(xiàn)商品的用戶評分行為服從特定統(tǒng)計規(guī)律,當(dāng)存在一定量虛假評分行為時,會表現(xiàn)出與正常評分行為規(guī)律相背離,通過把這種差異指標(biāo)化,利用數(shù)值指標(biāo)識別對商品列表排序,排序高的商品含有大量虛假評論的可能性越大。實驗結(jié)果表明,該方法排序的TOP商品對應(yīng)的評論確實含有大量虛假評論,該方法可以有效識別含有虛假評論的目標(biāo)商品。2)提出了一種評論文本相似性的度量算法。針對傳統(tǒng)文本相似性度量方法準(zhǔn)確率不高,本文利用評論文本的內(nèi)容組織特征,構(gòu)建評論文本樹形結(jié)構(gòu),將其相似性度量分解為對應(yīng)樹各層之間的相似性度量,從而使得每層相似度的度量對象都為同類型的詞語,進(jìn)而分別采用對應(yīng)的相似性度量方法計算各層的相似性,最后再對各層相似度按照權(quán)重融合得到整體的相似度。在真實數(shù)據(jù)集上的實驗結(jié)果表明本文方法較其它常見度量方法更加有效,準(zhǔn)確率更高。3)提出一種動靜態(tài)特征融合的虛假評論檢測算法。針對現(xiàn)有虛假評論檢測方法未充分利用用戶歷史行為中蘊(yùn)含的動態(tài)信息。本文首先利用時序分析模型從這些動態(tài)信息中挖掘能夠刻畫用戶行為的動態(tài)特征;其次,融合這些動態(tài)特征與用戶層面靜態(tài)特征發(fā)現(xiàn)可疑用戶,并將用戶可疑概率傳播至用戶所發(fā)表評論得到評論可疑概率;最后,結(jié)合評論可疑概率與評論層面靜態(tài)特征,使用PU-Learning學(xué)習(xí)策略訓(xùn)練高性能的分類器,實現(xiàn)虛假評論的檢測。在真實數(shù)據(jù)集上的實驗表明,本文方法的性能優(yōu)于現(xiàn)有方法。
【關(guān)鍵詞】:虛假評論 評論分布 樹形結(jié)構(gòu) 相似性度量 時序分析 融合特征 PU-Learning
【學(xué)位授予單位】:解放軍信息工程大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-11
- 第一章 緒論11-19
- 1.1 研究背景和意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-14
- 1.3 問題的提出與分析14-15
- 1.4 本文主要內(nèi)容和章節(jié)安排15-19
- 1.4.1 主要內(nèi)容15-17
- 1.4.2 章節(jié)安排17-19
- 第二章 基于評分分布異常的目標(biāo)商品識別方法19-31
- 2.1 引言19-20
- 2.2 Amazon評論數(shù)據(jù)分布分析20-23
- 2.2.1 Amazon商品評分分布20-21
- 2.2.2 Amazon商品評分分布的分布21-23
- 2.3 基于評論評分分布異常的目標(biāo)商品識別方法23-24
- 2.3.1 可信用戶篩選23
- 2.3.2 商品列表排序方法23-24
- 2.4 實驗分析24-29
- 2.4.1 評估方法25
- 2.4.2 實驗設(shè)置25-26
- 2.4.3 參照數(shù)據(jù)設(shè)置26
- 2.4.4 實驗結(jié)果及分析26-29
- 2.5 本章小結(jié)29-31
- 第三章 基于樹形結(jié)構(gòu)的評論文本相似性度量方法31-39
- 3.1 引言31
- 3.2 文本相似度計算相關(guān)方法31-32
- 3.3 基于樹形結(jié)構(gòu)的評論文本相似度度量算法32-35
- 3.3.1 評論樹結(jié)構(gòu)定義32-33
- 3.3.2 評論的樹形結(jié)構(gòu)生成33
- 3.3.3 樹形結(jié)構(gòu)的層次相似度度量33-35
- 3.3.4 樹形結(jié)構(gòu)的相似度合成35
- 3.4 實驗分析35-37
- 3.4.1 實驗數(shù)據(jù)集35-36
- 3.4.2 實驗結(jié)果及分析36-37
- 3.5 本章小結(jié)37-39
- 第四章 基于融合特征的虛假評論檢測方法39-49
- 4.1 引言39
- 4.2 動態(tài)特征提取39-42
- 4.2.1 動態(tài)信息40
- 4.2.2 時序分析模型40-42
- 4.3 融合動態(tài)特征與靜態(tài)特征的虛假評論檢測方法42-45
- 4.3.1 評論可疑概率的獲取42
- 4.3.2 PU-Learning分類策略42-45
- 4.4 實驗分析45-47
- 4.4.1 實驗數(shù)據(jù)45-46
- 4.4.2 評價指標(biāo)46
- 4.4.3 實驗結(jié)果與分析46-47
- 4.5 本章小結(jié)47-49
- 第五章 總結(jié)與展望49-51
- 5.1 主要研究內(nèi)容總結(jié)49
- 5.2 論文主要創(chuàng)新點49-50
- 5.3 下一步研究工作展望50-51
- 致謝51-53
- 參考文獻(xiàn)53-57
- 作者簡歷57
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前6條
1 張佩云;陳傳明;黃波;;基于子樹匹配的文本相似度算法[J];模式識別與人工智能;2014年03期
2 施侃晟;劉海濤;宋文濤;;基于詞性和中心點改進(jìn)的文本聚類方法[J];模式識別與人工智能;2012年06期
3 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計算機(jī)學(xué)報;2011年08期
4 黃承慧;印鑒;侯f ;;一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J];計算機(jī)學(xué)報;2011年05期
5 彭京;楊冬青;唐世渭;王騰蛟;高軍;;基于概念相似度的文本相似計算[J];中國科學(xué)(F輯:信息科學(xué));2009年05期
6 金博,史彥軍,滕弘飛;基于語義理解的文本相似度算法[J];大連理工大學(xué)學(xué)報;2005年02期
本文關(guān)鍵詞:面向電子商務(wù)的虛假評論檢測的關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:282162
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/282162.html
最近更新
教材專著