天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

電商評論情感分析及銷量預測方法研究

發(fā)布時間:2021-10-23 06:11
  隨著互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展,人們逐漸開始接受并熱衷于網(wǎng)絡購物,同時習慣于查看商品評論信息來決定是否購買。這些評論數(shù)據(jù)中不僅蘊含著用戶的興趣與偏好信息,還包含著商品信息。因此如何通過商品評論數(shù)據(jù)獲取到有價值的信息成為一個亟待解決的問題。首先爬取亞馬遜平臺的手機評論信息,對爬取到的數(shù)據(jù)進行預處理,包括數(shù)據(jù)清洗以及缺失值處理等工作,之后對數(shù)據(jù)進行文本分詞、詞性標注以及去停用詞等文本語言化處理工作。實驗中進行名詞過濾以及同義詞合并的操作,縮小商品特征詞的篩選范圍,利用隱狄利克雷分配模型來獲取商品特征信息,篩選出出現(xiàn)次數(shù)較多的特征詞。然后通過將知網(wǎng)HowNet、臺灣大學NTUSD、清華大學李軍中文褒貶義詞典以及一部分未標注來源的詞典中的正負向情感詞分開整合,同時加入知網(wǎng)詞典中的副詞,從而構(gòu)成一個完整的情感詞典。為了計算商品特征詞情感極性值,需要為情感詞典中的不同詞賦予不同的權(quán)重。使用主成分分析算法對建模數(shù)據(jù)進行降維,保留數(shù)據(jù)中有用信息,去除噪聲數(shù)據(jù)。將情感因子加入多元線性回歸模型、支持向量機回歸以及極端梯度提升算法對商品銷量做預測。實驗中銷量是通過商品銷量排名來體現(xiàn),所以實驗中具體是對銷量排名進行預... 

【文章來源】:大連海事大學遼寧省 211工程院校

【文章頁數(shù)】:75 頁

【學位級別】:碩士

【部分圖文】:

電商評論情感分析及銷量預測方法研究


圖1.?1論文研究思路??Fig.?1.1?Paper?research?ideas??1.5?本章小結(jié)??本章介紹了論文的研究背景及意義,進一步敘述文本情感分析以及銷量預測的國內(nèi)??外研究情況

過程圖,文本挖掘,過程


則,??正確使用方法,才能從大量數(shù)據(jù)中挖掘出對我們有用的信息。文本挖掘的過程如下圖所??示:????I?|?;*???????*?'?|—^―^―|?r——1?|?|??數(shù)?數(shù)文丨? ̄?|丨文特?數(shù)結(jié)??據(jù)?據(jù)?本?丨—————:?本?征?據(jù)?果??:■;?I?^?:??集?處?¥?丨?1?i?#?選?模?析??理?處11去停用詞I理?改??理丨?j?進??—I?—I?1^——J??J?L^___1????圖2.?1文本挖掘過程??Fig.?2.1?Text?mining?process??所以總的來說數(shù)據(jù)挖掘有以下幾個步驟:??(1)?明確文本數(shù)據(jù)挖掘目的。明確文本挖掘的目的就是確定你想要解決什么問??題,想要了解哪種隱藏的關(guān)系。只有明確了挖掘的0標,才能順利地開展接下來的工作。??-7?-??

概率分布,文檔,中詞,概率模型


題的文檔生成模型,主要由文檔、主題、詞組成的??三層貝葉斯結(jié)構(gòu),并且是用概率分布來描述數(shù)據(jù)集[4叱同時LDA主題模型是將狄利克??雷分布作為先驗,并且使用貝葉斯算法來進行估計t4l]。它的工作過程是這樣的:首先從??語料庫中以一定的概率去選擇一定的主題,然后再在主題下以一定的概率去選擇詞語。??這里文檔與主題以及主題與詞之間都是服從狄利克雷分布的。不斷去重復這個過程,直??到文檔生成。文本生成過程如圖所示:??A'????e??£?1。撸粒???M_??圖2.2?LDA概率模型圖??Fig.?2.2?LDA?probability?model?diagram??圖中各變量分別表示:M代表文檔篇數(shù),N是文檔中詞的個數(shù),w是單個單詞。a??代表狄利克雷分布(Dirichlet)的參數(shù),0是一篇文檔的主題分布fi^Dirichleti^^z是一篇??文檔某個主題,服從多項分布:z(n) ̄Multinomial(6>),p代表有主題數(shù)乘以語料庫中詞的??總個數(shù)形成的矩陣,它是主題與詞之間的Dirichlet分布中的超參數(shù)。所以模型中所有變??量的聯(lián)合概率分布為公式(2.4),之后我們進一步調(diào)整,對0進行積分,對z進行求和,獲??得一個文檔生成概率。最后將所有文檔的生成概率相乘,得到所有文檔的生成概率,也??就是生成整個語料庫的概率Ml,即公式(2.5)。??P(9,?Z,W\d,P)?=?P{61?d)?*?n;^,?P(Zn?16)?*?P(D?I?a,?P)?(2.4)??-li?-??

【參考文獻】:
期刊論文
[1]基于表情符號的情感詞典的構(gòu)建研究[J]. 林江豪,顧也力,周詠梅,陽愛民,陳錦.  計算機技術(shù)與發(fā)展. 2019(06)
[2]基于主題模型的技術(shù)預見文本分析[J]. 呂皓,周曉紀.  情報探索. 2018(10)
[3]基于TF-IDF算法的文本信息提取[J]. 于韜,王洪巖.  科技視界. 2018(16)
[4]主題模型的發(fā)展及應用研究[J]. 馬欣.  電腦知識與技術(shù). 2018(15)
[5]文本特征提取方法研究綜述[J]. 徐冠華,趙景秀,楊紅亞,劉爽.  軟件導刊. 2018(05)
[6]基于Logistic回歸模型的藏文文本分類研究與實現(xiàn)[J]. 群諾,賈宏云.  信息與電腦(理論版). 2018(05)
[7]一種基于詞義和詞頻的向量空間模型改進方法[J]. 鄧曉衡,楊子榮,關(guān)培源.  計算機應用研究. 2019(05)
[8]LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻為例[J]. 王婷婷,韓滿,王宇.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(01)
[9]樸素貝葉斯算法在文本分類中的應用[J]. 鄒曉輝.  數(shù)字技術(shù)與應用. 2017(12)
[10]數(shù)據(jù)挖掘技術(shù)綜述[J]. 鄒祎.  信息通信. 2016(12)

碩士論文
[1]基于領(lǐng)域詞典與機器學習的中文評論情感分析[D]. 楊鵬.南京郵電大學 2018
[2]航拍圖像的分割提取及其應用改進[D]. 徐瑩.電子科技大學 2018
[3]基于機器學習的情感分析方法研究[D]. 張磊.電子科技大學 2018
[4]在線評論文本和評級的不一致性及商家反饋對商品銷量的影響研究[D]. 張艷芳.北京郵電大學 2018
[5]基于時間序列分析的汽車銷量預測研究[D]. 章旭.合肥工業(yè)大學 2017
[6]基于評論情感和自回歸模型的銷量預測研究[D]. 李雪妮.大連理工大學 2013
[7]文本特征選擇在網(wǎng)絡信息過濾系統(tǒng)中的應用研究[D]. 邱燁.山東師范大學 2010
[8]KNN文本分類研究[D]. 閆晨.燕山大學 2010
[9]基于最大熵的漢語詞性標注[D]. 孔海霞.大連理工大學 2007



本文編號:3452624

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3452624.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4e1c3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com