基于用戶選購(gòu)及在線點(diǎn)評(píng)行為的門店畫像研究
發(fā)布時(shí)間:2017-11-15 01:17
本文關(guān)鍵詞:基于用戶選購(gòu)及在線點(diǎn)評(píng)行為的門店畫像研究
更多相關(guān)文章: 門店畫像 網(wǎng)絡(luò)爬蟲(chóng) 情感分類 主題聚類 Spark
【摘要】:隨著依托于互聯(lián)網(wǎng)的O2O電子商務(wù)快速發(fā)展,使的O2O企業(yè)能夠收集到的相關(guān)數(shù)據(jù)呈井噴式增長(zhǎng)。為有效挖掘此類數(shù)據(jù),本文重點(diǎn)研究在線點(diǎn)評(píng)文本的情感分類和主題聚類,并以此為基礎(chǔ)結(jié)合用戶選購(gòu)行為數(shù)據(jù)提出一套門店畫像構(gòu)建及應(yīng)用的完整思路。本文的主要工作包括:設(shè)計(jì)并開(kāi)發(fā)爬蟲(chóng)系統(tǒng)抓取實(shí)驗(yàn)數(shù)據(jù)。動(dòng)態(tài)Web信息獲取是目前爬蟲(chóng)的一個(gè)技術(shù)難點(diǎn)。本文為獲取實(shí)驗(yàn)數(shù)據(jù),依據(jù)Scrapy開(kāi)源爬蟲(chóng)系統(tǒng)設(shè)計(jì)邏輯,在瀏覽器測(cè)試框架Selenium中嵌入基于Phantom JS的Ghost Driver驅(qū)動(dòng),設(shè)計(jì)并開(kāi)發(fā)出一個(gè)可抓取動(dòng)態(tài)Web信息的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng):nlp-dynamic-spider。并基于此抓取了大眾點(diǎn)評(píng)一線城市服裝行業(yè)的門店、用戶在線點(diǎn)評(píng)以及用戶數(shù)據(jù)作為本文的實(shí)驗(yàn)數(shù)據(jù)。通過(guò)在詞庫(kù)中添加新詞和領(lǐng)域詞提高分詞準(zhǔn)確度。由于評(píng)論文本中包含大量網(wǎng)絡(luò)流行詞、領(lǐng)域詞,導(dǎo)致分詞不準(zhǔn)確。本文依據(jù)候選詞詞內(nèi)凝固度、邊界自由度、出現(xiàn)次數(shù)、文檔頻率等特征引入大規(guī)模語(yǔ)料的新詞識(shí)別算法,有效識(shí)別出網(wǎng)絡(luò)評(píng)論流行詞,并在此基礎(chǔ)上加入服裝行業(yè)領(lǐng)域詞進(jìn)一步提高分詞準(zhǔn)確度。基于淺層深度學(xué)習(xí)算法Word2Vec引入三種文本表示算法。本文通過(guò)將傳統(tǒng)的BOOL、TF、TF-IDF文本表示法結(jié)合淺層深度學(xué)習(xí)詞向量Word2Vec算法,通過(guò)線性加權(quán)求和的方式引入BOOL-W2V、TF-W2V、TF-IDF-W2V三種文本DR表示算法。并在四個(gè)不同的點(diǎn)評(píng)數(shù)據(jù)集上對(duì)這六種表示法進(jìn)行情感傾向分類對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:在語(yǔ)料庫(kù)中文檔較多但標(biāo)注樣本占比低、標(biāo)注不平衡的情況下,TF-W2V文本表示法比另外五種文本表示法效果更好。構(gòu)建基于Spark大數(shù)據(jù)平臺(tái)的文本挖掘組件。為提高海量在線點(diǎn)評(píng)文本信息處理速度,采用分布式并行處理技術(shù)是目前的趨勢(shì)。本文基于目前最流行的大數(shù)據(jù)處理平臺(tái)Spark,并在其提供的基礎(chǔ)接口之上,設(shè)計(jì)了一系列中文處理的算法,包括:新詞發(fā)現(xiàn)、多種中文文本表示、文本特征提取等,并構(gòu)建出基于Spark大數(shù)據(jù)平臺(tái)的文本挖掘組件:nlp-spark;谟脩暨x購(gòu)和在線點(diǎn)評(píng)行為的門店畫像。本文利用用戶選購(gòu)行為數(shù)據(jù)以及依據(jù)本文挖掘的在線點(diǎn)評(píng)行為數(shù)據(jù)構(gòu)建整個(gè)門店畫像的指標(biāo)體系。并給出了門店畫像指標(biāo)建模的思路和實(shí)際生產(chǎn)應(yīng)用的建議。
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1;F724.6
,
本文編號(hào):1187783
本文鏈接:http://www.sikaile.net/jingjilunwen/guojimaoyilunwen/1187783.html
最近更新
教材專著