面向社交商務的大數(shù)據(jù)分析方法研究
本文選題:社交商務 切入點:大數(shù)據(jù) 出處:《東南大學》2015年碩士論文 論文類型:學位論文
【摘要】:隨著大數(shù)據(jù)時代的來臨,面向海量、異構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)的分析技術(shù)得到越來越廣泛的應用。社交商務作為一種新興的電子商務模式,其融合了社交媒體的社交互動功能與電子商務的商務功能,并且已經(jīng)成為重要的大數(shù)據(jù)來源,其蘊含的大量非結(jié)構(gòu)化數(shù)據(jù),尤其是文本數(shù)據(jù)具有極大的商業(yè)價值。在這些復雜的文本數(shù)據(jù)當中隱含著用戶的喜好偏向、行為習慣、消費傾向等,對這些文本數(shù)據(jù)的分析可以很好地為社交商務中的社交購物和社交營銷服務。在這種背景下,面向社交商務的大數(shù)據(jù)分析顯得迫切和必要,本文圍繞社交商務中的文本數(shù)據(jù)進行大數(shù)據(jù)分析。首先,分析了社交商務環(huán)境下商務數(shù)據(jù)的復雜性,其社交商務數(shù)據(jù)具有典型的大數(shù)據(jù)特征,并且對社交商務中的非結(jié)構(gòu)化數(shù)據(jù)進行了分析,重點討論了社交商務環(huán)境下的數(shù)據(jù)管理以及中文文本數(shù)據(jù)挖掘過程的復雜性,給出了中文文本數(shù)據(jù)挖掘的流程。其次,提出了利用Apriori算法抽取產(chǎn)品特征的方法,并應用于社交購物中的產(chǎn)品評論情感分析。在社交商務領域,眾多的用戶對眾多的產(chǎn)品進行了紛繁復雜地評論,這些評論是非結(jié)構(gòu)化的文本數(shù)據(jù),復雜的非結(jié)構(gòu)化特征使得用戶在查看評論時遇到了很大的困難;诖,對社交商務環(huán)境下的產(chǎn)品評論進行情感挖掘,提出一種利用Apriori算法來挖掘產(chǎn)品的頻繁特征,并討論如何對頻繁特征進行剪枝操作以提高抽取的特征的有效性,利用語義詞典HowNet來確定情感詞的情感傾向。最后,提出了識別電商微博數(shù)據(jù)進行熱點話題的EM-LDA綜合模型。電商微博是一種非結(jié)構(gòu)化的文本信息載體,但卻具備不同于其他非結(jié)構(gòu)化文本信息的特點,通過對電商微博的分析,提出了一種面向電商微博的EM-LDA綜合模型。首先對電商微博依據(jù)是否含有哈希標簽進行分類,將含有哈希標簽的微博稱為顯式話題微博,并用ET-LDA模型進行主題挖掘;對于不含哈希標簽的微博,稱為隱式話題微博,通過細分此類微博的類型來改進LDA模型,提出IT-LDA模型。
[Abstract]:With the advent of big data era, the analysis technology of mass, heterogeneous and unstructured data has been applied more and more widely. It combines the social interaction function of social media with the business function of electronic commerce, and has become an important source of big data, which contains a lot of unstructured data. In particular, text data has great commercial value. In these complex text data, there are user preferences, behavior habits, consumption tendencies and so on. The analysis of these text data can be a good service for social shopping and marketing in social commerce. Against this background, big data's analysis for social commerce is urgent and necessary. This paper analyzes the text data of social commerce by big data. Firstly, it analyzes the complexity of business data in social commerce environment. The unstructured data in social commerce is analyzed, and the complexity of data management and Chinese text data mining in social commerce environment is discussed. Secondly, the process of Chinese text data mining is given. This paper proposes a method of extracting product features by using Apriori algorithm, and applies it to the analysis of product reviews in social shopping. In the field of social commerce, many users comment on many products. These comments are unstructured text data, and complex unstructured features make it difficult for users to view comments. This paper proposes a method of mining frequent features of products by using Apriori algorithm, discusses how to prune frequent features to improve the validity of extracted features, and uses semantic dictionary HowNet to determine the affective tendency of affective words. This paper presents an EM-LDA synthesis model for identifying hot topics from Weibo data, which is an unstructured text information carrier, but different from other unstructured text information. In this paper, a comprehensive EM-LDA model for e-commerce Weibo is proposed. First, according to whether the hashtag is included or not, Weibo is classified as an explicit topic, then the topic mining is carried out with ET-LDA model. For Weibo without hashtag, it is called the implicit topic Weibo. By subdividing the types of this kind of IT-LDA, the LDA model is improved and the IT-LDA model is put forward.
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.13
【相似文獻】
相關(guān)期刊論文 前10條
1 艾孜爾古麗;李曉;玉素甫·艾白都拉;;中小學維吾爾語文教材用詞數(shù)據(jù)分析方法研究[J];計算機工程與應用;2014年03期
2 韓玲;胡學鋼;李建國;馮崇嶺;;基于數(shù)據(jù)分析方法的屬性簡約算法的實現(xiàn)[J];電腦知識與技術(shù)(學術(shù)交流);2007年06期
3 應里孟;;數(shù)據(jù)式審計常用的數(shù)據(jù)分析方法[J];中國農(nóng)業(yè)會計;2011年09期
4 章婷;石堅;沈森祖;;標準樣片制備的測量數(shù)據(jù)分析方法研究[J];計算機與數(shù)字工程;2010年09期
5 欒世武;數(shù)據(jù)挖掘給企業(yè)應用帶來什么?[J];微電腦世界;2000年23期
6 陳方櫻;關(guān)于數(shù)據(jù)分析方法及SAS軟件教學的探索[J];數(shù)學的實踐與認識;2004年01期
7 陳濤;;SQL數(shù)據(jù)分析方法在醫(yī)療收費檢查中的應用[J];中國價格監(jiān)督檢查;2011年12期
8 戴征宇,李廣生;DSAM的數(shù)據(jù)分析方法研究──峰形分析法[J];中國原子能科學研究院年報;1994年00期
9 吳大岳;謝福鼎;;一種X線征象的智能數(shù)據(jù)分析方法[J];計算機工程與應用;2007年28期
10 龔峻;;運用關(guān)系型數(shù)據(jù)分析方法規(guī)劃企業(yè)級IT系統(tǒng)模型[J];電信技術(shù);2010年04期
相關(guān)會議論文 前3條
1 劉紅云;張雷;駱方;;多元追蹤數(shù)據(jù)分析方法新進展與應用[A];全國教育與心理統(tǒng)計與測量學術(shù)年會暨第八屆海峽兩岸心理與教育測驗學術(shù)研討會論文摘要集[C];2008年
2 吳志清;;淺議實驗室對比數(shù)據(jù)分析方法——穩(wěn)健統(tǒng)計Z比分數(shù)[A];2011(昆明)中西部第四屆有色金屬工業(yè)發(fā)展論壇論文集[C];2011年
3 張寧;陳紅;;基于ParaWare MOLAP系統(tǒng)的PSC智能數(shù)據(jù)分析方法[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2004年
相關(guān)博士學位論文 前5條
1 蔡偉達;證候研究中常用數(shù)據(jù)分析方法的文獻研究及基于隱類模型的抑郁癥隱變量分析[D];北京中醫(yī)藥大學;2015年
2 蔡立軍;基因分類及基因表達數(shù)據(jù)分析方法的研究[D];湖南大學;2007年
3 相潔;啟發(fā)式問題解決認知神經(jīng)機制及fMRI數(shù)據(jù)分析方法研究[D];太原理工大學;2010年
4 胡宇;函數(shù)型數(shù)據(jù)分析方法研究及其應用[D];東北師范大學;2011年
5 蔣紅衛(wèi);一種新的多向數(shù)據(jù)分析方法—多重雙線性分解及運用初步[D];第二軍醫(yī)大學;2010年
相關(guān)碩士學位論文 前6條
1 尹海峰;面向LTE移動網(wǎng)絡KPI數(shù)據(jù)分析方法的研究[D];西安電子科技大學;2014年
2 伍萬坤;面向社交商務的大數(shù)據(jù)分析方法研究[D];東南大學;2015年
3 鄧春瑤;哈爾濱市居民公交IC卡數(shù)據(jù)分析方法研究[D];東北林業(yè)大學;2013年
4 趙金鑫;基于MapReduce的無線網(wǎng)優(yōu)平臺數(shù)據(jù)分析方法[D];北京郵電大學;2015年
5 劉春燕;教學網(wǎng)絡DIDS數(shù)據(jù)分析方法的研究與改進[D];鄭州大學;2010年
6 楊s,
本文編號:1611517
本文鏈接:http://www.sikaile.net/guanlilunwen/yingxiaoguanlilunwen/1611517.html