面向社會(huì)化媒體用戶評(píng)論行為的屬性推斷
本文關(guān)鍵詞:面向社會(huì)化媒體用戶評(píng)論行為的屬性推斷 出處:《山東大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 社會(huì)化媒體 屬性推斷 語義分析 用戶行為 概率特征選擇
【摘要】:社會(huì)化媒體平臺(tái)是指為用戶提供評(píng)論、投票、反饋、分享等功能的在線媒體,像鳳凰網(wǎng)等新聞網(wǎng)站、亞馬遜和淘寶等電商網(wǎng)站、豆瓣等電影評(píng)論網(wǎng)站。用戶網(wǎng)絡(luò)評(píng)論是社會(huì)輿論的一種表現(xiàn)形式,具有公開性和可用性特點(diǎn),群體意見為其他用戶在決定購買產(chǎn)品或使用服務(wù)的時(shí)候提供了參考。理解用戶評(píng)論行為進(jìn)行屬性推斷,可以幫助企業(yè)、機(jī)構(gòu)、政府等提高服務(wù)質(zhì)量,用于個(gè)性化推薦、市場(chǎng)營(yíng)銷等,具有重要應(yīng)用價(jià)值。然而社會(huì)化媒體用戶多為匿名身份,其評(píng)論行為數(shù)據(jù)具有碎片化、信息價(jià)值含量低和不平衡的特點(diǎn),且用戶群體的屬性分布嚴(yán)重不均衡,這些問題給用戶屬性推斷帶來挑戰(zhàn)。針對(duì)用戶評(píng)論行為數(shù)據(jù)分布不平衡、噪音和碎片化的問題,本文引入客體信息、環(huán)境信息,作為對(duì)用戶評(píng)論行為數(shù)量少的補(bǔ)充信息,輔助用戶特征建模;結(jié)合基于語義知識(shí)庫的層次化語義建模方法和基于詞向量模型學(xué)習(xí)詞向量的文本挖掘方法深度挖掘用戶評(píng)論,分別從全局的角度和局部的角度消除詞語歧義帶來的不良影響,并保留評(píng)論中潛在的語義關(guān)系,從而達(dá)到深度挖掘用戶評(píng)論潛在的語義特征的目的。針對(duì)建模后的用戶特征維度大,碎片化數(shù)據(jù)價(jià)值含量低等問題,基于信息增益度量特征重要性,提出兩種代表性概率特征篩選算法的改進(jìn)策略:概率包裹式特征選擇算法和啟發(fā)式概率特征搜索算法,分別在分類學(xué)習(xí)前和迭代式學(xué)習(xí)過程中進(jìn)行概率特征選擇,既保留了重要特征信息,也給低價(jià)值特征提供小概率選擇機(jī)會(huì),篩選密切相關(guān)特征,以降低搜索空間,提高收斂速度和學(xué)習(xí)效果。針對(duì)用戶屬性不均衡問題,提出了面向小比例類型數(shù)據(jù)的差異性特征選擇和迭代式增強(qiáng)學(xué)習(xí)算法,集成多個(gè)特征相關(guān)的分類器,考慮不同特征組合和分類器適用性的同時(shí),使得集成之后的分類器注重更容易分錯(cuò)的小比例類型數(shù)據(jù)的學(xué)習(xí),能夠有效提高用戶屬性分類學(xué)習(xí)的準(zhǔn)確率。分別使用真實(shí)的中文和英文數(shù)據(jù)集驗(yàn)證本文方法,包括不同的行為建模方式和特征篩選方法對(duì)屬性推斷的影響,以及不同參數(shù)和用戶屬性分布不平衡問題對(duì)屬性推斷的影響,并和其他方法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果表明本文方法的有效性。
[Abstract]:Social media platforms are online media that provide comments, voting, feedback, sharing and other functions to users, news sites like Phoenix New Media, e-commerce sites such as Amazon and Taobao. Douban and other movie review sites. User network review is a form of public opinion, with the characteristics of openness and usability. Group views provide reference for other users when deciding to buy products or use services. Understanding user comment behavior and attribute inference can help enterprises, institutions, governments and so on to improve the quality of service. For personalized recommendation, marketing and so on, it has important application value. However, social media users are mostly anonymous identity, its comment behavior data has the characteristics of fragmentation, low information value content and imbalance. And the distribution of user group attributes is seriously uneven, which brings challenges to user attribute inference. In view of the imbalance of user comment behavior data distribution, noise and fragmentation, this paper introduces object information. Environmental information, as the supplementary information to the user's comment behavior, helps to model the user's characteristics. Combining the hierarchical semantic modeling method based on semantic knowledge base and the text mining method based on word vector model learning word vector, deeply mining user comments. From a global perspective and a local perspective to eliminate the negative impact of word ambiguity and retain the potential semantic relationship in the commentary. In order to achieve the purpose of mining the potential semantic features of user comments in depth, aiming at the problems of large dimension of user features and low value content of fragmented data after modeling, the importance of feature is measured based on information gain. This paper proposes two improved strategies of representative probability feature selection algorithm: probabilistic parcels feature selection algorithm and heuristic probabilistic feature search algorithm. Probabilistic feature selection is carried out before and during iterative learning, which not only preserves important feature information, but also provides small probability selection opportunities for low-value features and screening closely related features. In order to reduce the search space, improve the convergence speed and learning effect. Aiming at the problem of user attribute imbalance, this paper proposes a new feature selection and iterative reinforcement learning algorithm for small scale data. By integrating multiple feature related classifiers and considering the applicability of different feature combinations and classifiers, the ensemble classifiers focus on the learning of small scale data that are more easily error-separated. It can effectively improve the accuracy of user attribute classification learning. The real Chinese and English datasets are used to verify the effects of different behavioral modeling methods and feature filtering methods on attribute inference. The effect of different parameters and the imbalance of user attribute distribution on attribute inference is also discussed and compared with other methods. The experimental results show that the proposed method is effective.
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張雪超;;社會(huì)化媒體的營(yíng)銷潛能[J];互聯(lián)網(wǎng)天地;2010年06期
2 宋安;;不要對(duì)社會(huì)化媒體危機(jī)望而卻步[J];廣告大觀(綜合版);2011年03期
3 吳劍敏;;社會(huì)化媒體在政府中的應(yīng)用[J];企業(yè)導(dǎo)報(bào);2011年08期
4 趙苑君;;社會(huì)化媒體的品牌營(yíng)銷[J];信息通信;2011年03期
5 肖瑞;;淺談社會(huì)化媒體的作用[J];教育理論與實(shí)踐;2011年30期
6 付玉輝;;社會(huì)化媒體:未來的確定性和不確定性[J];互聯(lián)網(wǎng)天地;2011年09期
7 鄧煜;唐大麟;于夢(mèng);;社會(huì)化媒體時(shí)代的品牌營(yíng)銷之道[J];現(xiàn)代營(yíng)銷(學(xué)苑版);2011年11期
8 ;探尋社會(huì)化媒體的價(jià)值[J];廣告大觀(綜合版);2012年01期
9 王莉莉;;社會(huì)化媒體:廣告主的雙刃劍[J];廣告大觀(綜合版);2012年01期
10 陳東;;社會(huì)化媒體孵化“微博營(yíng)銷公司”?[J];廣告大觀(綜合版);2012年01期
相關(guān)會(huì)議論文 前6條
1 王嵐;;利用社會(huì)化媒體進(jìn)行新媒體內(nèi)容傳播[A];中國(guó)新聞技術(shù)工作者聯(lián)合會(huì)2013年學(xué)術(shù)年會(huì)、五屆五次理事會(huì)暨第六屆“王選新聞科學(xué)技術(shù)獎(jiǎng)”和優(yōu)秀論文獎(jiǎng)?lì)C獎(jiǎng)大會(huì)論文集(廣電篇)[C];2013年
2 呂天鶴;;論社會(huì)化媒體對(duì)科層制的沖擊——以微博為例[A];“傳播與中國(guó)·復(fù)旦論壇”(2013)——網(wǎng)絡(luò)化關(guān)系:新傳播與當(dāng)下中國(guó)論文集[C];2013年
3 李艷麗;;社會(huì)化媒體在體育產(chǎn)業(yè)中的應(yīng)用現(xiàn)狀與發(fā)展策略研究[A];2013體育計(jì)算機(jī)應(yīng)用論文集[C];2013年
4 華迎;王永貴;李兵;;社會(huì)化媒體中用戶創(chuàng)造內(nèi)容(UGC)采納行為影響因素研究[A];2013中國(guó)信息經(jīng)濟(jì)學(xué)會(huì)學(xué)術(shù)年會(huì)暨博士生論壇論文集[C];2013年
5 劉濤;楊有慶;;社會(huì)化媒體與都市空間的社會(huì)化表征[A];“傳播與中國(guó)·復(fù)旦論壇”(2012)——可溝通城市:理論建構(gòu)與中國(guó)實(shí)踐論文集[C];2012年
6 信莉麗;莊嚴(yán);;美聯(lián)社微博新聞本土化研究[A];2014中國(guó)傳播論壇:“國(guó)際話語體系與國(guó)際傳播能力建設(shè)”研討會(huì)會(huì)議論文集[C];2014年
相關(guān)重要報(bào)紙文章 前10條
1 本報(bào)記者 胡海波 編譯;社會(huì)化媒體:危機(jī)公關(guān)的利器[N];中國(guó)民航報(bào);2011年
2 楊吉;社會(huì)化媒體對(duì)企業(yè)意味著什么[N];上海證券報(bào);2013年
3 楊吉;社會(huì)化媒體對(duì)企業(yè)意味著什么[N];中華讀書報(bào);2013年
4 楊吉 法學(xué)博士 浙江傳媒學(xué)院互聯(lián)網(wǎng)與社會(huì)研究中心秘書長(zhǎng);社會(huì)化媒體企業(yè)意味著什么[N];中國(guó)圖書商報(bào);2013年
5 本報(bào)記者 周婷;社會(huì)化媒體掀起營(yíng)銷浪潮[N];中國(guó)證券報(bào);2010年
6 祝華新;社會(huì)化媒體:社會(huì)管理新挑戰(zhàn)[N];人民政協(xié)報(bào);2011年
7 本報(bào)記者 李延生;借力社會(huì)化媒體[N];中國(guó)企業(yè)報(bào);2011年
8 記者 李思;社會(huì)化媒體“遍地開花”[N];上海金融報(bào);2011年
9 任沁沁 胡雅婷;夢(mèng)想成真,社會(huì)化媒體正在融入生活[N];新華每日電訊;2012年
10 上海社科院信息研究所知識(shí)管理研究中心主任、副研究員 王興全;“數(shù)字化野火”:風(fēng)險(xiǎn)與治理[N];文匯報(bào);2013年
相關(guān)博士學(xué)位論文 前10條
1 趙宇翔;社會(huì)化媒體中用戶生成內(nèi)容的動(dòng)因與激勵(lì)設(shè)計(jì)研究[D];南京大學(xué);2011年
2 丁方舟;中國(guó)網(wǎng)絡(luò)行動(dòng)的動(dòng)因、過程與影響[D];浙江大學(xué);2015年
3 姚遠(yuǎn);面向社會(huì)化媒體的用戶生成內(nèi)容推薦技術(shù)研究[D];南京大學(xué);2015年
4 朱文龍;社會(huì)化媒體調(diào)查的適用性與模式效果研究[D];電子科技大學(xué);2014年
5 劉欣;面向社會(huì)化媒體的內(nèi)容推薦若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2015年
6 瞿旭晟;互聯(lián)網(wǎng)平臺(tái)上的知識(shí)生產(chǎn)[D];復(fù)旦大學(xué);2010年
7 陰紅志;社會(huì)化媒體中若干時(shí)空相關(guān)的推薦問題研究[D];北京大學(xué);2014年
8 潘p,
本文編號(hào):1411769
本文鏈接:http://www.sikaile.net/guanlilunwen/yingxiaoguanlilunwen/1411769.html