天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 營銷論文 >

基于搜索數據的用戶畫像模型研究

發(fā)布時間:2020-03-30 21:48
【摘要】:互聯(lián)網在為我們帶來便利的同時,也帶來了不容小覷的信息安全問題。近年來,用戶信息泄露的事件頻繁發(fā)生,這不僅涉及到用戶的個人隱私,更涉及到企業(yè)、國家以及政府機構的戰(zhàn)略安全問題。為此,用戶越來越不愿意將自己的真實信息暴露給第三方平臺。搜索企業(yè)更是很難獲取到用戶的屬性、喜好等數據,但用戶基本屬性及喜好數據對于搜索領域的廣告投放來說又至關重要。搜索企業(yè)能獲取到用戶最直接的數據便是用戶搜索數據,這些豐富的用戶搜索數據可以充分刻畫用戶的基本屬性和喜好,是用戶所關注事物的真實表現(xiàn)。用戶的屬性、喜好可以通過用戶畫像進行刻畫,用戶畫像是企業(yè)對某個用戶或某類用戶進行個性化推薦的基礎,蘊含著巨大的商業(yè)價值;谏鲜霰尘,本研究借助2016年CCF大數據與計算智能大賽中20w搜狗用戶的搜索數據展開研究,首先介紹了搜索領域廣告投放的發(fā)展,從搜索數據的短文本分析和用戶畫像兩個角度出發(fā),梳理了相關理論和關鍵技術,提出了基于搜索數據的用戶畫像研究框架;其次提出了基于Doc2Vec文檔特征、TF-IDF特征和人工特征三個維度的搜索詞混合特征模型,在提取TF-IDF特征時,參考現(xiàn)有研究思路,采用Word2Vec詞向量加權的方法對TF-IDF算法進行改進,并通過實驗,驗證了算法改進的有效率;然后分析了影響搜索企業(yè)廣告投放的主要因素,選取了對廣告投放影響較大的兩個研究點,用戶基本屬性和用戶喜好,提出了用戶畫像標簽和基于搜索數據的用戶畫像構建流程;接著將混合特征作為用戶畫像基本屬性模型的輸入,使用多種機器學習算法進行模型訓練,并基于模型融合的思想得到用戶畫像基本屬性模型;然后將降維后的混合特征與用戶基本屬性合并,使用K-Means聚類算法,參考新浪微博的話題標簽,構建用戶畫像喜好模型;最后通過模型應用,證明模型的有效性。本研究根據每個階段的研究成果對搜索領域的廣告引入、廣告投放等方面提出了相應的建議。目前,游戲、電商、美食、搜索等領域的應用都會產生大數據量的文本信息,并且有非常大的占比都是短文本信息。本研究提出的混合特征模型和用戶畫像模型既可以解決短文本數據特征提取和搜索領域用戶畫像模型構建的問題,也可以將其推廣到用戶屬性預測等領域。
【圖文】:

實驗過程,大全,周公,百合


表 3-4 分詞結果對比不同分詞工具 周公解夢大全查詢 百合網首頁JIEBA 周公 解夢 大全 查詢 百合網 首頁THULC 周公解 夢 大全 查詢 百合網 首 頁NLPIR 周 公 解 夢 大全 查詢 百 合網 首 頁從表 3-5 中可知,JIEBA 分詞器在教育水平、年齡和性別三個屬性的準確率均是最高的,其次是 THULC 分詞器。因此,本研究使用了分詞效果最好的JIEBA 工具進行分詞。表 3-5 三種分詞工具的結果準確率對比分詞工具 教育水平 年齡 性別 平均成績JIEBA 58.93% 57.38% 68.92% 61.74%THULC 58.56% 57.98% 68.64% 61.73%NLPIR 57.93% 57.95% 67.28% 61.05%圖 3-1 為實驗過程中打印出來的部分 JIEBA 分詞結果,表 3-6 是整理后的原始搜索數據與 JIEBA 工具的分詞效果。以“腐竹怎么做好吃法大全”為例,JIEBA 分詞結果為“腐竹、怎么、做好、吃法、大全”,結果較符合常識。

模型性,實驗過程,標簽,缺失


腐竹怎么做好吃法大全 腐竹 怎么 做好 吃法 大全王侯將相寧有種乎中乎是什么意思 王侯將相 寧 有種乎 是 意思高考后會考過了什么時候發(fā)畢業(yè)證 高考 后 會考 過了 什么 時候 發(fā) 畢業(yè)證微微一笑很傾城兩人在第幾集見面 微微一笑 很 傾城 兩人 在 第幾 集 見面服裝設計人體模特畫法 服裝設計 人體模特 畫法3.2.3 缺失樣本處理本研究在分析原始樣本數據時,發(fā)現(xiàn)各屬性和任意屬性缺失的樣本占比如表 3-7 所示。為了更充分的挖掘用戶的搜索詞信息,本研究對訓練數據集中標簽為 0,即缺失標簽的樣本進行了預測。本研究在對比了幾種分類器的優(yōu)缺點后,使用 JIEBA 分詞工具對搜索詞進行分詞,然后使用 LR 模型訓練出分類器,對缺失標簽的樣本進行預測,從而補全缺失值。在對空缺的標簽進行填充時,本研究使用 sklearn.feature_extraction.text 包中的 TF-IDFVectorizer 方法,,提取訓練數據集用戶搜索詞的 TF-IDF 特征。本研究考慮到實驗機器性能的問題,設置參數 min_df=3,max_df=0.95,表示建立單詞表時會取某單詞出現(xiàn)個數大于 3 或詞頻小于 0.95 的詞。最終得到了一個 10w*1699133 的矩陣。
【學位授予單位】:武漢理工大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:F274

【相似文獻】

相關期刊論文 前10條

1 石鵬;;基于模型與建模的化學學習過程設計[J];化學教育;2016年23期

2 陳新傳;;傳送帶模型分析及應用[J];中學物理教學參考;2016年18期

3 張夢蕓;;“運動的完成”教學設計[J];中學生物教學;2017年02期

4 馬薇;郭曉麗;魏銳;王瀾;;對電解模型的追問與重構[J];中學化學教學參考;2017年05期

5 楊玉琴;;化學核心素養(yǎng)之“模型認知”能力的測評研究[J];化學教學;2017年07期

6 李明;;人口的模型分析[J];中小企業(yè)管理與科技(中旬刊);2017年01期

7 鄭行軍;;圓盤模型的拓展分析[J];理科考試研究;2017年07期

8 陸陳驍;馮佳媛;;國際市場投資心理研究——基于函數GARCH-M模型的視角[J];智富時代;2017年06期

9 蘆敬毅;;兩類傳送帶模型分析[J];新課程(下);2017年06期

10 ;新知客[J];視野;2017年18期

相關會議論文 前10條

1 錢林曉;王一濤;;對應試教育條件下學生學習行為的模型分析[A];2005年中國教育經濟學年會會議論文集[C];2005年

2 朱萍;劉偉澤;萬立濱;;基于實證研究的知識管理路線、方法和模型分析[A];航空工業(yè)檔案學會七屆四次理事會暨2013年度優(yōu)秀論文交流會論文集[C];2013年

3 賀小明;閆秀峰;楊克修;付盡芳;;火電廠物流系統(tǒng)模型分析研究[A];人才、創(chuàng)新與老工業(yè)基地的振興——2004年中國機械工程學會年會論文集[C];2004年

4 王新心;;北京貨物運輸量的模型分析[A];第六屆中國青年運籌與管理學者大會論文集[C];2004年

5 林志炳;許保光;蔡晨;;基于消費者偏好的混合渠道模型分析[A];中國優(yōu)選法統(tǒng)籌法與經濟數學研究會第七屆全國會員代表大會暨第七屆中國管理科學學術年會論文集[C];2005年

6 賀小明;閆秀峰;楊克修;付盡芳;;火電廠物流系統(tǒng)模型分析研究[A];2004年中國機械工程學會年會論文集:物流工程與中國現(xiàn)代經濟——第七屆物流工程學術年會專輯[C];2004年

7 張貝;張好智;;逆向物流網絡設計模型分析與算法(英文)[A];可持續(xù)發(fā)展的中國交通——2005全國博士生學術論壇(交通運輸工程學科)論文集(上冊)[C];2005年

8 張黎;;影響企業(yè)知識擴散因素的模型分析[A];現(xiàn)代工業(yè)工程與管理研討會會議論文集[C];2006年

9 張元萍;陳闖;王力平;;天津市科技型中小企業(yè)融資體系構建與整合——基于要素重組下三維動態(tài)模型分析[A];新規(guī)劃·新視野·新發(fā)展——天津市社會科學界第七屆學術年會優(yōu)秀論文集《天津學術文庫》(下)[C];2011年

10 陳杰姝;;電子渠道建設模型分析[A];第七屆中國通信學會學術年會論文集[C];2010年

相關重要報紙文章 前10條

1 陳永偉;回歸本源,拷問根基[N];中華讀書報;2017年

2 信達證券首席策略分析師、研發(fā)中心執(zhí)行總監(jiān) 陳嘉禾;研究市場并不難 讓小模型成為好幫手[N];證券時報;2017年

3 媛萍;用模型分析企業(yè)戰(zhàn)略要素[N];中國高新技術產業(yè)導報;2002年

4 鄒至莊 美國普林斯頓大學經濟學教授;如何用模型分析中國經濟?[N];企業(yè)家日報;2015年

5 江蘇省昆山市地稅局;模型分析樹標桿 層層深入破稅案[N];中國稅務報;2010年

6 隋彭生;合同成立與生效的八個模型分析[N];法制日報;2006年

7 山東 汪超;利用水杯水位對基本放大電路非線性失真進行模型分析[N];電子報;2012年

8 中國人民大學公共政策研究院執(zhí)行副院長 毛壽龍;為何純市場模型分析不了中國房地產市場[N];中國經濟導報;2016年

9 田學科;山體為什么會移動[N];地質勘查導報;2006年

10 陳冠因;銅價三季度存反彈機會[N];中國證券報;2013年

相關博士學位論文 前10條

1 陳柯;基于內生SLX模型的中國省級地區(qū)間經濟相互作用研究[D];上海社會科學院;2019年

2 陳舒琪;半參數加速失效時間混合治愈模型的構建及其在醫(yī)學中的應用[D];中國人民解放軍海軍軍醫(yī)大學;2019年

3 朱華鋒;幾類可觀測序列驅動的條件異方差模型研究[D];廣州大學;2017年

4 黃飛虎;結構圖模型的學習及其應用研究[D];南京航空航天大學;2017年

5 王學明;基于主題模型的多媒體問答研究[D];南京理工大學;2018年

6 王巧;螞蟻單列運動的實驗與模型研究[D];中國科學技術大學;2019年

7 徐曉軍;稀疏數據驅動的高維空間圖模型學習及應用[D];北京理工大學;2017年

8 薛健;兩類量子模型相變及其相關性質的研究[D];中國科學院大學(中國科學院物理研究所);2019年

9 汪玲玲;兩類DSGE模型的結構計量分析方法及其應用研究[D];天津財經大學;2017年

10 段巍巍;高維組學研究中的貝葉斯多位點模型[D];南京醫(yī)科大學;2018年

相關碩士學位論文 前10條

1 崔陽;在線健康社區(qū)場景化推薦模型研究[D];吉林大學;2019年

2 章琳;內存相關軟件漏洞特征分析及漏洞模型構建方法研究[D];江蘇大學;2019年

3 薛夢茹;基于KMV模型我國上市公司信用風險測度實證分析[D];河南科技大學;2019年

4 李恩慧;基于DSC理論砌體結構本構模型的研究[D];新疆大學;2019年

5 王丹;復雜關聯(lián)數據的張量模型與應用研究[D];廈門大學;2017年

6 吳慧娟;三維復眼相機模型的優(yōu)化設計與定位分析[D];武漢理工大學;2018年

7 時磊;基于層流煙點高度的碳黑模型數值模擬研究[D];武漢理工大學;2018年

8 林穎;基于XGBoost-CNN模型的圖片識別分析[D];廈門大學;2018年

9 高凱;基于復雜網絡理論的微博轉發(fā)模型研究[D];中國石油大學(華東);2017年

10 權甜甜;基于搜索數據的用戶畫像模型研究[D];武漢理工大學;2018年



本文編號:2608109

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/yingxiaoguanlilunwen/2608109.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶758ac***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com