百度Feed用戶行為數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2022-12-18 03:39
在信息智能化的時(shí)代,利用大數(shù)據(jù)并借助數(shù)據(jù)分析模型與分析算法,為用戶提供個(gè)性化服務(wù)來增加用戶對(duì)產(chǎn)品的依賴性已經(jīng)成為了一種主流趨勢(shì)。百度擁有龐大的用戶量,通過用戶行為日志分析用戶興趣愛好,為用戶提供最適合的個(gè)性化服務(wù)已經(jīng)成為百度服務(wù)宗旨。百度Feed流基于百億用戶數(shù)據(jù),以人群屬性、搜索意向、行為數(shù)據(jù)、興趣愛好來了解用戶行為,精確鎖定用戶需求。Feed流是百度2017年的重點(diǎn)業(yè)務(wù),根據(jù)信息流廣告在整個(gè)廣告市場(chǎng)的增長(zhǎng)勢(shì)頭,百度Feed流廣告將成為新的增長(zhǎng)點(diǎn),Feed流業(yè)務(wù)給百度帶來了巨大的經(jīng)濟(jì)效益。同時(shí),伴隨著Feed流成為百度的重點(diǎn)業(yè)務(wù),為了進(jìn)一步完善Feed流業(yè)務(wù)以及更好的了解用戶需求,關(guān)于Feed流的各項(xiàng)分析業(yè)務(wù)也逐漸成型。針對(duì)Feed流用戶行為日志數(shù)據(jù)管理與分析的重要需求,本文基于Hadoop平臺(tái)進(jìn)行Feed用戶行為數(shù)據(jù)倉(cāng)庫(kù)的分析、設(shè)計(jì)、建模與實(shí)現(xiàn),最終產(chǎn)出合理、規(guī)范的Feed用戶行為數(shù)據(jù)倉(cāng)庫(kù),該數(shù)據(jù)倉(cāng)庫(kù)主要提供了明細(xì)層基礎(chǔ)數(shù)據(jù)和數(shù)據(jù)主題層數(shù)據(jù)。本論文首先分析了Feed的產(chǎn)品形態(tài)和建立數(shù)據(jù)倉(cāng)庫(kù)所需要的日志源,以及所建數(shù)據(jù)倉(cāng)庫(kù)的相關(guān)數(shù)據(jù)維度。其次,在數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)層面和數(shù)據(jù)模型層面進(jìn)行了...
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景及研究的目的和意義
1.2 與本課題有關(guān)的國(guó)內(nèi)外研究狀況
1.3 本文的主要研究?jī)?nèi)容
1.3.1 本文的研究思路及擬達(dá)到的效果
1.3.2 文章的框架結(jié)構(gòu)
第2章 相關(guān)理論與技術(shù)概述
2.1 數(shù)據(jù)倉(cāng)庫(kù)相關(guān)理論基礎(chǔ)
2.1.1 數(shù)據(jù)倉(cāng)庫(kù)的興起
2.1.2 數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)
2.1.3 經(jīng)典數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)體系
2.2 HADOOP核心技術(shù)
2.2.1 HDFS文件存儲(chǔ)系統(tǒng)
2.2.2 MapReduce計(jì)算模型
2.2.3 Hive理論基礎(chǔ)
2.3 FEED流簡(jiǎn)單介紹
2.4 本章小結(jié)
第3章 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)需求分析
3.1 業(yè)務(wù)及數(shù)據(jù)流分析
3.1.1 Feed產(chǎn)品形態(tài)分析
3.1.2 Feed日志源分析
3.1.3 Feed用戶行為數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)流分析
3.2 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)需求分析
3.2.1 Feed用戶行為數(shù)據(jù)倉(cāng)庫(kù)需求分析
3.2.2 數(shù)據(jù)維度分析
3.3 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)ETL分析
3.4 課題實(shí)施所需的條件及關(guān)鍵技術(shù)分析
3.4.1 課題實(shí)施所需的條件
3.4.2 關(guān)鍵技術(shù)
3.5 本章小結(jié)
第4章 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)
4.1 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)設(shè)計(jì)
4.1.1 Feed用戶行為數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)設(shè)計(jì)
4.1.2 手機(jī)百度端Feed基礎(chǔ)數(shù)據(jù)大表ETL流程設(shè)計(jì)
4.1.3 Wise首頁(yè)端Feed基礎(chǔ)數(shù)據(jù)大表ETL流程設(shè)計(jì)
4.1.4 主題數(shù)據(jù)設(shè)計(jì)
4.2 FEED基礎(chǔ)數(shù)據(jù)表數(shù)據(jù)模型設(shè)計(jì)
4.2.1 星形模式設(shè)計(jì)
4.2.2 基礎(chǔ)信息設(shè)計(jì)
4.2.3 表結(jié)構(gòu)設(shè)計(jì)
4.2.4 存儲(chǔ)設(shè)計(jì)
4.3 本章小結(jié)
第5章 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)
5.1 明細(xì)層數(shù)據(jù)的實(shí)現(xiàn)
5.1.1 數(shù)據(jù)抽取
5.1.2 數(shù)據(jù)轉(zhuǎn)化和數(shù)據(jù)加載
5.1.3 Feed基礎(chǔ)數(shù)表創(chuàng)建
5.2 數(shù)據(jù)主題層實(shí)現(xiàn)
5.3 展現(xiàn)報(bào)表配置
5.4 本章小結(jié)
第6章 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)的測(cè)試及運(yùn)行
6.1 測(cè)試方案
6.2 基礎(chǔ)數(shù)據(jù)大表的數(shù)據(jù)誤差檢驗(yàn)
6.3 數(shù)據(jù)延遲測(cè)試
6.4 測(cè)試結(jié)果與分析
6.5 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)在線運(yùn)行與應(yīng)用
6.6 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
個(gè)人簡(jiǎn)歷
【參考文獻(xiàn)】:
期刊論文
[1]國(guó)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 曾杰. 金融科技時(shí)代. 2016(04)
[2]基于統(tǒng)計(jì)方法的Hive數(shù)據(jù)倉(cāng)庫(kù)查詢優(yōu)化實(shí)現(xiàn)[J]. 王有為,王偉平,孟丹. 計(jì)算機(jī)研究與發(fā)展. 2015(06)
[3]ETL數(shù)據(jù)抽取研究綜述[J]. 張瑞. 軟件導(dǎo)刊. 2010(10)
[4]論數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)架構(gòu)設(shè)計(jì)[J]. 張曙明. 信息通信技術(shù). 2009(06)
[5]病種分析主題數(shù)據(jù)倉(cāng)庫(kù)的建立[J]. 劉玉,陳金雄. 醫(yī)學(xué)信息. 2008(12)
[6]實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的研究[J]. 姜震,黃霞. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2007(07)
[7]基于數(shù)據(jù)倉(cāng)庫(kù)的ETL技術(shù)研究[J]. 劉繁艷. 軟件導(dǎo)刊. 2007(11)
[8]數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)研究[J]. 胡璟超,唐建雄. 軟件導(dǎo)刊. 2007(09)
[9]數(shù)據(jù)倉(cāng)庫(kù)中ETL技術(shù)的探討與實(shí)踐[J]. 王克龍,王玲,王平立,宋斌. 計(jì)算機(jī)應(yīng)用與軟件. 2005(11)
[10]數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[J]. 王曙燕,耿國(guó)華,周明全. 計(jì)算機(jī)應(yīng)用研究. 2005(09)
博士論文
[1]企業(yè)集團(tuán)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)關(guān)鍵技術(shù)研究[D]. 宋旭東.大連理工大學(xué) 2010
碩士論文
[1]倉(cāng)儲(chǔ)物流數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 張耀丹.東華大學(xué) 2017
[2]法院數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 王治國(guó).中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2016
[3]面向智慧城市的地理信息數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 周海鵬.中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2014
[4]淘寶網(wǎng)數(shù)據(jù)平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)[D]. 陳新明.大連理工大學(xué) 2013
[5]一個(gè)商業(yè)銀行數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)模型設(shè)計(jì)與實(shí)現(xiàn)[D]. 趙歡.復(fù)旦大學(xué) 2011
[6]銀行CRM系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)[D]. 方國(guó)勝.華東師范大學(xué) 2008
[7]高校學(xué)院級(jí)面向用戶的主題數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建[D]. 李桂周.哈爾濱工業(yè)大學(xué) 2007
[8]氣象數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)[D]. 李仲龍.蘭州大學(xué) 2007
本文編號(hào):3721260
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景及研究的目的和意義
1.2 與本課題有關(guān)的國(guó)內(nèi)外研究狀況
1.3 本文的主要研究?jī)?nèi)容
1.3.1 本文的研究思路及擬達(dá)到的效果
1.3.2 文章的框架結(jié)構(gòu)
第2章 相關(guān)理論與技術(shù)概述
2.1 數(shù)據(jù)倉(cāng)庫(kù)相關(guān)理論基礎(chǔ)
2.1.1 數(shù)據(jù)倉(cāng)庫(kù)的興起
2.1.2 數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)
2.1.3 經(jīng)典數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)體系
2.2 HADOOP核心技術(shù)
2.2.1 HDFS文件存儲(chǔ)系統(tǒng)
2.2.2 MapReduce計(jì)算模型
2.2.3 Hive理論基礎(chǔ)
2.3 FEED流簡(jiǎn)單介紹
2.4 本章小結(jié)
第3章 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)需求分析
3.1 業(yè)務(wù)及數(shù)據(jù)流分析
3.1.1 Feed產(chǎn)品形態(tài)分析
3.1.2 Feed日志源分析
3.1.3 Feed用戶行為數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)流分析
3.2 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)需求分析
3.2.1 Feed用戶行為數(shù)據(jù)倉(cāng)庫(kù)需求分析
3.2.2 數(shù)據(jù)維度分析
3.3 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)ETL分析
3.4 課題實(shí)施所需的條件及關(guān)鍵技術(shù)分析
3.4.1 課題實(shí)施所需的條件
3.4.2 關(guān)鍵技術(shù)
3.5 本章小結(jié)
第4章 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)
4.1 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)設(shè)計(jì)
4.1.1 Feed用戶行為數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)設(shè)計(jì)
4.1.2 手機(jī)百度端Feed基礎(chǔ)數(shù)據(jù)大表ETL流程設(shè)計(jì)
4.1.3 Wise首頁(yè)端Feed基礎(chǔ)數(shù)據(jù)大表ETL流程設(shè)計(jì)
4.1.4 主題數(shù)據(jù)設(shè)計(jì)
4.2 FEED基礎(chǔ)數(shù)據(jù)表數(shù)據(jù)模型設(shè)計(jì)
4.2.1 星形模式設(shè)計(jì)
4.2.2 基礎(chǔ)信息設(shè)計(jì)
4.2.3 表結(jié)構(gòu)設(shè)計(jì)
4.2.4 存儲(chǔ)設(shè)計(jì)
4.3 本章小結(jié)
第5章 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)
5.1 明細(xì)層數(shù)據(jù)的實(shí)現(xiàn)
5.1.1 數(shù)據(jù)抽取
5.1.2 數(shù)據(jù)轉(zhuǎn)化和數(shù)據(jù)加載
5.1.3 Feed基礎(chǔ)數(shù)表創(chuàng)建
5.2 數(shù)據(jù)主題層實(shí)現(xiàn)
5.3 展現(xiàn)報(bào)表配置
5.4 本章小結(jié)
第6章 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)的測(cè)試及運(yùn)行
6.1 測(cè)試方案
6.2 基礎(chǔ)數(shù)據(jù)大表的數(shù)據(jù)誤差檢驗(yàn)
6.3 數(shù)據(jù)延遲測(cè)試
6.4 測(cè)試結(jié)果與分析
6.5 FEED用戶行為數(shù)據(jù)倉(cāng)庫(kù)在線運(yùn)行與應(yīng)用
6.6 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
個(gè)人簡(jiǎn)歷
【參考文獻(xiàn)】:
期刊論文
[1]國(guó)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 曾杰. 金融科技時(shí)代. 2016(04)
[2]基于統(tǒng)計(jì)方法的Hive數(shù)據(jù)倉(cāng)庫(kù)查詢優(yōu)化實(shí)現(xiàn)[J]. 王有為,王偉平,孟丹. 計(jì)算機(jī)研究與發(fā)展. 2015(06)
[3]ETL數(shù)據(jù)抽取研究綜述[J]. 張瑞. 軟件導(dǎo)刊. 2010(10)
[4]論數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)架構(gòu)設(shè)計(jì)[J]. 張曙明. 信息通信技術(shù). 2009(06)
[5]病種分析主題數(shù)據(jù)倉(cāng)庫(kù)的建立[J]. 劉玉,陳金雄. 醫(yī)學(xué)信息. 2008(12)
[6]實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的研究[J]. 姜震,黃霞. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2007(07)
[7]基于數(shù)據(jù)倉(cāng)庫(kù)的ETL技術(shù)研究[J]. 劉繁艷. 軟件導(dǎo)刊. 2007(11)
[8]數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)研究[J]. 胡璟超,唐建雄. 軟件導(dǎo)刊. 2007(09)
[9]數(shù)據(jù)倉(cāng)庫(kù)中ETL技術(shù)的探討與實(shí)踐[J]. 王克龍,王玲,王平立,宋斌. 計(jì)算機(jī)應(yīng)用與軟件. 2005(11)
[10]數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[J]. 王曙燕,耿國(guó)華,周明全. 計(jì)算機(jī)應(yīng)用研究. 2005(09)
博士論文
[1]企業(yè)集團(tuán)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)關(guān)鍵技術(shù)研究[D]. 宋旭東.大連理工大學(xué) 2010
碩士論文
[1]倉(cāng)儲(chǔ)物流數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 張耀丹.東華大學(xué) 2017
[2]法院數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 王治國(guó).中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2016
[3]面向智慧城市的地理信息數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 周海鵬.中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2014
[4]淘寶網(wǎng)數(shù)據(jù)平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)[D]. 陳新明.大連理工大學(xué) 2013
[5]一個(gè)商業(yè)銀行數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)模型設(shè)計(jì)與實(shí)現(xiàn)[D]. 趙歡.復(fù)旦大學(xué) 2011
[6]銀行CRM系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)[D]. 方國(guó)勝.華東師范大學(xué) 2008
[7]高校學(xué)院級(jí)面向用戶的主題數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建[D]. 李桂周.哈爾濱工業(yè)大學(xué) 2007
[8]氣象數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)[D]. 李仲龍.蘭州大學(xué) 2007
本文編號(hào):3721260
本文鏈接:http://www.sikaile.net/wenyilunwen/guanggaoshejilunwen/3721260.html
最近更新
教材專著