基于流式計(jì)算的廣告特征提取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于流式計(jì)算的廣告特征提取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 機(jī)器學(xué)習(xí) 流式計(jì)算 Task Manager HDFS MapReduce
【摘要】:伴隨著互聯(lián)網(wǎng)日新月異的發(fā)展,信息呈現(xiàn)出劇烈的膨脹,人們獲取信息的途徑也更加多樣、更加便捷,同時(shí)對(duì)于信息的時(shí)效性要求也越來越高。對(duì)于絕大部分的商用搜索引擎,像Google、Bing和Baidu等,通常在用戶查詢響應(yīng)的結(jié)果頁(yè)中提供結(jié)構(gòu)化的Web結(jié)果,同時(shí)也插入基于流量的點(diǎn)擊付費(fèi)模式的文本廣告。為了在頁(yè)面上最佳位置展現(xiàn)最相關(guān)的廣告,需要通過一些機(jī)器學(xué)習(xí)算法來動(dòng)態(tài)估算給定上下文中一個(gè)廣告被點(diǎn)擊的可能性。上下文可能包括廣告權(quán)重、用戶偏好、歷史查詢、歷史點(diǎn)擊等信息。一個(gè)主搜索引擎可能每秒鐘處理上千萬次查詢,每個(gè)頁(yè)面都可能會(huì)包含多個(gè)廣告。為了及時(shí)處理用戶反饋,需要廣告數(shù)據(jù)處理引擎保證低延遲、可擴(kuò)展和高可靠性。本文所介紹的流式廣告特征提取系統(tǒng)就是這樣一種實(shí)時(shí)的廣告數(shù)據(jù)處理引擎,通過從搜索引擎實(shí)時(shí)生成的檢索記錄的廣告展現(xiàn)日志和點(diǎn)擊日志中提取下游—廣告點(diǎn)擊率預(yù)估模型中各個(gè)機(jī)器學(xué)習(xí)算法所需要的廣告特征數(shù)據(jù),不斷訓(xùn)練、更新廣告預(yù)估被點(diǎn)擊的概率,搜索引擎依據(jù)這些實(shí)時(shí)更新的廣告預(yù)估點(diǎn)擊率來決定下次檢索時(shí)應(yīng)該展現(xiàn)什么廣告,以實(shí)現(xiàn)用戶、廣告主與百度三方的共贏。本流式廣告特征提取系統(tǒng)基于百度自主開發(fā)的流式計(jì)算框架Task Manager,結(jié)合了HDFS、MapReduce等相關(guān)技術(shù)方法。在百度鳳巢廣告系統(tǒng)的應(yīng)用中,通過本流式廣告特征提取系統(tǒng),廣告展現(xiàn)日志和點(diǎn)擊日志數(shù)據(jù)反饋到廣告點(diǎn)擊率預(yù)估模型的時(shí)間縮短至分鐘級(jí),系統(tǒng)每天處理的輸入廣告日志數(shù)據(jù)量達(dá)到數(shù)十T,生成的廣告特征數(shù)據(jù)量達(dá)到數(shù)百G。本文首先介紹了流式廣告特征提取系統(tǒng)的項(xiàng)目背景,然后將項(xiàng)目所涉及的相關(guān)技術(shù)背景和項(xiàng)目所使用的相關(guān)技術(shù)、框架做了簡(jiǎn)要的說明,接著詳細(xì)描述了系統(tǒng)的需求分析、總體設(shè)計(jì)和模塊設(shè)計(jì),并對(duì)系統(tǒng)的幾個(gè)關(guān)鍵模塊的設(shè)計(jì)和實(shí)現(xiàn)進(jìn)行了詳盡的論述,最后對(duì)項(xiàng)目和論文的工作做了一個(gè)總結(jié),并且對(duì)后續(xù)的下一階段工作進(jìn)行了展望。
【關(guān)鍵詞】:機(jī)器學(xué)習(xí) 流式計(jì)算 Task Manager HDFS MapReduce
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 引言11-15
- 1.1 項(xiàng)目背景11-12
- 1.2 搜索廣告日志處理的發(fā)展概況12
- 1.3 本文主要研究的工作12-13
- 1.4 本文的組織結(jié)構(gòu)13-15
- 第二章 技術(shù)綜述15-22
- 2.1 流式計(jì)算15-18
- 2.1.1 流式計(jì)算概述15-16
- 2.1.2 流式計(jì)算研究現(xiàn)狀16-18
- 2.2 Task Manager流式計(jì)算框架18-19
- 2.3 Hadoop相關(guān)技術(shù)19-21
- 2.4 本章小結(jié)21-22
- 第三章 廣告特征提取系統(tǒng)的分析與設(shè)計(jì)22-49
- 3.1 百度鳳巢廣告CTR預(yù)估系統(tǒng)簡(jiǎn)介22-23
- 3.2 項(xiàng)目總體規(guī)劃23-24
- 3.3 系統(tǒng)需求分析24-34
- 3.3.1 功能需求24-25
- 3.3.2 非功能需求25-27
- 3.3.3 用例圖27-28
- 3.3.4 關(guān)鍵用例描述28-34
- 3.4 系統(tǒng)總體設(shè)計(jì)34-35
- 3.4.1 系統(tǒng)設(shè)計(jì)目標(biāo)34
- 3.4.2 總體結(jié)構(gòu)34-35
- 3.5 系統(tǒng)模塊設(shè)計(jì)35-48
- 3.5.1 模塊劃分36-37
- 3.5.2 distcp模塊37-38
- 3.5.3 bundler_pretreat模塊38-40
- 3.5.4 bundler模塊40-42
- 3.5.5 extractor_asp模塊42-43
- 3.5.6 extractor_clk模塊43-44
- 3.5.7 extractor_feature模塊44-46
- 3.5.8 joiner模塊46-47
- 3.5.9 exporter模塊47-48
- 3.6 本章小結(jié)48-49
- 第四章 廣告特征提取系統(tǒng)的實(shí)現(xiàn)49-70
- 4.1 extractor_asp模塊的實(shí)現(xiàn)49-56
- 4.1.1 數(shù)據(jù)結(jié)構(gòu)49-53
- 4.1.2 詳細(xì)實(shí)現(xiàn)53-56
- 4.2 extractor_feature模塊的實(shí)現(xiàn)56-60
- 4.2.1 數(shù)據(jù)結(jié)構(gòu)56-58
- 4.2.2 詳細(xì)實(shí)現(xiàn)58-60
- 4.3 joiner模塊的實(shí)現(xiàn)60-65
- 4.3.1 數(shù)據(jù)結(jié)構(gòu)60-63
- 4.3.2 詳細(xì)實(shí)現(xiàn)63-65
- 4.4 部署與評(píng)估65-67
- 4.5 測(cè)試工作67-68
- 4.6 本章小結(jié)68-70
- 第五章 總結(jié)與展望70-72
- 5.1 總結(jié)70-71
- 5.2 進(jìn)一步工作展望71-72
- 參考文獻(xiàn)72-74
- 致謝74-76
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 郎波;張博宇;;面向大數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)關(guān)鍵技術(shù)[J];信息技術(shù)與標(biāo)準(zhǔn)化;2013年10期
2 邵景峰;崔尊民;王進(jìn)富;白曉波;;大數(shù)據(jù)下紡織制造執(zhí)行系統(tǒng)的構(gòu)建[J];紡織器材;2013年06期
3 張亞楠;譚躍生;;基于MapReduce的并行遮蓋文本聚類算法[J];內(nèi)蒙古科技大學(xué)學(xué)報(bào);2013年03期
4 周國(guó)亮;朱永利;王桂蘭;;CC-MRSJ:Hadoop平臺(tái)下緩存敏感的星型聯(lián)接算法[J];電信科學(xué);2013年10期
5 王鵬;黃焱;劉峰;安俊秀;;大數(shù)據(jù)技術(shù)中計(jì)算與數(shù)據(jù)的協(xié)作機(jī)制[J];成都信息工程學(xué)院學(xué)報(bào);2014年01期
6 杜政頡;王鵬;黃焱;郎福通;;一種基于Storm編程模型的迭代Topology方案[J];成都信息工程學(xué)院學(xué)報(bào);2014年01期
7 范飛;黃文明;鄧珍榮;;Oozie工作流在Mahout分布式數(shù)據(jù)挖掘中的應(yīng)用[J];桂林電子科技大學(xué)學(xué)報(bào);2014年01期
8 丁玉成;諸葛晴鳳;沙行勉;;云計(jì)算環(huán)境下排序算法的性能分析[J];重慶大學(xué)學(xué)報(bào);2014年04期
9 喬媛媛;劉芳;凌艷;尹勁松;;云計(jì)算環(huán)境下MapReduce的資源建模與性能預(yù)測(cè)[J];北京郵電大學(xué)學(xué)報(bào);2014年S1期
10 劉瓊;趙榮;孫立堅(jiān);;Map/Reduce框架下的粗糙集空間數(shù)據(jù)挖掘改進(jìn)算法[J];測(cè)繪科學(xué);2014年05期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前7條
1 喬媛媛;劉芳;凌艷;尹勁松;;云計(jì)算環(huán)境下MapReduce的資源建模與性能預(yù)測(cè)[A];2013年全國(guó)通信軟件學(xué)術(shù)會(huì)議論文集[C];2013年
2 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26屆中國(guó)控制與決策會(huì)議論文集[C];2014年
3 陳佐旗;余柏蒗;吳健平;;基于GPU通用計(jì)算的遙感數(shù)據(jù)處理——以計(jì)算地表太陽(yáng)輻射值為例[A];第十八屆中國(guó)環(huán)境遙感應(yīng)用技術(shù)論壇論文集[C];2014年
4 白永超;付偉;辛陽(yáng);;基于Hadoop和Nutch的分布式搜索引擎研究與仿真[A];第十九屆全國(guó)青年通信學(xué)術(shù)年會(huì)論文集[C];2014年
5 李超越;徐國(guó)勝;;Hadoop公平調(diào)度算法的改進(jìn)[A];第十九屆全國(guó)青年通信學(xué)術(shù)年會(huì)論文集[C];2014年
6 張愷玉;陳磊;;一種基于Hadoop架構(gòu)的指揮系統(tǒng)大數(shù)據(jù)挖掘方法[A];第三屆中國(guó)指揮控制大會(huì)論文集(上冊(cè))[C];2015年
7 朱健軍;張彤;吳哲夫;;基于權(quán)值的Hadoop調(diào)度算法改進(jìn)與實(shí)現(xiàn)[A];浙江省電子學(xué)會(huì)2014學(xué)術(shù)年會(huì)論文集[C];2014年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 李健;云計(jì)算環(huán)境下最小化運(yùn)營(yíng)開銷的調(diào)度技術(shù)研究[D];北京郵電大學(xué);2013年
2 韓晶;大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2013年
3 程祥;高效可靠的虛擬網(wǎng)絡(luò)映射技術(shù)研究[D];北京郵電大學(xué);2013年
4 李韌;基于Hadoop的大規(guī)模語(yǔ)義Web本體數(shù)據(jù)查詢與推理關(guān)鍵技術(shù)研究[D];重慶大學(xué);2013年
5 盧風(fēng)順;面向CPU/GPU異構(gòu)體系結(jié)構(gòu)的并行計(jì)算關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2012年
6 孫鵬;動(dòng)車組維修物聯(lián)網(wǎng)及其關(guān)鍵技術(shù)研究[D];中國(guó)鐵道科學(xué)研究院;2013年
7 肖奎;維基百科大數(shù)據(jù)的知識(shí)挖掘與管理方法研究[D];武漢大學(xué);2013年
8 程興國(guó);仿生算法的動(dòng)態(tài)反饋機(jī)制及其并行化實(shí)現(xiàn)方法研究[D];華南理工大學(xué);2013年
9 馬馮;數(shù)據(jù)密集型計(jì)算環(huán)境下貝葉斯網(wǎng)的學(xué)習(xí)、推理及應(yīng)用[D];云南大學(xué);2013年
10 韓海雯;MapReduce計(jì)算任務(wù)調(diào)度的資源配置優(yōu)化研究[D];華南理工大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陳貞;HDFS環(huán)境下的訪問控制技術(shù)研究[D];重慶大學(xué);2013年
2 張丹;HDFS中文件存儲(chǔ)優(yōu)化的相關(guān)技術(shù)研究[D];南京師范大學(xué);2013年
3 潘吳斌;基于云計(jì)算的并行K-means氣象數(shù)據(jù)挖掘研究與應(yīng)用[D];南京信息工程大學(xué);2013年
4 趙洪昌;云計(jì)算下的關(guān)聯(lián)分析和模糊聚類研究[D];南京信息工程大學(xué);2013年
5 汪洋;通信網(wǎng)云計(jì)算平臺(tái)資源調(diào)度策略與算法研究[D];南昌大學(xué);2013年
6 呂天然;基于MapReduce的可視化工作流遙感并行處理平臺(tái)及關(guān)鍵技術(shù)研究[D];河南大學(xué);2013年
7 但光祥;云計(jì)算環(huán)境下混合加密算法研究與實(shí)現(xiàn)[D];重慶大學(xué);2013年
8 周濤;基于Hadoop的遙感數(shù)字圖像處理方法研究[D];東北師范大學(xué);2013年
9 程偉;海量信令并行即時(shí)分析系統(tǒng)的研究與設(shè)計(jì)[D];中國(guó)海洋大學(xué);2013年
10 賈玉輝;面向語(yǔ)音交互的云計(jì)算系統(tǒng)的研究[D];中國(guó)海洋大學(xué);2013年
,本文編號(hào):1095034
本文鏈接:http://www.sikaile.net/wenyilunwen/guanggaoshejilunwen/1095034.html