天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于Storm的微博實時推薦系統(tǒng)的設計與實現

發(fā)布時間:2019-07-13 19:48
【摘要】:隨著移動互聯網時代的來臨,廣大互聯網用戶獲取資訊、體驗互聯網服務更加的便捷,社交網絡服務也得到了井噴式發(fā)展,并成為了人們日常生活中的不可或缺的部分。微博是一個基于用戶關系的信息分享、傳播以及獲取的新興社交網絡平臺。以新浪微博為例,目前日活躍用戶大概有幾千萬,每天產生幾億條新微博。面對如此海量的信息,如何及時的為微博用戶推薦感興趣的微博和熱門關鍵詞,已然成為一個急需解決的問題。本論文研究了基于storm的微博實時推薦系統(tǒng)的設計與實現,主要的工作包括以下三個方面:首先,分析了微博推薦系統(tǒng)的研究進展,以及大數據處理的相關技術,包括Hadoop分布式計算框架,Storm實時分布式計算框架、Kafka分布式發(fā)布訂閱消息系統(tǒng)、滑動窗口模型等。其次,對微博實時推薦系統(tǒng)的整體架構進行了設計,將系統(tǒng)分為數據采集,數據離線處理,數據實時處理,數據儲存以及數據展示五個子系統(tǒng)。其中數據采集子系統(tǒng)包括微博API和爬蟲兩個模塊;數據離線處理子系統(tǒng)主要是基于Hadoop采用空間向量模型,并加入了基于牛頓冷卻定律的時間因子,對微博用戶的歷史數據進行離線的興趣建模,計算用戶的興趣向量;數據實時處理子系統(tǒng)主要是使用storm對用戶在微博展示界面的行為進行實時分析,來更新用戶的興趣模型和實現基于改進的滑動窗口模型的微博熱門關鍵詞的計算以及為用戶實時推薦興趣微博;數據儲存子系統(tǒng)主要是存儲系統(tǒng)的各種數據;數據展示子系統(tǒng)主要是展示用戶訂閱的微博,為用戶推薦的熱門關鍵詞以及為用戶推薦的微博;趕torm、Hadoop以及Kafka平臺,設計并實現了各個子系統(tǒng)。最后,搭建測試平臺,對系統(tǒng)進行性能以及功能測試,并對系統(tǒng)主要模塊的功能進行了分析和驗證,實驗結果表明系統(tǒng)達到了設計要求。系統(tǒng)采用分布式的架構設計,具有高可用,高擴展,計算能力強等特性?梢苑奖愕膸椭⒉┯脩舾咝У氖褂梦⒉,為微博用戶提供更好的個性化、差異化的推薦服務。
文內圖片:圖2-1邋Hadoop生態(tài)系統(tǒng)[18]逡逑
圖片說明: 2.1.1邐Hadoop生態(tài)系統(tǒng)筒介逡逑現今Hadoop己經成長為一個龐大的體系,滲透到大數據處理的各個領域。逡逑圖2-1是一個Hadoop家族的生態(tài)圖譜。Hadoop作為一個生態(tài)系統(tǒng),其生態(tài)圈內逡逑的每個子系統(tǒng)的都專注于解決某一特定領域的問題,這也是Hadoop的一個吸引逡逑人的魅力所在:由許多小而精的子系統(tǒng)構成[19]。在表2-1中列舉出了邋Hadoop生逡逑態(tài)系統(tǒng)中的各個組件及其功能。逡逑6逡逑
文內圖片:圖2-2MapReduce數據處理流程圖[1逡逑
圖片說明: MapReduce的名字來源于其模型中的兩項核心操作:Map階段和Reduce階逡逑段。Map階段主要是對輸入進行整合,將讀取的內容以鍵值對的形式輸出。Reduce逡逑階段負責對Map階段輸出的數據進行后續(xù)處理。圖2-2是MapReduce數據處理逡逑的流程圖。逡逑在數據進行MapReduce處理階段,首先Hadoop會對數據進行分塊處理,,之逡逑后將數據信息交給Map任務去讀取處理,產生相應的鍵值對數據。之后進入逡逑Reduce階段,執(zhí)行預先定義的Reduce函數,即將具有相同key的數據集中在一逡逑起進行處理,最后將結果輸出到HDFS上。逡逑Hadoop集群由普通PC構成,是無共享式架構,在數據處理之前,將數據逡逑分塊后儲存到各個節(jié)點上。在需要處理數據時,Map函數就近的讀取本地儲存的逡逑數據,將數據處理完再進行合并、排序操作后分發(fā)給Reduce函數處理。逡逑Splitl邐邐?{邐Map()邐Reduce()邋)邐?part。逡逑Split2邐邐MapQ邐ReduceQ邋)邐?parti逡逑Sp?3邐邐^邋MapQ邐^逡逑Spl(t4邐邐Map(}逡逑圖2-2MapReduce數據處理流程圖[1逡逑2.1.3邋HDFS邋簡介逡逑HDFS邋是邋Hadoop邋Distributed邋Hie邋System邋的縮寫
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.3

【參考文獻】

相關期刊論文 前4條

1 高鳳麗;孫連山;;個性化推薦系統(tǒng)概述[J];技術與市場;2015年02期

2 宋亞奇;劉樹仁;朱永利;王德文;李莉;;電力設備狀態(tài)高速采樣數據的云存儲技術研究[J];電力自動化設備;2013年10期

3 許小媛;程宏兵;;基于云計算的海量數據存儲[J];制造業(yè)自動化;2013年13期

4 賀玲;吳玲達;蔡益朝;;數據挖掘中的聚類算法綜述[J];計算機應用研究;2007年01期

相關碩士學位論文 前9條

1 劉暉;基于Hadoop的微博推薦系統(tǒng)的設計及實現[D];中國科學院大學(工程管理與信息技術學院);2014年

2 任青;基于Hadoop云平臺的社交網絡服務推薦算法的研究[D];吉林大學;2013年

3 耿玉嬌;MapReduce中基于抽樣技術的傾斜問題研究[D];大連海事大學;2013年

4 郝向濤;基于Hadoop的分布式文件系統(tǒng)技術分析及應用[D];武漢理工大學;2013年

5 汪曄;基于用戶關系鏈的微博收聽推薦系統(tǒng)設計與實現[D];華中科技大學;2013年

6 周姚;基于云計算的文本挖掘技術研究[D];國防科學技術大學;2011年

7 晏金;分布式文件系統(tǒng)在G/S模式中的應用研究[D];成都理工大學;2010年

8 莊永龍;基于項目特征模型的協同過濾推薦算法研究[D];南京理工大學;2008年

9 吳昕方;基于特征的個性化電子商務網站推薦系統(tǒng)的研究與實現[D];華東師范大學;2006年



本文編號:2514236

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2514236.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶d44d5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com