天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于HDFS的微博數(shù)據(jù)管理系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2020-03-12 08:48
【摘要】:隨著Web2.0技術(shù)的深入發(fā)展,微博作為一種新型媒體出現(xiàn)在人們的視野里。微博以其獨有的內(nèi)容短小精悍、傳播速度快、影響范圍廣等特點受到越來越多的人的關(guān)注和喜愛,并已經(jīng)成為互聯(lián)網(wǎng)的典型應(yīng)用之一。隨著微博的飛速發(fā)展,用戶對微博信息的獲取需求也呈直線上升態(tài)勢。面對每天海量的微博信息,如何快速、準確地找到自己所需要的微博信息是一個亟待解決的問題。本文在對微博特點進行分析的基礎(chǔ)上,結(jié)合Hadoop分布式系統(tǒng)框架和Lucene全文檢索引擎,設(shè)計并實現(xiàn)了一套微博數(shù)據(jù)管理系統(tǒng)。本文首先對系統(tǒng)進行需求分析。然后,采用模塊化設(shè)計的方法對系統(tǒng)進行總體設(shè)計。詳細介紹了微博數(shù)據(jù)抓取、微博數(shù)據(jù)預(yù)處理、微博數(shù)據(jù)分布式存儲、微博數(shù)據(jù)倒排索引、微博數(shù)據(jù)排序以及微博數(shù)據(jù)檢索各個模塊的設(shè)計與實現(xiàn)。通過系統(tǒng)測試,對系統(tǒng)進行了功能評估。最后,對本文進行了總結(jié)并指出了系統(tǒng)存在的不足之處。系統(tǒng)的主要功能是微博數(shù)據(jù)的抓取、微博預(yù)處理、微博存儲、微博索引、微博排序和微博檢索。為了實現(xiàn)上述功能,本系統(tǒng)采取的關(guān)鍵技術(shù):一是微博Crawler,利用新浪微博開放平臺提供的API抓取微博數(shù)據(jù);二是分布式存儲,微博數(shù)據(jù)的分布式存儲采用HDFS(Hadoop Distributed File System,分布式文件系統(tǒng)),HDFS在廉價的機器和大規(guī)模數(shù)據(jù)集上使用更為適合,在數(shù)據(jù)訪問時可提供高吞吐量,為了完成流式訪問數(shù)據(jù)的目的,HDFS對POSIX放寬了約束。HDFS目前為Apache的頂級項目;三是排序算法,參考了PageRank排序算法的思想,提出了一個微博數(shù)據(jù)的排序算法。系統(tǒng)利用新浪微博開放平臺API抓取微博數(shù)據(jù),對系統(tǒng)中的微博數(shù)據(jù)進行預(yù)處理,并采用分布式文件系統(tǒng)HDFS進行存儲。采用Lucene全文檢索引擎和MapReduce編程模型,利用Lucene提供的索引引擎建立微博數(shù)據(jù)的倒排索引。針對微博數(shù)據(jù)的特點,利用Lucene提供的查詢引擎,設(shè)計并實現(xiàn)了一個微博排序算法,從而大大提高了微博數(shù)據(jù)的檢索效率。在面對海量的微博信息時,用戶可以更加快速、準確的找到自己所需的信息。
【圖文】:

用例圖,用例圖,分布式文件系統(tǒng)


圖 2-7 微博檢索用例圖分析最終結(jié)論系統(tǒng)實現(xiàn)目標、系統(tǒng)開發(fā)環(huán)境、系統(tǒng)運行環(huán)p 中的 HDFS 分布式文件系統(tǒng)和 MapReduc提供了實踐依據(jù),利用了 Lucene 提供的索排序提供了理論依據(jù)。數(shù)據(jù)中采用 HDFS 分布式文件系統(tǒng)進行存性和廣泛性。HDFS 分布式文件系統(tǒng)能夠收便用戶通過關(guān)鍵詞來檢索系統(tǒng)中的微博數(shù)回更多的相關(guān)微博數(shù)據(jù)。實現(xiàn)微博數(shù)據(jù)的新速度快,具有實時性的特點,要保證微

基于HDFS的微博數(shù)據(jù)管理系統(tǒng)的設(shè)計與實現(xiàn)


微博Craw
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.52;TP393.092
,

本文編號:2586510

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2586510.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8467d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com