云環(huán)境下流數(shù)據(jù)關(guān)鍵字的實(shí)時查詢處理技術(shù)研究
本文關(guān)鍵詞:云環(huán)境下流數(shù)據(jù)關(guān)鍵字的實(shí)時查詢處理技術(shù)研究
更多相關(guān)文章: 流數(shù)據(jù) 云計算 實(shí)時處理 Top-K關(guān)鍵字查詢 突發(fā)關(guān)鍵字查詢 Spark Streaming
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,新聞、博客、社交應(yīng)用的興起,流數(shù)據(jù)關(guān)鍵字的實(shí)時查詢處理技術(shù)被廣泛應(yīng)用于搜索引擎、社交網(wǎng)絡(luò)等各個領(lǐng)域,F(xiàn)有的查詢處理技術(shù)大多假設(shè)關(guān)鍵字集合已知,然而在大數(shù)據(jù)背景下,關(guān)鍵字集合的大小通常是未知的。同時傳統(tǒng)集中式的查詢處理方法未考慮數(shù)據(jù)劃分、合并方法等問題,從而導(dǎo)致算法應(yīng)用到分布式環(huán)境后精度和性能下降。本文針對流數(shù)據(jù)中常見的幾類關(guān)鍵字查詢問題,提出新的實(shí)時處理技術(shù)及相應(yīng)的查詢算法,主要研究工作如下:(1)現(xiàn)有流數(shù)據(jù)Top-K關(guān)鍵字查詢算法使用固定的存儲空間,在關(guān)鍵字集合已知的條件下,查找出流數(shù)據(jù)中出現(xiàn)頻數(shù)最高的k個關(guān)鍵字。但在許多應(yīng)用場景中,關(guān)鍵字集合通常是未知的。針對這個問題,在Spark Streaming框架下提出一種基于動態(tài)Summary的Top-K關(guān)鍵字查詢算法TSTop-K(Time Supported Top-K Term Query),算法通過數(shù)據(jù)劃分,并結(jié)合更新策略的優(yōu)化、合并方法的設(shè)計,使得算法在使用少量存儲空間和關(guān)鍵字集合未知的條件下具有較高的精度。(2)現(xiàn)存的突發(fā)關(guān)鍵字查詢方法存儲統(tǒng)計所有的關(guān)鍵字,并未考慮熱點(diǎn)關(guān)鍵字。在數(shù)據(jù)呈爆炸式增長的背景下,獲取熱點(diǎn)關(guān)鍵字的突發(fā)時間更具有價值。針對這個問題,提出一種基于數(shù)值差異模型的分布式突發(fā)關(guān)鍵字查詢算法DBT(Distributed Bursty Term Query),算法采用動態(tài)的更新策略,設(shè)置檢查點(diǎn)的方法提取熱點(diǎn)關(guān)鍵字,然后根據(jù)突發(fā)值估計方法計算關(guān)鍵字的突發(fā)程度,找出關(guān)鍵字剛開始突發(fā)的時間,并在線性的時間內(nèi)返回所有查詢關(guān)鍵字綜合突發(fā)值最高的時間范圍。(3)以流式處理框架Spark Streaming為基礎(chǔ),設(shè)計實(shí)現(xiàn)了一個關(guān)鍵字實(shí)時查詢處理系統(tǒng)RTQPT(Real-Time Query Processing System of Terms),實(shí)現(xiàn)本文提出的Top-K關(guān)鍵字查詢和突發(fā)關(guān)鍵字查詢,能夠根據(jù)監(jiān)測到的關(guān)鍵字,高效的處理、存儲和查詢,具有一定的擴(kuò)展性。對設(shè)計的關(guān)鍵字實(shí)時查詢處理系統(tǒng)的設(shè)計思想、系統(tǒng)架構(gòu)、各個模塊的設(shè)計及實(shí)現(xiàn)做了詳細(xì)的介紹。
【關(guān)鍵詞】:流數(shù)據(jù) 云計算 實(shí)時處理 Top-K關(guān)鍵字查詢 突發(fā)關(guān)鍵字查詢 Spark Streaming
【學(xué)位授予單位】:南京航空航天大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要4-5
- ABSTRACT5-13
- 第一章 緒論13-18
- 1.1 云環(huán)境下流數(shù)據(jù)查詢處理技術(shù)的發(fā)展13-15
- 1.2 本文的選題依據(jù)和意義15-16
- 1.3 本文的主要工作16
- 1.4 本文的組織結(jié)構(gòu)16-18
- 第二章 云環(huán)境下流數(shù)據(jù)關(guān)鍵字實(shí)時查詢處理技術(shù)相關(guān)工作18-28
- 2.1 云環(huán)境下流數(shù)據(jù)實(shí)時查詢處理技術(shù)概述18-23
- 2.1.1 大數(shù)據(jù)流式處理框架18-21
- 2.1.2 大數(shù)據(jù)存儲技術(shù)21-23
- 2.2 流數(shù)據(jù)Top-K關(guān)鍵字查詢技術(shù)23-26
- 2.2.1 基于Counter的查詢方法24-25
- 2.2.2 基于Sketch的查詢方法25-26
- 2.3 流數(shù)據(jù)突發(fā)關(guān)鍵字查詢技術(shù)26-27
- 2.4 本章小結(jié)27-28
- 第三章 基于動態(tài)Summary的Top-K關(guān)鍵字查詢方法28-40
- 3.1 問題描述28-29
- 3.2 Top-K關(guān)鍵字查詢定義29
- 3.3 分布式Top-K關(guān)鍵字查詢算法29-35
- 3.3.1 數(shù)據(jù)劃分30
- 3.3.2 基于動態(tài)Summary更新策略和檢查點(diǎn)的設(shè)置30-33
- 3.3.3 Top-K查詢算法33-35
- 3.3.4 代價分析35
- 3.4 實(shí)驗(yàn)與性能評估35-39
- 3.4.1 實(shí)驗(yàn)設(shè)置35-36
- 3.4.2 結(jié)果分析36-39
- 3.5 本章小結(jié)39-40
- 第四章 基于數(shù)值差異模型的突發(fā)關(guān)鍵字查詢方法40-53
- 4.1 問題描述40-41
- 4.2 形式化描述41-42
- 4.2.1 問題定義41-42
- 4.2.2 突發(fā)值估計42
- 4.3 分布式突發(fā)關(guān)鍵字查詢算法42-49
- 4.3.1 熱點(diǎn)關(guān)鍵字提取43-46
- 4.3.2 突發(fā)查詢方法46-49
- 4.3.3 代價分析49
- 4.4 實(shí)驗(yàn)與性能評估49-52
- 4.4.1 實(shí)驗(yàn)設(shè)置49
- 4.4.2 結(jié)果分析49-52
- 4.5 本章小結(jié)52-53
- 第五章 云環(huán)境下RTQPT系統(tǒng)設(shè)計與實(shí)現(xiàn)53-62
- 5.1 RTQPT系統(tǒng)的設(shè)計53-55
- 5.1.1 設(shè)計思想53-54
- 5.1.2 體系架構(gòu)54
- 5.1.3 執(zhí)行流程54-55
- 5.2 RTQPT系統(tǒng)的實(shí)現(xiàn)55-61
- 5.2.1 數(shù)據(jù)接入模塊的實(shí)現(xiàn)56
- 5.2.2 數(shù)據(jù)處理模塊的實(shí)現(xiàn)56-58
- 5.2.3 數(shù)據(jù)存儲模塊的實(shí)現(xiàn)58-59
- 5.2.4 數(shù)據(jù)查詢模塊的實(shí)現(xiàn)59-60
- 5.2.5 實(shí)驗(yàn)結(jié)果及分析60-61
- 5.3 本章小結(jié)61-62
- 第六章 結(jié)束語62-64
- 6.1 本文的主要工作和貢獻(xiàn)62-63
- 6.2 本文的不足和未來的研究方向63-64
- 參考文獻(xiàn)64-70
- 致謝70-71
- 在學(xué)期間的研究成果及發(fā)表的學(xué)術(shù)論文71
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 金澈清,錢衛(wèi)寧,周傲英;流數(shù)據(jù)分析與管理綜述[J];軟件學(xué)報;2004年08期
2 聶國梁;盧正鼎;;流數(shù)據(jù)實(shí)時近似求和的算法研究[J];小型微型計算機(jī)系統(tǒng);2005年10期
3 李衛(wèi)民;于守健;駱軼姝;樂嘉錦;;流數(shù)據(jù)管理的降載技術(shù):研究進(jìn)展[J];計算機(jī)科學(xué);2007年06期
4 李子杰;鄭誠;;流數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)存儲及管理方法比較研究[J];計算機(jī)技術(shù)與發(fā)展;2009年04期
5 潘靜;于宏偉;;流數(shù)據(jù)管理降載技術(shù)研究綜述[J];中國管理信息化;2009年21期
6 鄒永貴;龔海平;夏英;宋強(qiáng);;一種面向流數(shù)據(jù)頻繁項(xiàng)挖掘的降載策略[J];計算機(jī)應(yīng)用研究;2011年04期
7 聶國梁;盧正鼎;聶國棟;;流數(shù)據(jù)近似統(tǒng)計算法研究[J];計算機(jī)科學(xué);2005年04期
8 魏晶晶;金培權(quán);龔育昌;岳麗華;;基于流數(shù)據(jù)的大對象數(shù)據(jù)緩沖機(jī)制[J];計算機(jī)工程;2006年11期
9 楊立;;基于權(quán)重的流數(shù)據(jù)頻繁項(xiàng)挖掘算法的應(yīng)用[J];微型機(jī)與應(yīng)用;2011年02期
10 尹為;張成虎;楊彬;;基于流數(shù)據(jù)頻繁項(xiàng)挖掘的可疑金融交易識別研究[J];西安交通大學(xué)學(xué)報(社會科學(xué)版);2011年05期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 劉正濤;毛宇光;吳莊;;一種新的流數(shù)據(jù)模型及其擴(kuò)展[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
2 姚春芬;陳紅;;分布偏斜的流數(shù)據(jù)上的一種直方圖維護(hù)算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年
3 孫煥良;趙法信;鮑玉斌;于戈;王大玲;;CD-Stream——一種基于空間劃分的流數(shù)據(jù)密度聚類算法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 丁智國;流數(shù)據(jù)在線異常檢測方法研究[D];上海大學(xué);2015年
2 聶國梁;流數(shù)據(jù)統(tǒng)計算法研究[D];華中科技大學(xué);2006年
3 劉建偉;流數(shù)據(jù)查詢系統(tǒng)結(jié)構(gòu)及模式查詢算法的研究[D];東華大學(xué);2005年
4 李衛(wèi)民;流數(shù)據(jù)查詢算法若干關(guān)鍵技術(shù)研究[D];東華大學(xué);2008年
5 屠莉;流數(shù)據(jù)的頻繁項(xiàng)挖掘及聚類的關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2009年
6 陳筠翰;車載網(wǎng)絡(luò)的若干關(guān)鍵技術(shù)研究[D];吉林大學(xué);2014年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 孔祥佳;基于海洋平臺監(jiān)測的流數(shù)據(jù)管理研究[D];大連理工大學(xué);2015年
2 王晨陽;支持位置謂詞的XML流數(shù)據(jù)查詢技術(shù)[D];北京工業(yè)大學(xué);2015年
3 王中義;基于動態(tài)支持度的流數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘[D];哈爾濱工業(yè)大學(xué);2014年
4 趙丹;面向流數(shù)據(jù)的不平衡樣本分類研究[D];哈爾濱工業(yè)大學(xué);2014年
5 馮學(xué)智;基于宏森林自動機(jī)的XML流數(shù)據(jù)查詢技術(shù)[D];北京工業(yè)大學(xué);2015年
6 徐靂靂;物流數(shù)據(jù)中的云聚類調(diào)度算法研究[D];南京郵電大學(xué);2015年
7 肖丙賢;大規(guī)模流數(shù)據(jù)聚集查詢服務(wù)的生成與優(yōu)化[D];北方工業(yè)大學(xué);2016年
8 劉曉斐;分布式流處理系統(tǒng)操作共享優(yōu)化算法研究[D];吉林大學(xué);2016年
9 張媛;基于彈性分布式數(shù)據(jù)集的流數(shù)據(jù)聚類分析[D];華東師范大學(xué);2016年
10 王曾亦;基于內(nèi)存計算的流數(shù)據(jù)處理在飛行大數(shù)據(jù)的研究與應(yīng)用[D];電子科技大學(xué);2016年
,本文編號:991486
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/991486.html