大數(shù)據(jù)平臺的自助數(shù)據(jù)提取系統(tǒng)
發(fā)布時間:2021-07-31 07:20
目前,互聯(lián)網(wǎng)數(shù)據(jù)正在快速增加并將持續(xù)增長,這使得大規(guī)模數(shù)據(jù)的提取分析處理成為企業(yè)關(guān)注的熱點問題。在沒有自助數(shù)據(jù)提取工具且業(yè)務(wù)量激增的情況下,時間和人力成本成為了業(yè)務(wù)拓展的限制因素。因此,設(shè)計高效的自助數(shù)據(jù)提取系統(tǒng)對企業(yè)的發(fā)展是至關(guān)重要的。本文采用Hive作為數(shù)據(jù)倉庫解決方案。然而,在海量數(shù)據(jù)的并行處理過程中,關(guān)聯(lián)查詢的連接操作產(chǎn)生的數(shù)據(jù)網(wǎng)絡(luò)傳輸代價成為了性能瓶頸。因此,改善Hive中的關(guān)聯(lián)查詢效率對于提高大數(shù)據(jù)平臺的自助數(shù)據(jù)提取系統(tǒng)的性能具有重要作用。本文從用戶的角度提出了一種提高Hive中關(guān)聯(lián)查詢效率的創(chuàng)新方法,即“學(xué)習(xí)查詢”架構(gòu)。用戶僅需在可視化操作界面上進行配置,“學(xué)習(xí)查詢”架構(gòu)即可生成最佳查詢計劃。本文主要的研究內(nèi)容和研究成果如下:1)設(shè)計查詢開銷預(yù)測模型進行查詢執(zhí)行時間的預(yù)測,預(yù)測結(jié)果作為一項參考標(biāo)準(zhǔn),用于“學(xué)習(xí)查詢”架構(gòu)進行最優(yōu)查詢計劃的選擇和長時間查詢?nèi)蝿?wù)的及時調(diào)整。本文采用深度學(xué)習(xí)技術(shù)LSTM進行查詢開銷的預(yù)測,基于前人工作進行改進,設(shè)計了更適用于大數(shù)據(jù)環(huán)境下Hive查詢的開銷預(yù)測模型,并通過實驗分析比較,驗證了改進模型的有效性。2)在“學(xué)習(xí)查詢”架構(gòu)中,本文提出了一種...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-2展開的RNN結(jié)構(gòu)??記輸入層神經(jīng)元的個數(shù)是n,隱含層的神經(jīng)元個數(shù)為m,輸出層神經(jīng)元個數(shù)??
時序間隔和延遲的任務(wù)。LSTM的核心是通過引入可控自循環(huán),使得梯度得以長??時間可持續(xù)流動,從而影響后續(xù)新輸入的處理結(jié)果。LSTM網(wǎng)絡(luò)的基本單元是記??憶塊,如圖2-3所示,包括一個或者多個的記憶狀態(tài)單元(cell?state)和三個自??適應(yīng)的乘法門控單元,即輸入門、輸出門和遺忘門。每一個記憶狀態(tài)單元的核心??是一個循環(huán)自連接的線性單元,稱為“Constant?Error?Carrousels”(CEC)。即在??LSTM中,輸入門、輸出門和遺忘門單元學(xué)習(xí)打開和關(guān)閉對單元的訪問,決定是??否保留較舊的信息以及何時將其輸出到網(wǎng)絡(luò)中。??cell?output?^?I?^?output?gate??output?gatwg?Scy〇llt:4?■■=—,:專系U二?ZOT??a?—s??memorizing?Q?cel,??一一一-戈--一'、V?and?forgetting?'?X/??forge!?gate?、 ̄^?T?inputjaie??g?gyin'|?r?)^rH?Zm??O-?X?V,一,?s??s??input?squashing?^?[_/j?J?111??cell?input?y?W〇\??/?\??Zc??圖2-3帶有一個記憶狀態(tài)的LSTM記憶塊p3]??其中,遺忘門的目的在于,控制從前面的記憶中丟棄多少信息,它決定了“上??一個時刻”的單元狀態(tài)有多少記憶可以保留到當(dāng)前時刻
?(2-6)??LSTM中的記憶狀態(tài),如傳送帶一般,讓信息向量從記憶單元中流過,只是??在其中又做了一些線性轉(zhuǎn)換,包括乘法和加法,如圖2-4所示。LSTM的核心要??素就是圖2-4中用虛線框標(biāo)注的乘法和加法操作。加法能夠幫助LSTM在必須進??行深度反向傳播時,維持恒定的誤差(或者說保留損失信號)。而這個損失信號??正是調(diào)參的向?qū),也就是因為這個“加法”操作才得以避免梯度消失問題。乘法??操作的前端輸入采用了?Sigmoid激活函數(shù),而Sigmoid輸出的元素值是一^在0??到1之間的實數(shù),它代表的是信息留存的權(quán)重。比如0表示不讓任何信息通過,??1表示讓所有信息通過,而中間值表示讓部分信息通過。??A??[、、、??tr?o?tanh?<r??ft?it?ct?°t???令?? ̄ ̄T?丄??tanh??;?j]?[0]Ct?^??圖2-4?LSTM隱含層單元的完整邏輯設(shè)計??12??
【參考文獻】:
期刊論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫查詢開銷預(yù)測[J]. 畢里緣,伍賽,陳剛,壽黎但,陳珂,胡天磊. 軟件學(xué)報. 2018(03)
[2]多核環(huán)境下基于圖模型的實時規(guī)則調(diào)度方法[J]. 王娟娟,喬穎,熊金泉,王宏安. 軟件學(xué)報. 2019(02)
[3]基線與增量數(shù)據(jù)分離架構(gòu)下的分布式連接算法[J]. 樊秋實,周敏奇,周傲英. 計算機學(xué)報. 2016(10)
[4]自助取數(shù)分析平臺實現(xiàn)精細(xì)快捷經(jīng)營分析[J]. 徐喆,李磊,李健. 通信企業(yè)管理. 2015(11)
[5]任務(wù)定時調(diào)度在企業(yè)級開發(fā)中的研究[J]. 王秀,孫忠林,姜莉. 電子科技. 2015(10)
[6]海量數(shù)據(jù)分析的One-size-fits-all OLAP技術(shù)[J]. 張延松,焦敏,王占偉,王珊,周烜. 計算機學(xué)報. 2011(10)
[7]一種基于圖模型的Web數(shù)據(jù)庫采樣方法[J]. 劉偉,孟小峰,凌妍妍. 軟件學(xué)報. 2008(02)
[8]SQL生成器的設(shè)計與實現(xiàn)[J]. 胡宏銀,何成萬,姚峰. 計算機工程與設(shè)計. 2006(11)
[9]數(shù)據(jù)倉庫查詢處理中的一種多表連接算法[J]. 蔣旭東,周立柱. 軟件學(xué)報. 2001(02)
碩士論文
[1]寧夏電信自助取數(shù)系統(tǒng)的設(shè)計與實現(xiàn)[D]. 伍星.電子科技大學(xué) 2016
[2]銀行自助取數(shù)服務(wù)系統(tǒng)的設(shè)計與實現(xiàn)[D]. 肖波.武漢科技大學(xué) 2015
[3]基于BI工具的OLAP最優(yōu)化SQL語句生成系統(tǒng)的研究與實現(xiàn)[D]. 胡仁強.北京郵電大學(xué) 2015
本文編號:3313032
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-2展開的RNN結(jié)構(gòu)??記輸入層神經(jīng)元的個數(shù)是n,隱含層的神經(jīng)元個數(shù)為m,輸出層神經(jīng)元個數(shù)??
時序間隔和延遲的任務(wù)。LSTM的核心是通過引入可控自循環(huán),使得梯度得以長??時間可持續(xù)流動,從而影響后續(xù)新輸入的處理結(jié)果。LSTM網(wǎng)絡(luò)的基本單元是記??憶塊,如圖2-3所示,包括一個或者多個的記憶狀態(tài)單元(cell?state)和三個自??適應(yīng)的乘法門控單元,即輸入門、輸出門和遺忘門。每一個記憶狀態(tài)單元的核心??是一個循環(huán)自連接的線性單元,稱為“Constant?Error?Carrousels”(CEC)。即在??LSTM中,輸入門、輸出門和遺忘門單元學(xué)習(xí)打開和關(guān)閉對單元的訪問,決定是??否保留較舊的信息以及何時將其輸出到網(wǎng)絡(luò)中。??cell?output?^?I?^?output?gate??output?gatwg?Scy〇llt:4?■■=—,:專系U二?ZOT??a?—s??memorizing?Q?cel,??一一一-戈--一'、V?and?forgetting?'?X/??forge!?gate?、 ̄^?T?inputjaie??g?gyin'|?r?)^rH?Zm??O-?X?V,一,?s??s??input?squashing?^?[_/j?J?111??cell?input?y?W〇\??/?\??Zc??圖2-3帶有一個記憶狀態(tài)的LSTM記憶塊p3]??其中,遺忘門的目的在于,控制從前面的記憶中丟棄多少信息,它決定了“上??一個時刻”的單元狀態(tài)有多少記憶可以保留到當(dāng)前時刻
?(2-6)??LSTM中的記憶狀態(tài),如傳送帶一般,讓信息向量從記憶單元中流過,只是??在其中又做了一些線性轉(zhuǎn)換,包括乘法和加法,如圖2-4所示。LSTM的核心要??素就是圖2-4中用虛線框標(biāo)注的乘法和加法操作。加法能夠幫助LSTM在必須進??行深度反向傳播時,維持恒定的誤差(或者說保留損失信號)。而這個損失信號??正是調(diào)參的向?qū),也就是因為這個“加法”操作才得以避免梯度消失問題。乘法??操作的前端輸入采用了?Sigmoid激活函數(shù),而Sigmoid輸出的元素值是一^在0??到1之間的實數(shù),它代表的是信息留存的權(quán)重。比如0表示不讓任何信息通過,??1表示讓所有信息通過,而中間值表示讓部分信息通過。??A??[、、、??tr?o?tanh?<r??ft?it?ct?°t???令?? ̄ ̄T?丄??tanh??;?j]?[0]Ct?^??圖2-4?LSTM隱含層單元的完整邏輯設(shè)計??12??
【參考文獻】:
期刊論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫查詢開銷預(yù)測[J]. 畢里緣,伍賽,陳剛,壽黎但,陳珂,胡天磊. 軟件學(xué)報. 2018(03)
[2]多核環(huán)境下基于圖模型的實時規(guī)則調(diào)度方法[J]. 王娟娟,喬穎,熊金泉,王宏安. 軟件學(xué)報. 2019(02)
[3]基線與增量數(shù)據(jù)分離架構(gòu)下的分布式連接算法[J]. 樊秋實,周敏奇,周傲英. 計算機學(xué)報. 2016(10)
[4]自助取數(shù)分析平臺實現(xiàn)精細(xì)快捷經(jīng)營分析[J]. 徐喆,李磊,李健. 通信企業(yè)管理. 2015(11)
[5]任務(wù)定時調(diào)度在企業(yè)級開發(fā)中的研究[J]. 王秀,孫忠林,姜莉. 電子科技. 2015(10)
[6]海量數(shù)據(jù)分析的One-size-fits-all OLAP技術(shù)[J]. 張延松,焦敏,王占偉,王珊,周烜. 計算機學(xué)報. 2011(10)
[7]一種基于圖模型的Web數(shù)據(jù)庫采樣方法[J]. 劉偉,孟小峰,凌妍妍. 軟件學(xué)報. 2008(02)
[8]SQL生成器的設(shè)計與實現(xiàn)[J]. 胡宏銀,何成萬,姚峰. 計算機工程與設(shè)計. 2006(11)
[9]數(shù)據(jù)倉庫查詢處理中的一種多表連接算法[J]. 蔣旭東,周立柱. 軟件學(xué)報. 2001(02)
碩士論文
[1]寧夏電信自助取數(shù)系統(tǒng)的設(shè)計與實現(xiàn)[D]. 伍星.電子科技大學(xué) 2016
[2]銀行自助取數(shù)服務(wù)系統(tǒng)的設(shè)計與實現(xiàn)[D]. 肖波.武漢科技大學(xué) 2015
[3]基于BI工具的OLAP最優(yōu)化SQL語句生成系統(tǒng)的研究與實現(xiàn)[D]. 胡仁強.北京郵電大學(xué) 2015
本文編號:3313032
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3313032.html
最近更新
教材專著