時間序列數(shù)據(jù)分類、檢索方法及應(yīng)用研究
本文關(guān)鍵詞:時間序列數(shù)據(jù)分類、檢索方法及應(yīng)用研究,由筆耕文化傳播整理發(fā)布。
中國料孽教求犬謄博士學(xué)位論文時間序列數(shù)據(jù)分類、檢索方法及應(yīng)用研究作者姓名:鄭毅學(xué)科專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)導(dǎo)師姓名:陳恩紅教授趙建良教授完成時間:二。一五年五月
ottSo"cienceandVlsreviechnoloqvnanihofCUniversit)ofTech:)logyna
Adissertationfordoctor’SdegreeSeriesClassification.RetrievalMethodsandApplicationsAUthorjYiZheng—Speciality:ComputerApplicationTechnologySupervisor:Prof.EnhongChenProf.J.LeonZhaoFinishedTime:May,2015Time
中國科學(xué)技術(shù)大學(xué)學(xué)位論文原創(chuàng)性聲明
本人聲明所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下進(jìn)行研究工作所取得的成果。除已特別加以標(biāo)注和致謝的地方外,論文中不包含任何他人已經(jīng)發(fā)表或撰寫過的研究成果。與我一同工作的同志對本研究所做的貢獻(xiàn)均已在論文中作了明確的說明。
作者簽名:簽字日期:印侈.17∥驢3
中國科學(xué)技術(shù)大學(xué)學(xué)位論文授權(quán)使用聲明
作為申請學(xué)位的條件之一,學(xué)位論文著作權(quán)擁有者授權(quán)中國科學(xué)技術(shù)大學(xué)擁有學(xué)位論文的部分使用權(quán),即:學(xué)校有權(quán)按有關(guān)規(guī)定向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱,可以將學(xué)位論文編入《中國學(xué)位論文全文數(shù)據(jù)庫》等有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。本人提交的電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。
保密的學(xué)位論文在解密后也遵守此規(guī)定。
,
酎公開口保密年
作者簽名:絲藍(lán)選
簽字日期:導(dǎo)師簽名:2里竺:!笸=12簽字日期:砂\∑。06j寸7
摘要
摘要
時間序列數(shù)據(jù)是一類重要的具有時序特征的數(shù)據(jù)對象。時間序列數(shù)據(jù)可以通過科學(xué)應(yīng)用以及其他商業(yè)應(yīng)用(例如,金融領(lǐng)域)方便的獲取得到。一個時間序列是一組按照時間先后順序排列好的數(shù)據(jù)采樣觀察值。具體地,時間序列數(shù)據(jù)的性質(zhì)包括:數(shù)據(jù)規(guī)模大(大數(shù)據(jù)),高維度以及流數(shù)據(jù)特性(數(shù)據(jù)更新連續(xù))。此外,時間序列數(shù)據(jù)采樣點(diǎn)具有連續(xù)性和數(shù)值特性,整個時間序列可以被看成是一個整體的數(shù)據(jù)對象而非每個單獨(dú)具體的數(shù)值采樣點(diǎn)。由于時間序列可以方便的采集得到,大量的時間序列數(shù)據(jù)可以用于科學(xué)研究和深入的數(shù)據(jù)挖掘。在過去十年中,大量的科學(xué)工作者致力于時間序列數(shù)據(jù)挖掘工作,并取得了很多有效的成果。與此同時,由于時間序列數(shù)據(jù)的復(fù)雜特性,實(shí)際應(yīng)用中時間序列數(shù)據(jù)挖掘面臨了很多挑戰(zhàn)。時間序列數(shù)據(jù)挖掘的目的之一是從時序數(shù)據(jù)形狀角度,嘗試抽取所有有意義的知識。整體上來看,時間序列數(shù)據(jù)挖掘同更一般的數(shù)據(jù)挖掘任務(wù)類似,同樣是為了更好的挖掘、抽取得到可以用于進(jìn)一步分析和應(yīng)用的知識表示。盡管人類可以很直觀的、很自然的通過時間序列數(shù)據(jù)“形狀”上的特性獲知每個時間序列的潛在知識,諸如:類別,是否相似,是否是反轉(zhuǎn)點(diǎn)等。然而,對于任何一部計(jì)算機(jī),它都只能完成基本的機(jī)械式的計(jì)算任務(wù)。任何包括類似人的這種感知、理解、識別的能力,計(jì)算機(jī)都無法直接獲得。因此,包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)在內(nèi)的領(lǐng)域,其根本任務(wù)均為設(shè)計(jì)相應(yīng)的模型和算法,從某種程度上通過程序使得計(jì)算機(jī)獲得這種智能的感知、理解和識別等能力。
本文著重探索時間序列數(shù)據(jù)挖掘的若干問題。具體而言,本論文從時間序列數(shù)據(jù)分類、時間序列數(shù)據(jù)檢索以及時間序列表示和建模等方面入手,結(jié)合現(xiàn)實(shí)生活中的若干具體問題提出了相應(yīng)的模型和方法,并通過大量實(shí)驗(yàn)驗(yàn)證了這些方法的有效性和其在性能上的優(yōu)勢。本篇論文的主要目的之一是通過機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法,結(jié)合具體工業(yè)、科學(xué)領(lǐng)域的具體問題,設(shè)計(jì)并提出解決相應(yīng)問題的模型和方法,從而更好的解決現(xiàn)實(shí)世界中對應(yīng)的時間序列數(shù)據(jù)的問題。我們希望本篇論文能夠提供一種新的看待時間序列數(shù)據(jù)的視角給相關(guān)時間序列研究人員,從而使該工作獲得更廣泛的關(guān)注并被擴(kuò)展、引申出更多深入的研究工作。
本文盼研究內(nèi)容分為四個部分,分別探索時間序列表示方法,多元時間序列分類問題,時間序列快速檢索以及時間序列分段表示以及建模問題。針對以上四個具體的時間序列數(shù)據(jù)挖掘問題,結(jié)合現(xiàn)實(shí)世界中四個具體的問題,我們相應(yīng)的提出了四個具體的模型方法來解決這些問題。
在過去十幾年里,時間序列數(shù)據(jù)挖掘中的序列分類問題引起了學(xué)術(shù)界大量的關(guān)注。相應(yīng)地,以往學(xué)者提出了許多有關(guān)時間序列分類的方法,并且認(rèn)為基于最近鄰(k-NeartestNeighbor,特別是1-NN)的方法是目前效果最好的分類方T
摘要
法。對于給定的具體分類問題,由于基于最近鄰方法的分類效果主要依賴于距離度量的選擇,因此,如何對給定問題選擇一個合適的距離度量成為了時間序列數(shù)據(jù)挖掘中的一個熱門的研究問題。
目前,針對時間序列數(shù)據(jù),已經(jīng)存在許多基于不同角度設(shè)計(jì)的距離度量方法。其中,應(yīng)用最為廣泛的兩個距離度量方法是歐式距離(Euclidean
和動態(tài)時間反轉(zhuǎn)(DynamicTimedistance)Warping)。歐氏距離是一種簡單有效的度量方法,在一些實(shí)際的時間序列數(shù)據(jù)分類中,它可以獲得比較好的分類效果。相對地,動態(tài)時間反轉(zhuǎn)引入了兩個序列對齊的概念,從而允許兩個時間序列不同時間點(diǎn)的數(shù)據(jù)進(jìn)行對齊。這種序列對齊的方法使得動態(tài)時間反轉(zhuǎn)在一些分類場景下獲得了比歐式距離好的效果。然而,動態(tài)時間反轉(zhuǎn)主要的一個缺點(diǎn)是它需要更多的計(jì)算開銷,并且,盡管結(jié)合1-NN方法,在許多場景下,它可以獲得最好的分類效果,但是對于其他一些實(shí)際應(yīng)用問題,它的分類效果沒有明顯優(yōu)于其他度量方法。目前的研究結(jié)果表明,沒有一種時間度量方法能夠在所有時間序列數(shù)據(jù)上都可以獲得最好的分類效果。另一方面,一般來說距離度量的選擇需要人為的經(jīng)驗(yàn)選擇,,因此,這需要大量的人力成本和時間開銷。因此,對于時間序列數(shù)據(jù)如何自動的選擇一個合適的距離度量是目前時間序列數(shù)據(jù)挖掘領(lǐng)域的一個挑戰(zhàn)。
借鑒特征學(xué)習(xí)的方法,我們探索距離度量學(xué)習(xí)方法在時間序列數(shù)據(jù)上的應(yīng)用。具體地,通過距離度量的學(xué)習(xí),針對不同的數(shù)據(jù),我們可以自動的學(xué)習(xí)得到更好地距離度量方法,從而可以提升時間序列分類的準(zhǔn)確率。過去幾年,許多距離度量學(xué)習(xí)方法已經(jīng)被提出。其中,一種通過線性變換的模型名為近鄰成分分析(NeighborhoodComponentsAnalysis,NCA)的方法,通過學(xué)習(xí)得到的原始數(shù)據(jù)的低維表示方法,結(jié)合肛NN分類器,從而提升了分類的準(zhǔn)確率。然而,這種簡單的線性變換的局限在于它不能夠?qū)υ紨?shù)據(jù)高階的相關(guān)性進(jìn)行建模,從而影響了分類的效果。因此,基于NCA方法,另一種稱為非線性近鄰成分分析(NonlinearNCA)的距離度量學(xué)習(xí)方法被提出。這種方法能夠?qū)W習(xí)獲得原始數(shù)據(jù)更好的低維空間表示,從而可以獲得比線性近鄰成分分析方法更好的分類的準(zhǔn)確率。遺憾的是,對于時間序列數(shù)據(jù),以上兩種距離度量學(xué)習(xí)方法不能夠捕捉到時間序列的本質(zhì)特性,即時間軸上的偏移(timeshift)。
為了能夠捕捉時間軸上偏移的特性,我們結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),即時空不變形,針對時間序列數(shù)據(jù),提出了一種全新的距離度量學(xué)習(xí)方法。具體地,我們基于非線性近鄰成分分析方法(NNCA),設(shè)計(jì)了一種名為卷積非線性近鄰成分分析的距離度量學(xué)習(xí)方法(CNNCA)。該方法不僅能夠?qū)W習(xí)得到低維空間的非線性數(shù)據(jù)映射,并且可以捕捉到時間序列在時間軸上的偏移。通過學(xué)習(xí)得到數(shù)據(jù)的低維空間表示,結(jié)合1-NN分類器,我們通過大量實(shí)驗(yàn)證明了,對于許多數(shù)據(jù)集,這種基于卷積非線性近鄰分析方法學(xué)習(xí)得到的距離表示可以獲得比傳統(tǒng)歐式距離,動態(tài)時間反轉(zhuǎn),基于窗口約束的DTW更好的分類效果。特別對TT
本文關(guān)鍵詞:時間序列數(shù)據(jù)分類、檢索方法及應(yīng)用研究,由筆耕文化傳播整理發(fā)布。
本文編號:66157
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/66157.html