海量數(shù)據(jù)相關(guān)性判別算法研究及應(yīng)用
發(fā)布時間:2021-03-16 09:51
數(shù)據(jù)增長速度比以往任何時候都快,到2020年,地球上的每個人每秒創(chuàng)造大約1.7兆字節(jié)的新信息。檢測大數(shù)據(jù)集中變量之間的關(guān)系在基因組學(xué),物理學(xué),政治學(xué)和經(jīng)濟學(xué)領(lǐng)域變得越來越普遍,這使得發(fā)現(xiàn)變量之間的關(guān)系成為一個日益嚴峻的挑戰(zhàn)。一般而言,在樣本量足夠大的情況下,我們希望能夠找到變量之間廣泛的關(guān)聯(lián),不僅限于特定的函數(shù)(如線性),而應(yīng)該是所有的函數(shù)關(guān)系。我們希望找到在不同類型的關(guān)系中具有相同噪音下的相似的分數(shù)度量。在對基因數(shù)據(jù)的研究中,檢測與疾病關(guān)聯(lián)的致病基因的研究占有重要地位,是人們研究的重點問題。然而現(xiàn)有的大部分方法檢測手段時間長、代價大,因此希望通過其他手段對致病基因做出檢測。而傳統(tǒng)的計算方法對于非線性的函數(shù)檢測效果差,為此,本文針對這兩點提出新的解決方法。本文的主要研究成果有:1.最大信息系數(shù)(MIC)是一種有效的探索數(shù)據(jù)關(guān)系的工具。MIC在將變量劃分成網(wǎng)格時窮盡所有劃分方法,并且該過程決定了MIC算法的時間在大數(shù)據(jù)集中計算復(fù)雜。我們通過提出一種新的近似算法,對MIC在大數(shù)據(jù)集中的應(yīng)用做出了重大改進,稱為CDMIC(使用Cluster Division的最大信息系數(shù))。首先,我們使用快...
【文章來源】:黑龍江大學(xué)黑龍江省
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
計算MICFigure2-1ComputingMIC上面的介紹過于抽象,下面我們舉例說明最大信息系數(shù)是如何計算的
點集Figure2-2.Pointset我們以該點集的一種劃分方法為例說明MIC方法的計算
點集劃分Figure2-3Pointsetdivision對于灰色的區(qū)域,概率計算如下所示
本文編號:3085850
【文章來源】:黑龍江大學(xué)黑龍江省
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
計算MICFigure2-1ComputingMIC上面的介紹過于抽象,下面我們舉例說明最大信息系數(shù)是如何計算的
點集Figure2-2.Pointset我們以該點集的一種劃分方法為例說明MIC方法的計算
點集劃分Figure2-3Pointsetdivision對于灰色的區(qū)域,概率計算如下所示
本文編號:3085850
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3085850.html
最近更新
教材專著