天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

海量數(shù)據(jù)相關(guān)性判別算法研究及應(yīng)用

發(fā)布時間:2021-03-16 09:51
  數(shù)據(jù)增長速度比以往任何時候都快,到2020年,地球上的每個人每秒創(chuàng)造大約1.7兆字節(jié)的新信息。檢測大數(shù)據(jù)集中變量之間的關(guān)系在基因組學(xué),物理學(xué),政治學(xué)和經(jīng)濟學(xué)領(lǐng)域變得越來越普遍,這使得發(fā)現(xiàn)變量之間的關(guān)系成為一個日益嚴峻的挑戰(zhàn)。一般而言,在樣本量足夠大的情況下,我們希望能夠找到變量之間廣泛的關(guān)聯(lián),不僅限于特定的函數(shù)(如線性),而應(yīng)該是所有的函數(shù)關(guān)系。我們希望找到在不同類型的關(guān)系中具有相同噪音下的相似的分數(shù)度量。在對基因數(shù)據(jù)的研究中,檢測與疾病關(guān)聯(lián)的致病基因的研究占有重要地位,是人們研究的重點問題。然而現(xiàn)有的大部分方法檢測手段時間長、代價大,因此希望通過其他手段對致病基因做出檢測。而傳統(tǒng)的計算方法對于非線性的函數(shù)檢測效果差,為此,本文針對這兩點提出新的解決方法。本文的主要研究成果有:1.最大信息系數(shù)(MIC)是一種有效的探索數(shù)據(jù)關(guān)系的工具。MIC在將變量劃分成網(wǎng)格時窮盡所有劃分方法,并且該過程決定了MIC算法的時間在大數(shù)據(jù)集中計算復(fù)雜。我們通過提出一種新的近似算法,對MIC在大數(shù)據(jù)集中的應(yīng)用做出了重大改進,稱為CDMIC(使用Cluster Division的最大信息系數(shù))。首先,我們使用快... 

【文章來源】:黑龍江大學(xué)黑龍江省

【文章頁數(shù)】:56 頁

【學(xué)位級別】:碩士

【部分圖文】:

海量數(shù)據(jù)相關(guān)性判別算法研究及應(yīng)用


計算MICFigure2-1ComputingMIC上面的介紹過于抽象,下面我們舉例說明最大信息系數(shù)是如何計算的

海量數(shù)據(jù)相關(guān)性判別算法研究及應(yīng)用


點集Figure2-2.Pointset我們以該點集的一種劃分方法為例說明MIC方法的計算

海量數(shù)據(jù)相關(guān)性判別算法研究及應(yīng)用


點集劃分Figure2-3Pointsetdivision對于灰色的區(qū)域,概率計算如下所示


本文編號:3085850

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3085850.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ea5c4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com