天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

數(shù)據(jù)挖掘的信息論方法研究

發(fā)布時(shí)間:2021-09-09 20:11
  隨著無線移動通信、互聯(lián)網(wǎng)以及各種智能終端設(shè)備等技術(shù)的發(fā)展與進(jìn)步,海量數(shù)據(jù)在呈指數(shù)爆炸式地不斷地被產(chǎn)生和收集。如何對如此海量數(shù)據(jù)進(jìn)行處理和分析,以及如何從中發(fā)現(xiàn)和提取有用的或有價(jià)值的知識或信息是一系列值得考慮的問題。這些問題都涉及到大數(shù)據(jù)技術(shù)中的一個(gè)關(guān)鍵的技術(shù)即數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘與信息論之間具有一定聯(lián)系。近年來,一些學(xué)者嘗試從信息與通信理論這一新穎的角度去理解和解決(大)數(shù)據(jù)挖掘分析問題,相關(guān)工作已經(jīng)表明信息論可以為數(shù)據(jù)挖掘提供一些方法和策略,且這些方法能取得相當(dāng)不錯(cuò)的效果。同時(shí),適用于大型數(shù)據(jù)集且可解釋性很強(qiáng);诖,本文基于信息論分別提出了兩個(gè)數(shù)據(jù)挖掘方法:基于自適應(yīng)均衡器的時(shí)間序列分析模型以及基于J散度的決策樹分類算法;谧赃m應(yīng)均衡器的時(shí)間序列分析模型假設(shè)目標(biāo)時(shí)間序列和其相關(guān)時(shí)間序列之間有信息傳遞,因此本文在相關(guān)時(shí)間序列和目標(biāo)時(shí)間序列之間建立單輸入均衡器實(shí)現(xiàn)對目標(biāo)時(shí)間序列進(jìn)行預(yù)測估計(jì)。在模型構(gòu)建的過程中,對均衡器進(jìn)行訓(xùn)練得到最佳均衡器長度以及均衡器抽頭系數(shù)。保持最佳均衡器長度不變同時(shí)使用梯度下降法在線更新均衡器抽頭系數(shù),最終實(shí)現(xiàn)對時(shí)間序列的預(yù)測估計(jì)。接著,引入歷史目標(biāo)時(shí)間序列... 

【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:84 頁

【學(xué)位級別】:碩士

【部分圖文】:

數(shù)據(jù)挖掘的信息論方法研究


–1表示信息熵、條件熵、互信息及聯(lián)合熵之間關(guān)系的Venn圖

模型圖,數(shù)據(jù)網(wǎng)絡(luò),數(shù)據(jù),模型


相關(guān)工作中已經(jīng)指出,數(shù)據(jù)之間具有相互聯(lián)系可以共同構(gòu)建一個(gè)數(shù)據(jù)網(wǎng)絡(luò)如圖3–1所示,圖中每個(gè)結(jié)點(diǎn)代表一個(gè)數(shù)據(jù)實(shí)體,而如果結(jié)點(diǎn)之間的存在連接,則表示兩個(gè)結(jié)點(diǎn)代表的數(shù)據(jù)實(shí)體之間有相互聯(lián)系,這種相互聯(lián)系表示數(shù)據(jù)之間可能呈現(xiàn)相關(guān)性、因果性,或者兩組數(shù)據(jù)相互影響。這種理論的基礎(chǔ)源于當(dāng)前大數(shù)據(jù)的產(chǎn)生主要是基于萬物互聯(lián)的互聯(lián)網(wǎng),主要包括:人與人之間的社交網(wǎng)絡(luò),人與智能終端設(shè)備的交互以及物聯(lián)網(wǎng)等。因此,數(shù)據(jù)網(wǎng)絡(luò)建立在社交網(wǎng)絡(luò)和信息傳輸網(wǎng)絡(luò)之上,而相應(yīng)地,一些信號傳輸與處理理論和網(wǎng)絡(luò)信息與通信理論可以提供一些角度和方法去理解和解決一些數(shù)據(jù)分析和數(shù)據(jù)處理的任務(wù)。假設(shè)兩組數(shù)據(jù)之間存在相互聯(lián)系,其中感興趣的目標(biāo)數(shù)據(jù)為X,而其相關(guān)數(shù)據(jù)或?qū)ζ淠墚a(chǎn)生一定影響的數(shù)據(jù)為Y。那么,根據(jù)前面提到的理論基礎(chǔ),假設(shè)X和Y存在一條使二者相互聯(lián)系的信道,就像一條典型的點(diǎn)對點(diǎn)通信信道如圖3–2所示。假設(shè)感興趣的目標(biāo)數(shù)據(jù)為假定的“發(fā)送信號”X,而假定“接受信號”為與其相關(guān)的數(shù)據(jù)Y。則整個(gè)模型表示,目標(biāo)數(shù)據(jù)實(shí)體X通過某種信道向其相關(guān)數(shù)據(jù)實(shí)體Y傳遞了某些信息;換句話說,X和Y之間存在信息流動,使得從X中產(chǎn)生的一些信息流入到Y(jié)中。因此可以通過了解或者借助Y來進(jìn)一步了解和確定目標(biāo)數(shù)據(jù)X。

模型圖,信息流,數(shù)據(jù),模型


假設(shè)兩組數(shù)據(jù)之間存在相互聯(lián)系,其中感興趣的目標(biāo)數(shù)據(jù)為X,而其相關(guān)數(shù)據(jù)或?qū)ζ淠墚a(chǎn)生一定影響的數(shù)據(jù)為Y。那么,根據(jù)前面提到的理論基礎(chǔ),假設(shè)X和Y存在一條使二者相互聯(lián)系的信道,就像一條典型的點(diǎn)對點(diǎn)通信信道如圖3–2所示。假設(shè)感興趣的目標(biāo)數(shù)據(jù)為假定的“發(fā)送信號”X,而假定“接受信號”為與其相關(guān)的數(shù)據(jù)Y。則整個(gè)模型表示,目標(biāo)數(shù)據(jù)實(shí)體X通過某種信道向其相關(guān)數(shù)據(jù)實(shí)體Y傳遞了某些信息;換句話說,X和Y之間存在信息流動,使得從X中產(chǎn)生的一些信息流入到Y(jié)中。因此可以通過了解或者借助Y來進(jìn)一步了解和確定目標(biāo)數(shù)據(jù)X?紤]極端情況,當(dāng)Y和X完全不相關(guān),則表示X和Y之間沒有聯(lián)系,二者之間也就不存在信息流動;而當(dāng)Y和X完全相關(guān),即通過Y可以完全確定X,則表示目標(biāo)數(shù)據(jù)X把所有關(guān)于其自身的信息都流入到Y(jié)中。第二種極端情況也就是通信中所謂的信號的無失真?zhèn)鬏?信道也成為無失真信道。然而,實(shí)際中大多數(shù)信息傳輸和信息模型都是有失真的,數(shù)據(jù)之間的信息流也表現(xiàn)出同樣的特點(diǎn),即通過對一組數(shù)據(jù)的了解大多數(shù)情況下只能片面地了解或確定另一組數(shù)據(jù)。因此,類比于通信的信道模型,建立數(shù)據(jù)之間的信息流模型為:

【參考文獻(xiàn)】:
期刊論文
[1]大數(shù)據(jù)存儲技術(shù)綜述(英文)[J]. Aisha SIDDIQA,Ahmad KARIM,Abdullah GANI.  Frontiers of Information Technology & Electronic Engineering. 2017(08)

博士論文
[1]基于信息論的數(shù)據(jù)挖掘算法[D]. 沙朝鋒.復(fù)旦大學(xué) 2008

碩士論文
[1]基于信息理論的特征選擇算法研究[D]. 陸景輝.北京交通大學(xué) 2007



本文編號:3392712

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3392712.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ce5ac***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com