天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

不確定數(shù)據(jù)和代價敏感學(xué)習(xí)研究

發(fā)布時間:2018-01-15 10:04

  本文關(guān)鍵詞:不確定數(shù)據(jù)和代價敏感學(xué)習(xí)研究 出處:《西北農(nóng)林科技大學(xué)》2017年博士論文 論文類型:學(xué)位論文


  更多相關(guān)文章: 不確定數(shù)據(jù) 代價敏感 數(shù)據(jù)流分類 貝葉斯 決策樹 單批測試


【摘要】:傳統(tǒng)的數(shù)據(jù)分類算法需要處理的數(shù)據(jù)是確定且精確的,然而在現(xiàn)實世界中,由于隱私保護,不精確測量,重復(fù)抽樣,值缺失等原因,數(shù)據(jù)普遍存在不確定性。直接使用傳統(tǒng)分類算法對不確定數(shù)據(jù)進行分類效果很差,不能滿足應(yīng)用要求,這使得專門針對不確定數(shù)據(jù)挖掘技術(shù)的研究十分必要。代價敏感學(xué)習(xí)是一個具有重要意義的研究方向,其充分考慮了各類錯誤分類的代價差異,通過引入代價概念,使得分類器以最小化代價為目標(biāo),有效避免了傳統(tǒng)分類器僅關(guān)注分類準(zhǔn)確率的不足。在很多領(lǐng)域,代價敏感學(xué)習(xí)模型更符合現(xiàn)實應(yīng)用需求。本課題以不確定數(shù)據(jù)和代價敏感學(xué)習(xí)為研究對象,圍繞著如何對不確定數(shù)據(jù)流進行分類分析,如何提出性能更優(yōu)的代價敏感算法以及如何對不確定數(shù)據(jù)進行代價敏感學(xué)習(xí)等幾方面展開研究。主要成果包括:(1)提出了一種針對屬性不確定的數(shù)據(jù)流進行分類學(xué)習(xí)的集成分類算法EDTU。首先,文中基于不確定決策樹算法DTU構(gòu)建了基分類器。然后,為解決基分類器算法效率不高,不能實時的處理數(shù)據(jù)流的問題,采用了快速構(gòu)建決策樹的方法來改造基分類器。最后,通過動態(tài)集成的方式,構(gòu)建了一個分類器集合,通過在相似樣本上的分類準(zhǔn)確率來調(diào)整分類器權(quán)重,并完成分類器的淘汰與更新。實驗結(jié)果表明,算法能有效的處理不確定數(shù)據(jù)流的分類問題,并且在不同參數(shù)下表現(xiàn)穩(wěn)定。(2)提出了一種結(jié)合貝葉斯和決策樹來進行代價敏感學(xué)習(xí)的算法CS-NBT。首先,文中定義了誤分類代價期望,設(shè)計了最小化誤分類代價期望的屬性選擇策略,并根據(jù)該策略構(gòu)建了以最小化誤分類代價期望為目的的決策樹。然后,在所構(gòu)建決策樹的每個葉子節(jié)點上學(xué)習(xí)貝葉斯分類器,通過結(jié)合類別概率與代價矩陣,將選擇類別概率最大的問題轉(zhuǎn)換為選擇類別代價最小的問題,從而使葉子節(jié)點中的貝葉斯分類器代價敏感化。相比起現(xiàn)有基于決策樹或貝葉斯的代價敏感學(xué)習(xí)算法,CS-NBT結(jié)合了決策樹和貝葉斯的優(yōu)點,利用了代價敏感決策樹的結(jié)構(gòu)能夠有效的分裂數(shù)據(jù),同時,也通過葉子節(jié)點處的貝葉斯分類器利用了那些沒有出現(xiàn)在樹的路徑上的屬性所攜帶的信息。實驗結(jié)果表明,CS-NBT算法展現(xiàn)了優(yōu)秀的性能,與CSTree、MetaCost和NBT相比,CS-NBT性能穩(wěn)定,有效的降低了總代價,并且在不同的參數(shù)設(shè)定下,算法表現(xiàn)良好。(3)提出了弱化貝葉斯假設(shè)的代價敏感學(xué)習(xí)算法CS_ANDE。首先,結(jié)合貝葉斯定理和代價矩陣定義了代價期望,將分類中的最大化可能類別問題轉(zhuǎn)化為最小化期望代價問題。其次,通過假設(shè)某些特殊屬性不獨立,而其它屬性相互獨立,形成了一個較弱的條件獨立假設(shè)。然后為減少特定的特殊屬性帶來的偶然性,將屬性集中的每個屬性都選取為一次特殊屬性并求這些值的均值。最后通過使用MetaCost框架,學(xué)習(xí)對應(yīng)的代價敏感分類器。CS_AODE與CS_A2DE的不同在于,在CS_AODE只假設(shè)一個屬性是特殊屬性,而在CS_A2DE中則假設(shè)兩個屬性是特殊屬性。實驗結(jié)果表明CS_AODE和CS_A2DE算法在處理代價敏感學(xué)習(xí)時展現(xiàn)了優(yōu)秀的性能,有效的降低了代價,并且在不同參數(shù)設(shè)定下,算法表現(xiàn)良好。(4)提出了基于決策樹的代價敏感不確定分類算法CS-DTU。首先,基于概率勢的概念定義了代價增益,通過代價增益來表示屬性分裂前后代價的改變。其次,設(shè)計了使總代價最小化的屬性選擇方式,并以該方式建立了代價敏感決策樹。然后,采用了不確定決策樹中的分類方法來分類新樣本。實驗結(jié)果表明,CS-DTU算法能有效的處理不確定數(shù)據(jù)的代價敏感分類問題,并且在不確定率變化和代價矩陣變化時表現(xiàn)穩(wěn)定。(5)提出了基于貝葉斯的代價敏感不確定分類算法CS-UNB。首先,通過結(jié)合類別概率與代價矩陣,定義誤分類代價期望。然后通過選擇不同屬性進行測試導(dǎo)致的誤分類代價期望的變化,依次選擇需要進行測試的屬性,其中,不確定信息使用概率勢的方法進行處理,最后給出相應(yīng)算法的詳細步驟。然后,對CS-UNB進行擴展,提出了相應(yīng)的單批測算法SBT-CSUNB。采用貪心算法的思想,找出所有對總代價下降正相關(guān)的屬性,作為需要進行測試的屬性集合。實驗結(jié)果表明,CS-UNB算法和SBT-CSUNB算法都很強的從不確定數(shù)據(jù)學(xué)習(xí)代價敏感分類器的能力,在不確定率和代價矩陣變化時,算法都表現(xiàn)良好,且SBT-CSUNB算法展現(xiàn)了更好的穩(wěn)定性。
[Abstract]:Traditional classification algorithms of data need to be processed is determined and accurate, but in the real world, because of privacy protection, inaccurate measurement, repeated sampling, missing values and other reasons, the data uncertainty prevails. The direct use of uncertain dataclassification effect of poor traditional classification algorithms can not meet the application requirements, this the study on uncertain data mining technology is very necessary. The cost sensitive learning is an important research direction, which fully considers the error classification of various price differences, by introducing the concept of price, makes the classifier to minimize the cost as the goal, effectively avoids the shortcomings of traditional classifiers only focus on classification accuracy. In many areas, cost sensitive learning model more realistic application requirements. This subject to uncertain data and cost sensitive learning as the research object, around How to determine the classification of data stream analysis, how the proposed cost sensitive algorithm has a better performance and how to uncertain data for cost sensitive learning and other aspects of research. The main results are as follows: (1) an attribute uncertain data stream EDTU. ensemble classification algorithm of classification learning first, not to determine the DTU decision tree algorithm is constructed based on the base classifier. Then, in order to solve the base classifier algorithm efficiency is not high, not real-time data processing flow, using a fast method of constructing decision tree to transform based classifier. Finally, through the way of dynamic integration and construct a classifier by the accuracy rate of classification in similar samples on classifier to adjust the weights, and complete elimination and update the classifier. The experimental results show that the algorithm can effectively deal with uncertain data stream classification problem, And stable performance under different parameters. (2) proposed a cost sensitive learning to combine Bias and the decision tree algorithm CS-NBT. first, this paper defined the expected misclassification cost, design attribute selection strategy to minimize the expected misclassification cost, and according to the strategy is constructed to minimize the expected misclassification cost for the purpose of the decision tree. Then, Bias learning classifier in each leaf node of the decision tree, by combining the categories of probability and cost matrix, selecting the maximum probability of category converted to select categories of minimum cost problem, so that the cost of Bias classifier sensitization leaf. Compared with the existing cost sensitive learning decision tree algorithm based on Bias or CS-NBT, combines the advantages of the decision tree and Bias, using the structure of cost sensitive decision tree can effectively split the number of At the same time, also according to, through the Bias classifier leaf node use information attributes that do not appear in the tree on the path to carry. The experimental results show that the CS-NBT algorithm shows excellent performance, and CSTree, compared to MetaCost and NBT, CS-NBT stable performance, effectively reduce the total cost, and in different settings the parameters, algorithm has good performance. (3) proposed CS_ANDE. cost sensitive learning algorithm to weaken the Bias hypothesis first, combined with the Bias theorem and the cost matrix defines price expectations, will maximize the classification of the possible categories problem into the minimization of the expected cost. Secondly, by assuming that some special properties are not independent, and other attributes are independent of each other, forming a weak conditional independence assumption. Then for the chance to reduce special specific attributes, each attribute set which are selected for a time For these special attributes and values. Finally, by using the MetaCost framework, learning the corresponding cost sensitive classifier.CS_AODE and CS_A2DE is different in CS_AODE only assume that a property is the special attribute, while CS_A2DE assumes that two attributes are special attributes. Experimental results show that the CS_AODE and CS_A2DE algorithm showed good performance in cost sensitive learning, effectively reduce the cost, and in different parameter setting, the algorithm performs well. (4) this paper proposes a decision tree based on cost sensitive uncertain classification algorithm based on probability CS-DTU. first, the concept of potential defines the cost gain, said the price change before and after the split attribute through cost gain to make the design. Secondly, the total cost minimization attribute selection method, and the way to establish the cost sensitive decision tree. Then, the uncertainty in decision tree classification Method to classify new samples. The experimental results show that the CS-DTU algorithm can effectively deal with the uncertainty of cost sensitive classification data, and stable performance in the uncertain rate and cost matrix changes. (5) proposed the cost sensitive Bayesian classification algorithm based on uncertain CS-UNB. first, through a combination of class probability and cost matrix. The definition of expected misclassification cost. Then by choosing different attributes of the misclassification cost test leads to expectations, select properties, the need for testing the method for uncertain information using probability potential for processing, the detailed steps and finally gives the corresponding algorithm. Then, the extension of CS-UNB, put forward the corresponding single batch the measuring method of SBT-CSUNB. using the greedy algorithm to find out all of the total cost, decrease attribute correlation, as the need for testing the attribute set. The experimental results table Ming, CS-UNB algorithm and SBT-CSUNB algorithm are very strong, and learn the ability of cost sensitive classifier from uncertain data. The algorithm performs well when the uncertainty rate and cost matrix change, and the SBT-CSUNB algorithm shows better stability.

【學(xué)位授予單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2017
【分類號】:TP311.13

【相似文獻】

相關(guān)期刊論文 前10條

1 申德榮;于戈;寇月;聶鐵錚;;可能世界內(nèi)數(shù)值型不確定數(shù)據(jù)匹配模型[J];計算機應(yīng)用研究;2008年09期

2 崔斌;盧陽;;基于不確定數(shù)據(jù)的查詢處理綜述[J];計算機應(yīng)用;2008年11期

3 周遜;李建中;石勝飛;;不確定數(shù)據(jù)上兩種查詢的分布式聚集算法[J];計算機研究與發(fā)展;2010年05期

4 徐雪松;;時間序列不確定數(shù)據(jù)流中異常數(shù)據(jù)檢測方法[J];電子設(shè)計工程;2011年19期

5 徐雪松;李玲娟;郭立瑋;;基于優(yōu)化策略的不確定數(shù)據(jù)流預(yù)測方法[J];計算機工程;2011年21期

6 徐雪松;沈紅紅;陶帆;胡曉璐;崔偉;;基于小波分析的不確定數(shù)據(jù)流異常數(shù)據(jù)檢測[J];軟件導(dǎo)刊;2011年11期

7 錢江波;王志杰;陳華輝;王海斌;;不確定數(shù)據(jù)流自適應(yīng)并行連接算法及應(yīng)用[J];電信科學(xué);2012年02期

8 向劍平;喬少杰;胡劍;;基于不確定數(shù)據(jù)理論的道路相關(guān)度度量方法[J];計算機工程與設(shè)計;2012年06期

9 曹振麗;孫瑞志;李勐;;面向不確定數(shù)據(jù)的農(nóng)產(chǎn)品追溯方法[J];農(nóng)業(yè)機械學(xué)報;2013年07期

10 蔣濤;高云君;張彬;周傲英;樂光學(xué);;不確定數(shù)據(jù)查詢處理[J];電子學(xué)報;2013年05期

相關(guān)會議論文 前7條

1 高聰;申德榮;于戈;聶鐵錚;寇月;;一種基于不確定數(shù)據(jù)的挖掘頻繁集方法[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年

2 周遜;李建中;石勝飛;;不確定數(shù)據(jù)上聚集查詢的分布式處理算法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(A輯)[C];2009年

3 王曉偉;黃九鳴;賈焰;;分布式不確定數(shù)據(jù)上的概率Skyline計算[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集A輯二[C];2010年

4 艾文凱;張剡;柏文陽;;基于用戶偏好的不確定數(shù)據(jù)閾值輪廓查詢算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年

5 陸葉;王麗珍;張曉峰;;從不確定數(shù)據(jù)集中挖掘頻繁Co-location模式[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(A輯)[C];2009年

6 孫永佼;王國仁;;P2P環(huán)境中不確定數(shù)據(jù)Top-k查詢處理算法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年

7 張潮;李晨;王勇;張陽;;uPOSC4.5:一種針對不確定數(shù)據(jù)的PU學(xué)習(xí)決策樹算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年

相關(guān)博士學(xué)位論文 前10條

1 陳靜玉;面向不確定數(shù)據(jù)流的聚類和模式挖掘技術(shù)研究[D];西安電子科技大學(xué);2014年

2 馬荔瑤;信任函數(shù)建模的認(rèn)知不確定性數(shù)據(jù)分析與學(xué)習(xí)[D];中國科學(xué)技術(shù)大學(xué);2016年

3 曹科研;不確定數(shù)據(jù)的聚類分析與異常點檢測算法[D];東北大學(xué);2014年

4 李佳佳;不確定數(shù)據(jù)的概率近鄰查詢處理技術(shù)研究[D];東北大學(xué);2014年

5 徐傳飛;面向多維不確定數(shù)據(jù)的若干查詢處理關(guān)鍵技術(shù)的研究[D];東北大學(xué);2013年

6 羅昌銀;位置及文本相關(guān)查詢處理及驗證策略研究[D];華中科技大學(xué);2015年

7 張星;不確定數(shù)據(jù)和代價敏感學(xué)習(xí)研究[D];西北農(nóng)林科技大學(xué);2017年

8 湯克明;不確定數(shù)據(jù)流中頻繁數(shù)據(jù)挖掘研究[D];南京航空航天大學(xué);2012年

9 梁春泉;不確定數(shù)據(jù)流分類算法研究[D];西北農(nóng)林科技大學(xué);2014年

10 高明;不確定數(shù)據(jù)的世系管理和相似性查詢[D];復(fù)旦大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 孫鳳姣;概率XML數(shù)據(jù)文檔的分發(fā)技術(shù)研究[D];大連海事大學(xué);2015年

2 李雨明;不確定數(shù)據(jù)的挖掘算法研究[D];上海交通大學(xué);2015年

3 曹慶傲;不確定性數(shù)據(jù)Top-k查詢算法與實現(xiàn)[D];貴州大學(xué);2015年

4 武婷婷;基于MapReduce的不確定查詢處理技術(shù)的研究與實現(xiàn)[D];東北大學(xué);2013年

5 李紅;不確定數(shù)據(jù)流查詢處理算法的研究[D];黑龍江大學(xué);2015年

6 甘果;基于不確定數(shù)據(jù)的范圍查詢算法的研究與實現(xiàn)[D];東北大學(xué);2014年

7 張昕;基于分布式極限學(xué)習(xí)機的不確定數(shù)據(jù)流分類技術(shù)的研究與實現(xiàn)[D];東北大學(xué);2014年

8 劉斌;基于聚集約束條件的不確定數(shù)據(jù)清洗與Top-k查詢[D];國防科學(xué)技術(shù)大學(xué);2013年

9 林佳麗;基于密度的不確定數(shù)據(jù)離群點檢測研究[D];重慶大學(xué);2015年

10 郎泓鈺;面向不確定數(shù)據(jù)的最近鄰分類方法研究[D];遼寧師范大學(xué);2015年

,

本文編號:1427856

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/1427856.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶60c51***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com