基于粗糙集理論的動態(tài)數(shù)據(jù)挖掘關鍵技術研究
本文選題:粗糙集理論 + 屬性約簡 ; 參考:《北京科技大學》2016年博士論文
【摘要】:隨著信息技術的飛速發(fā)展,使得人們在采集數(shù)據(jù)、存儲數(shù)據(jù)的方面能力得到了明顯提高。在許多應用領域中都積累了大量數(shù)據(jù),對這些數(shù)據(jù)進行分析并從中挖掘潛在有用的知識,已成為研究人員重點關注的研究內(nèi)容。粗糙集理論作為一種處理模糊、不確定、不完備數(shù)據(jù)的有效處理工具,其優(yōu)勢是僅需要利用數(shù)據(jù)本身的信息,而不需要借助其他先驗的知識和附加信息,就能對數(shù)據(jù)進行分析,從中發(fā)現(xiàn)隱在的、有價值的知識,揭示潛在的規(guī)律。目前粗糙集理論已在數(shù)據(jù)挖掘、機器學習、模式識別和知識發(fā)現(xiàn)等領域得到了廣泛應用。在粗糙集理論中,屬性約簡和知識獲取是研究人員研究的主要熱點問題。屬性約簡是在保持屬性區(qū)分能力不變的情況下,刪除數(shù)據(jù)中無關或不重要的屬性,而知識獲取是在屬性約簡的基礎上獲取規(guī)則或知識。由于目前許多應用領域中的數(shù)據(jù)往往是動態(tài)的,當數(shù)據(jù)量增長到一定程度時,從原數(shù)據(jù)集中獲取的屬性約簡和知識獲取結果不再適用,需對數(shù)據(jù)進行處理和分析。若使用靜態(tài)方法處理時,將導致算法的時間復雜度上升,且較難發(fā)現(xiàn)數(shù)據(jù)的變化規(guī)律。因此,圍繞動態(tài)數(shù)據(jù)研究基于粗糙集理論的動態(tài)數(shù)據(jù)挖掘理論和方法具有重要的理論意義和應用前景。本文以粗糙集為工具,以數(shù)據(jù)挖掘為目的,針對動態(tài)決策表和動態(tài)不完備決策表的屬性約簡和知識獲取模型與算法開展了較深入的分析和研究。本文的主要研究成果和創(chuàng)新概況如下:1)針對動態(tài)決策表,首先構造一種基于信息粒度的動態(tài)屬性約簡模型,詳細分析了當決策表中出現(xiàn)新屬性動態(tài)增加時,信息粒度的增量式計算方法:在此基礎上,利用信息粒度作為啟發(fā)信息設計了一種動態(tài)求解屬性約簡算法,該算法能有效利用原決策表的屬性約簡結果和信息粒度,有效地降低算法的計算復雜度,并使得約簡結果具有較好的傳承性;最后通過算例分析和實驗比較進一步驗證了算法的可行性和有效性。2)由于不完備決策表中存在缺失數(shù)據(jù),經(jīng)典的粗糙集模型難以適用,特別是不完備決策表中的數(shù)據(jù)發(fā)生動態(tài)變化時。為此,針對動態(tài)不完備決策表,構建基于相容關系的信息粒度模型;分析當不完備決策表中對象集動態(tài)增加時,信息粒度模型的增量式更新計算方法:同時結合原始不完備決策表的信息粒度和屬性約簡結果,提出了一種基于信息粒度的屬性約簡增量式更新方法,有效地提高了屬性約簡的計算效率。3)針對決策表下對象的動態(tài)變化,研究如何高效地從動態(tài)決策表中獲取知識或規(guī)則。首先,分析完備決策表中單個的對象增加和刪除時,基于正區(qū)域下知識的近似分類質(zhì)量的動態(tài)更新機制,通過計算新等價類下對于決策類的置信度,對于滿足閾值要求的規(guī)則進行動態(tài)增加和刪除,在此基礎上,提出了一種增量式知識獲取更新方法。然后,為避免將多個對象的動態(tài)變化看成單個對象的累積變化,當決策表中存在大量對象動態(tài)增加和刪除時,構建基于正區(qū)域下知識近似分類質(zhì)量的動態(tài)更新機制,設計了一種決策表的動態(tài)知識獲取算法。4)由于數(shù)據(jù)獲取技術或者人為丟失數(shù)據(jù)等原因,經(jīng)常導致數(shù)據(jù)經(jīng)常出現(xiàn)不完備數(shù)據(jù)。針對不完備數(shù)據(jù)中對象的增加和刪除情況,在近似分類質(zhì)量模型下研究動態(tài)知識獲取方法。首先,針對不完備數(shù)據(jù)中對象的增加,分析正區(qū)域的動態(tài)變化情況和近似分類質(zhì)量的更新計算方法;然后,針對不完備數(shù)據(jù)中對象的刪除,分析了正區(qū)域的動態(tài)變化情況和近似分類質(zhì)量的更新計算方法;在此基礎上,提出對象同時增加和刪除時有效的動態(tài)知識獲取方法,最后,通過實驗結果驗證提出方法的有效性。5)以基于粗糙集的屬性度量為視角,提出了一種基于混合度量機制的屬性評價方法,該方法從不同的信息粒度來分析屬性的重要性,并在混合度量機制中根據(jù)數(shù)據(jù)分布特點引入了參數(shù)權重因子調(diào)節(jié)屬性重要性;在此基礎上,構造一種基于粗糙集屬性度量機制的集成分類器。并通過實驗結果和分析表明,提出的方法能有效地降低數(shù)據(jù)的屬性維度,相比較于單個屬性度量準則,分類器具有更好的分類性能。綜上,本文針對數(shù)據(jù)中對象變化和屬性變化所引起屬性約簡和知識獲取的動態(tài)更新開展了較深入研究,較好地解決了許多靜態(tài)算法無法描述數(shù)據(jù)的變化規(guī)律和算法計算效率不高等問題,從而更好地適應實際環(huán)境下數(shù)據(jù)的分析和挖掘。
[Abstract]:With the rapid development of information technology, the ability of people to collect data and store data has been greatly improved. In many applications, a lot of data have been accumulated. The analysis of these data and the mining of potential useful knowledge have become the focus of research for researchers. Rough set theory is a kind of research. It is an effective tool to deal with fuzzy, uncertain and incomplete data. The advantage is that it only needs to use the information of the data itself, without the need of other prior knowledge and additional information to analyze the data and discover the hidden, valuable knowledge and the potential law. In the rough set theory, attribute reduction and knowledge acquisition are the main focus of research in the rough set theory. The attribute reduction is to delete the unrelated or unimportant attributes in the data under the condition of keeping the ability to distinguish the attribute, and the knowledge acquisition is in the attribute contract. Because the data in many applications are often dynamic. When the amount of data is increased to a certain extent, the attribute reduction and the result of knowledge acquisition from the original data set are no longer applicable. It is necessary to process and analyze the data. If the static method is used, it will lead to the time of the algorithm. The complexity of the dynamic data mining theory and method based on the rough set theory has important theoretical significance and application prospect. This paper takes rough set as a tool and aims at data mining, aiming at the attribute of dynamic decision table and dynamic incomplete decision table. The main research results and innovations of this paper are as follows: 1) according to the dynamic decision table, a dynamic attribute reduction model based on information granularity is first constructed, and the incremental measure of information granularity is analyzed in detail when the new attributes are dynamically increased in the decision table. On this basis, a dynamic algorithm for attribute reduction is designed by using information granularity as heuristic information. The algorithm can effectively reduce the computational complexity of the algorithm and make the reduction result better. Finally, an example is made to analyze the reduction results. The experiment further validates the feasibility and effectiveness of the algorithm (.2). Because of the lack of data in the incomplete decision table, the classic rough set model is difficult to apply, especially when the data in the incomplete decision table changes dynamically. For this reason, the information granularity model based on the compatible relationship is constructed for the dynamic incomplete decision table. When the object set increases dynamically in the incomplete decision table, the incremental updating calculation method of the information granularity model is combined with the information granularity and attribute reduction results of the original incomplete decision table. A kind of incremental updating method based on the attribute reduction based on the information granularity is proposed, which effectively improves the calculation efficiency of the attribute reduction.3). The dynamic change of the object under the decision table is used to study how to efficiently obtain knowledge or rules from the dynamic decision table. First, the dynamic updating mechanism of the approximate classification quality based on the knowledge in the positive region is analyzed, and the confidence degree of the decision class under the new equivalence class is calculated. The rules of threshold requirements are dynamically added and deleted. On this basis, an incremental knowledge acquisition and updating method is proposed. Then, in order to avoid the dynamic changes of multiple objects as a cumulative change of a single object, when a large number of objects are dynamically increased and deleted in the decision table, the approximate classification quality of knowledge based on the positive region is constructed. Dynamic updating mechanism of quantity, a dynamic knowledge acquisition algorithm of decision table (.4) is designed. Because of data acquisition technology or artificial loss of data, the data often appear incomplete data. The method of dynamic knowledge acquisition is studied under the approximate classification quality model for the increase and deletion of objects in incomplete data. Firstly, according to the increase of the object in incomplete data, the dynamic change of the positive region and the updating calculation method of the approximate classification quality are analyzed. Then, according to the deletion of the objects in the incomplete data, the dynamic change of the positive region and the updating calculation method of the approximate classification quality are analyzed. On this basis, the object is raised at the same time. In the end, the validity of the method is verified by the experimental results. Finally, the effectiveness of the proposed method is verified by the experimental results.5). An attribute evaluation method based on the hybrid metric mechanism is proposed based on the attribute measurement based on the rough set. This method analyzes the importance of the attributes from different information granularity and is the root of the hybrid metric mechanism. According to the characteristics of the data distribution, the parameter weight factor is introduced to regulate the importance of attributes. On this basis, an integrated classifier based on the attribute metric mechanism of rough sets is constructed. The results and analysis of the experimental results show that the proposed method can effectively reduce the attribute dimension of the data. In conclusion, this paper makes a thorough research on the attribute reduction and the dynamic update of knowledge acquisition caused by the changes of objects and attributes in the data, which can better solve the problem that many static algorithms can not describe the change law of the data and the inefficient calculation efficiency of the algorithm, so that the data can be better adapted to the data in the actual environment. Analysis and mining.
【學位授予單位】:北京科技大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP18;TP311.13
【相似文獻】
相關期刊論文 前10條
1 邱兆雷;范穎;王愛云;;粗糙集理論及進展[J];信息技術與信息化;2006年05期
2 徐偉華;張文修;;覆蓋廣義粗糙集的模糊性[J];模糊系統(tǒng)與數(shù)學;2006年06期
3 石杰;;粗糙集理論及其應用研究[J];科技信息;2008年33期
4 唐彬;;粗糙集理論和應用研究[J];內(nèi)江科技;2008年03期
5 胡軍;王國胤;;覆蓋粗糙集的模糊度[J];重慶郵電大學學報(自然科學版);2009年04期
6 燕紅文;康向平;張麗;;依賴空間與粗糙集理論[J];農(nóng)業(yè)網(wǎng)絡信息;2009年09期
7 林國平;;覆蓋廣義粗糙集與信任函數(shù)[J];漳州師范學院學報(自然科學版);2010年02期
8 王石平;祝峰;朱培勇;;基于抽象相關關系的粗糙集研究[J];南京大學學報(自然科學版);2010年05期
9 成新文;陳國超;李琦;;關于粗糙集的理論及應用研究[J];煤炭技術;2010年10期
10 林治;張璇;;粗糙集理論的應用探析[J];邢臺職業(yè)技術學院學報;2011年03期
相關會議論文 前10條
1 黎文航;陳善本;王兵;;粗糙集理論在焊接中的應用綜述[A];第十一次全國焊接會議論文集(第2冊)[C];2005年
2 尹宗成;;粗糙集理論在我國糧食產(chǎn)量預測中的應用[A];現(xiàn)代農(nóng)業(yè)理論與實踐——安徽現(xiàn)代農(nóng)業(yè)博士科技論壇論文集[C];2007年
3 鄒剛;滕書華;孫即祥;陳森林;敖永紅;;一種粗糙集優(yōu)化協(xié)同原型模式約簡分類方法[A];第十四屆全國信號處理學術年會(CCSP-2009)論文集[C];2009年
4 葛麗;傅彥;;粗糙集在科學數(shù)據(jù)屬性約簡中的應用[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年
5 陳雪飛;;粗糙集分類中耦合數(shù)據(jù)的處理方法研究[A];2008年全國開放式分布與并行計算機學術會議論文集(上冊)[C];2008年
6 肖健梅;蘆曉明;王錫淮;;集裝箱起重機防搖系統(tǒng)粗糙集控制[A];第二十六屆中國控制會議論文集[C];2007年
7 王印松;馮康;;主汽溫調(diào)節(jié)系統(tǒng)性能評價的粗糙集實現(xiàn)方法[A];第二十七屆中國控制會議論文集[C];2008年
8 王紅萍;萬程亮;金彥豐;;應用粗糙集理論的對抗效果權重確定方法[A];2009’中國西部地區(qū)聲學學術交流會論文集[C];2009年
9 王莉;周獻中;;一種基于粗糙集的模糊神經(jīng)網(wǎng)絡模型在鋼材力學性能預測中的研究[A];2009年中國智能自動化會議論文集(第二分冊)[C];2009年
10 卓明;王麗珍;譚旭;;基于粗糙集近似集擴展的規(guī)則提取算法[A];第十七屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2000年
相關博士學位論文 前10條
1 馬希驁;概率粗糙集屬性約簡理論及方法研究[D];西南交通大學;2014年
2 唐孝;基于粗糙集的知識發(fā)現(xiàn)方法及其在ECG信號識別中的應用[D];電子科技大學;2015年
3 曾凱;鄰域粒化粗糙計算的關鍵技術研究與應用[D];電子科技大學;2015年
4 鮑忠奎;面向不確定信息系統(tǒng)的粗糙集擴展模型研究[D];合肥工業(yè)大學;2015年
5 王永生;基于粗糙集理論的動態(tài)數(shù)據(jù)挖掘關鍵技術研究[D];北京科技大學;2016年
6 薛佩軍;正負域覆蓋廣義粗糙集與知識粗傳播研究[D];山東大學;2007年
7 孔芝;粗糙集理論若干問題的研究與應用[D];東北大學;2009年
8 秦中廣;基于粗糙集的交叉研究及其在中醫(yī)診斷的應用[D];華南理工大學;2002年
9 劉少輝;知識發(fā)現(xiàn)中粗糙集理論的研究[D];中國科學院研究生院(計算技術研究所);2003年
10 鄧大勇;基于粗糙集的數(shù)據(jù)約簡及粗糙集擴展模型的研究[D];北京交通大學;2007年
相關碩士學位論文 前10條
1 江飛;粗糙集神經(jīng)網(wǎng)絡故障診斷方法研究[D];西安石油大學;2015年
2 何理榮;粗糙集理論在銀行信貸風險評估中的應用研究[D];華南理工大學;2015年
3 張德齊;基于粗糙集理論的電機故障診斷方法研究[D];渤海大學;2015年
4 楊禮;基于粗糙集的公路交通安全預警研究[D];西南交通大學;2015年
5 聶萌瑤;基于泛系串并模型的粗糙集概念擴展與拓撲空間[D];蘭州大學;2015年
6 徐鵬;基于粗糙集的建筑起重機械安全精細化評價研究[D];西安建筑科技大學;2015年
7 孫宇航;粗糙集屬性約簡方法在醫(yī)療診斷中的應用研究[D];蘇州大學;2015年
8 張曼;基于粗糙集和包含度的聚類分類算法研究[D];青島理工大學;2015年
9 車世遠;基于群搜索優(yōu)化粗糙集的腦科學數(shù)據(jù)研究[D];大連海事大學;2015年
10 林哲;基于粗糙集的馬田系統(tǒng)研究及其在銀行直接營銷客戶分類中的應用[D];南京理工大學;2015年
,本文編號:1956660
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/1956660.html