基于物流信息的關(guān)聯(lián)規(guī)則算法及其應(yīng)用研究
第一章緒論
1.1論文研究背景及意義
隨著互聯(lián)網(wǎng)的快速發(fā)展,以及RFID數(shù)據(jù)釆集技術(shù)和數(shù)據(jù)庫(kù)存儲(chǔ)技術(shù)的不斷改進(jìn),企業(yè)從自身的物流活動(dòng)積累了大量的業(yè)務(wù)數(shù)據(jù)。如何有效的利用海量數(shù)據(jù)來(lái)改善企業(yè)業(yè)務(wù),提高自身盈利水平,已成為物流企業(yè)的核心任務(wù)。數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,將傳統(tǒng)的數(shù)據(jù)分析技術(shù)和機(jī)器學(xué)習(xí),人工智能等復(fù)雜算法相結(jié)合,能有效地挖掘出隱藏在數(shù)據(jù)背后的規(guī)律,給企業(yè)帶來(lái)巨大的經(jīng)濟(jì)效益,正吸引著眾多企業(yè)的廣泛關(guān)注⑴。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘領(lǐng)域的重要組成部分,以企業(yè)的交易數(shù)據(jù)庫(kù)為主要的研究對(duì)象,其目標(biāo)在于發(fā)現(xiàn)隱藏在交易數(shù)據(jù)庫(kù)中商品之間的強(qiáng)關(guān)聯(lián)關(guān)系。經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法主要被應(yīng)用于處理布爾型屬性的數(shù)據(jù)集,并且以支持度和置信度作為度量框架,直接影響最后的算法結(jié)果[2]。但是現(xiàn)實(shí)的企業(yè)數(shù)據(jù)集包含大量的數(shù)值型屬性(銷量,單價(jià),年齡,薪水等),利用傳統(tǒng)的算法無(wú)法準(zhǔn)確的發(fā)現(xiàn)商品之間的關(guān)系。同時(shí)有些強(qiáng)關(guān)聯(lián)規(guī)則由于商品購(gòu)買頻次較低,無(wú)法被傳統(tǒng)的度量框架發(fā)現(xiàn),但是往往這些關(guān)聯(lián)規(guī)則存在較高的商業(yè)價(jià)值,造成企業(yè)的經(jīng)濟(jì)損失[3]。因此,改進(jìn)現(xiàn)階段的關(guān)聯(lián)規(guī)則算法,使改進(jìn)算法能夠良好適用于含有數(shù)值型屬性的數(shù)據(jù)集,同時(shí)對(duì)度量框架進(jìn)行改進(jìn),要求改進(jìn)的度量框架能夠發(fā)現(xiàn)支持度較低的強(qiáng)關(guān)聯(lián)規(guī)則并且過(guò)濾掉冗余或者無(wú)效的關(guān)聯(lián)規(guī)則,對(duì)于擴(kuò)大關(guān)聯(lián)規(guī)則算法的實(shí)際應(yīng)用場(chǎng)景具有重要的意義。商品之間的關(guān)聯(lián)關(guān)系能夠指導(dǎo)企業(yè)獲得額外的交叉銷售機(jī)會(huì),提高企業(yè)的盈利水平。因此,各個(gè)行業(yè)包括電信,保險(xiǎn)零售等都在利用這類規(guī)則來(lái)提高自身競(jìng)爭(zhēng)力。但是由于我國(guó)物流行業(yè)發(fā)展較晚,和發(fā)達(dá)國(guó)家相比,企業(yè)物流整體成本較高隨著近年企業(yè)逐漸重視物流發(fā)展,企業(yè)物流信息化水平普遍提高,并積累了大量數(shù)據(jù)致力于降低物流成本。但是現(xiàn)階段的很多物流企業(yè)僅利用這些數(shù)據(jù)進(jìn)行簡(jiǎn)單的查詢管理等操作,并不立足于發(fā)現(xiàn)隱藏在這些海量數(shù)據(jù)背后商品之間的強(qiáng)關(guān)聯(lián)關(guān)系。因此如何利用關(guān)聯(lián)規(guī)則算法發(fā)現(xiàn)的商品之間的關(guān)聯(lián)關(guān)系,來(lái)改善物流業(yè)務(wù),降低企業(yè)的物流成本,對(duì)于企業(yè)具有重大的研究意義。
.........
1.2國(guó)內(nèi)外研究現(xiàn)狀
關(guān)聯(lián)規(guī)則己經(jīng)逐漸成為數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)之一,但是現(xiàn)階段關(guān)于關(guān)聯(lián)規(guī)則的改進(jìn)算法主要集中在如何降低算法運(yùn)行的時(shí)間復(fù)雜度和空間復(fù)雜度,例如Han等提出了 FP增長(zhǎng)算法,利用樹結(jié)構(gòu)來(lái)減少數(shù)據(jù)庫(kù)的讀取次數(shù)。Toivonen提出了基于抽樣的頻繁項(xiàng)集的產(chǎn)生方法,同樣只需要掃描一遍數(shù)據(jù)庫(kù),其他算法還包括樹投影和H-Mine_等。然而算法的結(jié)果需要最終為商業(yè)決策服務(wù),算法的研究不能只看重算法運(yùn)行的快慢而忽略了算法結(jié)果的有效性和適用性。量化關(guān)聯(lián)規(guī)則能夠有效處理連續(xù)型屬性,擴(kuò)大關(guān)聯(lián)規(guī)則算法的應(yīng)用范圍,而客觀興趣度度量能夠增強(qiáng)所提取的關(guān)聯(lián)規(guī)則的有效性,但是國(guó)內(nèi)外這方面的研究相對(duì)較少。目前的關(guān)聯(lián)規(guī)則算法主要用于處理布爾型屬性,在數(shù)據(jù)集中出現(xiàn)數(shù)值型屬性時(shí),一種很自然的策略是將數(shù)值型屬性轉(zhuǎn)化為布爾型,從而將原始問(wèn)題轉(zhuǎn)化為布爾型的關(guān)聯(lián)規(guī)則問(wèn)題。當(dāng)數(shù)值屬性取值較少時(shí),可以將每個(gè)取值設(shè)定為布爾屬性;若取值較多時(shí),需要將取值范圍劃分為多個(gè)區(qū)間,每個(gè)區(qū)間分別被映射成為布爾屬性。這是國(guó)內(nèi)外關(guān)于量化關(guān)聯(lián)規(guī)則研究的熱點(diǎn),同時(shí)由于區(qū)間劃分存在的邊界尖銳問(wèn)題,一部分學(xué)者還提出了模糊關(guān)聯(lián)規(guī)則的相關(guān)概念。
.......
第二章數(shù)據(jù)挖掘理論綜述
2.1引言
上一章介紹了研究背景和意義,同時(shí)在分析國(guó)內(nèi)外前沿研究的基礎(chǔ)上,提出了論文的主要研究框架和思路。本章將對(duì)本文研究所涉及的相關(guān)領(lǐng)域進(jìn)行概述,主要包括數(shù)據(jù)挖掘定義,按掘任務(wù)的分類和核心算法對(duì)比,以及數(shù)據(jù)挖掘的整體建模過(guò)程。數(shù)據(jù)挖掘概念:關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的核心領(lǐng)域,從海量數(shù)據(jù)提取有價(jià)值的趨勢(shì),模式和關(guān)系都可以認(rèn)為是數(shù)據(jù)挖掘的任務(wù),正確定義數(shù)據(jù)挖掘能夠幫助處理實(shí)際企業(yè)需求。數(shù)據(jù)挖掘任務(wù)分類和算法對(duì)比:數(shù)據(jù)挖掘任務(wù)主要分為聚類,分類,以及關(guān)聯(lián)規(guī)則。三個(gè)部分雖然任務(wù),處理算法不同,但是在算法研究和實(shí)際應(yīng)用場(chǎng)景中,經(jīng)常將三個(gè)部分的算法融合應(yīng)用,以提高實(shí)際應(yīng)用效果。詳細(xì)分析各個(gè)任務(wù)算法的優(yōu)缺點(diǎn)能夠?yàn)橄挛乃惴ǜ倪M(jìn)提供基礎(chǔ)。數(shù)據(jù)挖掘的整體建模過(guò)程:數(shù)據(jù)挖掘并不是簡(jiǎn)單的應(yīng)用挖掘算法的過(guò)程,要產(chǎn)生具有實(shí)際應(yīng)用價(jià)值的規(guī)律,需要經(jīng)歷定義挖掘目標(biāo),預(yù)處理,模型構(gòu)建,模型評(píng)價(jià)等一系列的過(guò)程。明確各個(gè)環(huán)節(jié)的任務(wù)及注意事項(xiàng)是挖掘任務(wù)順利完成的保障,因此,本章首先需要對(duì)數(shù)據(jù)挖掘的整體建模過(guò)程進(jìn)行敘述,為后面章節(jié)的實(shí)際應(yīng)用做鋪塾。
..........
2.2數(shù)據(jù)挖掘的起源與概念
數(shù)據(jù)采集和數(shù)據(jù)庫(kù)存儲(chǔ)技術(shù)的快速發(fā)展使得各個(gè)行業(yè)積累了海量數(shù)據(jù),這些海量數(shù)據(jù)如實(shí)記錄著企業(yè)的運(yùn)作,具有很高的商業(yè)價(jià)值。這些商業(yè)價(jià)值也吸引著企業(yè)尋找合適的分析工具,來(lái)尋找隱藏在數(shù)據(jù)中的運(yùn)營(yíng)規(guī)律,為商業(yè)智能決策提供有價(jià)值的建議,提高企業(yè)收益能力。同時(shí),豐富的數(shù)據(jù)也對(duì)現(xiàn)階段的數(shù)據(jù)分析工具技術(shù)提出了極大的挑戰(zhàn),傳統(tǒng)的數(shù)據(jù)分析技術(shù)己經(jīng)無(wú)法滿足現(xiàn)階段數(shù)據(jù)可伸縮,高維性,異種類型[41]等特征。數(shù)據(jù)挖掘?qū)⒑A繑?shù)據(jù)復(fù)雜算法融合到傳統(tǒng)數(shù)據(jù)分析技術(shù)中,能有效處理現(xiàn)階段數(shù)據(jù)的復(fù)雜特征。這些數(shù)據(jù)處理方法和復(fù)雜算法來(lái)源于多個(gè)學(xué)科,并在數(shù)據(jù)挖掘領(lǐng)域融合創(chuàng)新。首先數(shù)據(jù)倉(cāng)庫(kù),和互聯(lián)網(wǎng)等技術(shù)的高速發(fā)展創(chuàng)新使得企業(yè)具備存儲(chǔ)海量數(shù)據(jù)的能力,這些能力伴隨著訪問(wèn)技術(shù)的改進(jìn)為數(shù)據(jù)挖掘的實(shí)際應(yīng)用研究提供了必要條件。其次人工智能等理論和技術(shù)被成功應(yīng)用于商業(yè)處理也對(duì)數(shù)據(jù)挖掘的發(fā)展起到了極大的推動(dòng)作用⑴。本文認(rèn)為:數(shù)據(jù)挖掘(Data mining)就是從海量數(shù)據(jù)(包括文本數(shù)據(jù))中挖掘出未知的,隱藏在數(shù)據(jù)中,對(duì)最終決策有價(jià)值的趨勢(shì),模式和關(guān)系,并利用發(fā)現(xiàn)的規(guī)則和知識(shí)來(lái)建立決策支持模型,并提供決策支持的工具,方法和過(guò)程。這些建立的決策支持模型和方法可以被實(shí)際企業(yè)應(yīng)用于商業(yè)分析,需求預(yù)測(cè)等?傊,企業(yè)的運(yùn)作產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)和信息如實(shí)記錄著企業(yè)的運(yùn)作情況,通過(guò)數(shù)據(jù)挖掘技術(shù)分析,能夠幫助企業(yè)發(fā)現(xiàn)自身商業(yè)運(yùn)作中的趨勢(shì),并可應(yīng)用于預(yù)測(cè)未來(lái)的發(fā)展。數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了物流企業(yè)降低成本,吸引客戶,保持市場(chǎng)競(jìng)爭(zhēng)力的必要工具。
........
第三章關(guān)聯(lián)規(guī)則算法分析.......14
3.1關(guān)聯(lián)規(guī)則概述.......14
3.2 Apriori 算法.......15
3.3頻繁項(xiàng)集緊湊表示.......18
3.3.1極大頻繁項(xiàng)集.......18
3.3.2閉頻繁項(xiàng)集.......18
3.4算法優(yōu)缺點(diǎn)分析.......20
3.5本章小結(jié).......21
第四章基于聚類的量化關(guān)聯(lián)規(guī)則算法.......22
4.1引言.......22
4.2量化關(guān)聯(lián)規(guī)則現(xiàn)狀.......23
4.3基于聚類的量化關(guān)聯(lián)規(guī)則.......24
4.4量化關(guān)聯(lián)規(guī)則算法實(shí)例.......26
4.5本章小結(jié).......32
第五章關(guān)聯(lián)規(guī)則客觀興趣度度量研究.......33
5.1引言.......33
5.2傳統(tǒng)客觀興趣度度量的描述.......34
5.3新型客觀性度量的描述.......37
5.4客觀興趣度度量分析比較.......40
5.5本章小結(jié).......42
第六章基于關(guān)聯(lián)規(guī)則的改進(jìn)庫(kù)存管理方法
庫(kù)存管理是物流管理的核心領(lǐng)域,其目的在于及時(shí)滿足市場(chǎng)和生產(chǎn)需求。庫(kù)存管理的最終目的在于降低庫(kù)存系統(tǒng)的運(yùn)作成本。由于庫(kù)存項(xiàng)目種類繁多,很多企業(yè)利用ABC分類法進(jìn)行重點(diǎn)項(xiàng)目分類管理。本文在此基礎(chǔ)上,針對(duì)ABC分類法未考慮交叉銷售效果的缺點(diǎn),提出了量化關(guān)聯(lián)規(guī)則和ABC方法相結(jié)合的分類方法,該方法利用量化關(guān)聯(lián)規(guī)則度量交叉銷售效果,且在算法中引入了新型的度量指標(biāo)確保規(guī)則的有效性。實(shí)驗(yàn)結(jié)果證明,新型的ABC分類方法結(jié)果和傳統(tǒng)ABC分類結(jié)果存在較大的差異,但是改進(jìn)算法的最終結(jié)果能夠更好的反映商品的價(jià)值,具有更好的商業(yè)指導(dǎo)性。
6.1引言
庫(kù)存管理的最終目的在于通過(guò)確定最優(yōu)補(bǔ)貨批量和最佳的補(bǔ)貨時(shí)機(jī)來(lái)最小化庫(kù)存系統(tǒng)成本。國(guó)內(nèi)外研究人員主要通過(guò)針對(duì)具體的庫(kù)存系統(tǒng)建立數(shù)學(xué)模型,模型的目標(biāo)函數(shù)是最小化整體庫(kù)存系統(tǒng)的運(yùn)作成本,決策變量為補(bǔ)貨批量和補(bǔ)貨時(shí)機(jī),并且針對(duì)具體的實(shí)際問(wèn)題建立相應(yīng)的約束條件。通過(guò)求解數(shù)學(xué)模型,從而得到最優(yōu)的庫(kù)存管理策略。然而在實(shí)際庫(kù)存管理系統(tǒng)中,由于庫(kù)存商品品類繁多,為每種商品制定個(gè)性化的庫(kù)存控制策略(安全庫(kù)存,補(bǔ)貨策略)并不可行,通常是將所有商品針對(duì)優(yōu).先級(jí)進(jìn)行分類,對(duì)同一類別的商品采用統(tǒng)一的庫(kù)存管理策略。ABC分類法【70】基于“關(guān)鍵少數(shù),次要多數(shù)”的思想,并被廣泛應(yīng)用于商品優(yōu)先級(jí)排序分類。在傳統(tǒng)ABC分類法中,金額占用作為一個(gè)重要的衡量指標(biāo)來(lái)體現(xiàn)商品的重要性,除此之外,缺貨影響,庫(kù)存維持成本,供貨穩(wěn)定性等參數(shù)也被國(guó)內(nèi)外研究人員和企業(yè)應(yīng)用于庫(kù)存商品的分類。
總結(jié)
本文主要針對(duì)數(shù)據(jù)挖掘領(lǐng)域關(guān)聯(lián)規(guī)則的算法理論及其庫(kù)存分類應(yīng)用進(jìn)行了如下多方面的研究工作:
(1)歸納總結(jié)了數(shù)據(jù)挖掘的起源,定義以及任務(wù),并對(duì)每個(gè)任務(wù)涉及的算法進(jìn)行比較分析,同時(shí)梳理了整體建模過(guò)程,描述了挖掘技術(shù)及其物流應(yīng)用現(xiàn)狀。
(2)概述了關(guān)聯(lián)規(guī)則的核心思想,介紹了其中Apriori算法,且總結(jié)了現(xiàn)階段關(guān)聯(lián)規(guī)則的缺點(diǎn):首先,Apriori算法只能處理布爾值屬性,無(wú)法處理實(shí)際數(shù)據(jù)集中包含的可量化屬性;其次,支持度和置信度度量框架無(wú)法有效提取低支持度但是有效的規(guī)則,同時(shí)所產(chǎn)生的規(guī)則存在較多的冗余和虛假情況。
(3)針對(duì)研宄內(nèi)容(2)中第一個(gè)缺點(diǎn),提出了一個(gè)基于快速聚類法的改進(jìn)量化關(guān)聯(lián)規(guī)則算法,通過(guò)將連續(xù)性屬性投影到離散區(qū)間實(shí)現(xiàn)屬性的離散化。同時(shí)快速聚類法考慮了樣本各個(gè)屬性的相關(guān)性,且不受離群點(diǎn)的影響,具有較好的聚類效果。
(4)針對(duì)研究?jī)?nèi)容(2)中關(guān)聯(lián)規(guī)則的第二個(gè)缺點(diǎn),本文研究了國(guó)內(nèi)外較為經(jīng)典的度量指標(biāo)’并對(duì)經(jīng)典指標(biāo)進(jìn)行對(duì)比分析,同時(shí)在此基礎(chǔ)了引入了相關(guān)性和熵的概念,提出了一個(gè)新型的度量框架,能夠有效的挖掘出隱藏在數(shù)據(jù)集中的關(guān)聯(lián)規(guī)則。
.........
參考文獻(xiàn)(略)
,
本文編號(hào):37486
本文鏈接:http://www.sikaile.net/wenshubaike/lwfw/37486.html