基于過程挖掘的未來感知預(yù)測模型
發(fā)布時間:2020-08-15 09:45
【摘要】:將事件日志中蘊含的過程模型看成兩緊鄰活動的組合,提出兩種新的過程模型。首先,利用日志信息中的活動緊鄰關(guān)系構(gòu)造鄰接矩陣提取過程模型,該模型中每個活動僅發(fā)生一次;其次,為避免過程模型中出現(xiàn)回路或者環(huán)路而造成模型預(yù)測精度降低的情況發(fā)生,在構(gòu)造的鄰接矩陣中增加活動在事件日志中所處的順序位次,構(gòu)造含有活動位次信息的鄰接矩陣,以此為基礎(chǔ)上進一步提取過程模型,該模型中每個活動在同一個位次上僅發(fā)生一次;再次,通過矩陣中的信息可獲得過程模型中每個上層節(jié)點到各個下層節(jié)點的路徑與相應(yīng)概率;接下來,根據(jù)事件日志中信息的類型和特征,利用過程模型對決策者所需要的信息(如活動名稱、等待時間、發(fā)生概率)進行預(yù)測;最后,利用隨機數(shù)據(jù)與實際數(shù)據(jù)同基于序列提取規(guī)則的過程模型預(yù)測結(jié)果進行比較,驗證所提模型的實際有效性。
【圖文】:
<IT=32.50>End2.1.2過程模型提取根據(jù)鄰接矩陣的構(gòu)造過程算法細節(jié)可知,當鄰接矩陣中所對應(yīng)(i,j)位置數(shù)據(jù)不為空時,說明在事件日志中,活動i與j在某個或某幾個案例中作為緊鄰活動,那么在過程模型提取時,這兩個活動之間有直接的聯(lián)系,從而應(yīng)用線連接起來,當在兩個活動相連的線上增加矩陣中的相應(yīng)信息(頻率與時間間隔數(shù)值),可得到包含時間信息與頻率信息的過程模型。針對表2中的隨機數(shù)據(jù)(7個案例,26個活動)對應(yīng)的鄰接矩陣Ⅱ,提取的過程模型如圖1所示。圖1預(yù)測過程模型(基于鄰接矩陣Ⅱ提。┍恚仓泻械模祩不同類型的活動在圖1的模型中僅出現(xiàn)一次,此時在圖1中活動B與C之間存在一個回路,根據(jù)圖1中現(xiàn)有頻率信息,無法計算出活動B與C之間回路發(fā)生的次數(shù)(無法確定活動B與C在事件日志案例中緊鄰成對出現(xiàn)的次數(shù))。據(jù)文獻[2,25]可知,過程模型的預(yù)測精度與模型中回路或者環(huán)路的數(shù)量呈負相關(guān)性,隨著回路或者環(huán)路數(shù)量的增多,該過程模型的精度相應(yīng)降低。為避免過程模型中產(chǎn)生回路或者環(huán)路,在鄰接矩陣Ⅱ中的(i,j)處,增加活動i在事件日志案例中所發(fā)生位置對應(yīng)順序數(shù)據(jù)信息,進一步構(gòu)造含有活動順序位次的鄰接矩陣。2.2鄰接矩陣進一步構(gòu)造表2中,活動A作為第1位次的活動出現(xiàn)了7次,即A都是第一個發(fā)生的活動。由于每個案例中發(fā)生活動的數(shù)量與過程不同,每個活動順序發(fā)生的位次不同,D在案例4和案例7中是第3個發(fā)生的活動,在其余5個案例中是第4個發(fā)生的活動,但所有案例中D都是最后一個
鄰的只有活動C,利用活動C在第3位次發(fā)生的頻率3與活動B在第2位次發(fā)生的頻率3可以求得此時的條件概率,那么活動C發(fā)生的概率是1(P{{3}←C/{2}←B}=3/3=1,與此同時,活動B完成后距離活動C完成的時間是4.33。針對表2中的隨機數(shù)據(jù)事件日志信息,利用圖2中的過程模型相比利用圖1中的過程模型能得到更好地預(yù)測結(jié)果,原因在于鄰接矩陣Ⅲ比鄰接矩陣Ⅱ含有更多的信息(案例中每個活動的順序位次信息),因此圖2中過程模型更精確。因此,在實際應(yīng)用中,可根據(jù)決策者對模型預(yù)測精度要求,在鄰接矩陣中增加不同的信息。3隨機數(shù)據(jù)預(yù)測結(jié)果比較利用隨機數(shù)據(jù),將本文提出的PMAM的預(yù)測結(jié)果與文獻[1]中提出的PMS的預(yù)測結(jié)果進行比較,來驗證PMAM算法的可行性。3.1隨機數(shù)據(jù)I針對表2中的事件日志,利用過程挖掘工具PROM[20]提。校停优cPMAM(具體數(shù)據(jù)信息如圖2中所示),這兩種模型的預(yù)測結(jié)果比較如表6所示。表6PMAM與PMS預(yù)測結(jié)果狀態(tài)PMAM預(yù)測結(jié)果PMS預(yù)測結(jié)果1START{0}(adjacencyA)[FRE=7]<IT=0>[{}]<IT=0>2A{1}(adjacencyB)[FRE=3]<IT=4.67>(adjacencyC)[FRE=2]<IT=4.50>(adjacencyE)[FRE=2]<IT=9.50>[{0=A}]<Sojourntime=6.00>3B{2}(adjacencyC)
【圖文】:
<IT=32.50>End2.1.2過程模型提取根據(jù)鄰接矩陣的構(gòu)造過程算法細節(jié)可知,當鄰接矩陣中所對應(yīng)(i,j)位置數(shù)據(jù)不為空時,說明在事件日志中,活動i與j在某個或某幾個案例中作為緊鄰活動,那么在過程模型提取時,這兩個活動之間有直接的聯(lián)系,從而應(yīng)用線連接起來,當在兩個活動相連的線上增加矩陣中的相應(yīng)信息(頻率與時間間隔數(shù)值),可得到包含時間信息與頻率信息的過程模型。針對表2中的隨機數(shù)據(jù)(7個案例,26個活動)對應(yīng)的鄰接矩陣Ⅱ,提取的過程模型如圖1所示。圖1預(yù)測過程模型(基于鄰接矩陣Ⅱ提。┍恚仓泻械模祩不同類型的活動在圖1的模型中僅出現(xiàn)一次,此時在圖1中活動B與C之間存在一個回路,根據(jù)圖1中現(xiàn)有頻率信息,無法計算出活動B與C之間回路發(fā)生的次數(shù)(無法確定活動B與C在事件日志案例中緊鄰成對出現(xiàn)的次數(shù))。據(jù)文獻[2,25]可知,過程模型的預(yù)測精度與模型中回路或者環(huán)路的數(shù)量呈負相關(guān)性,隨著回路或者環(huán)路數(shù)量的增多,該過程模型的精度相應(yīng)降低。為避免過程模型中產(chǎn)生回路或者環(huán)路,在鄰接矩陣Ⅱ中的(i,j)處,增加活動i在事件日志案例中所發(fā)生位置對應(yīng)順序數(shù)據(jù)信息,進一步構(gòu)造含有活動順序位次的鄰接矩陣。2.2鄰接矩陣進一步構(gòu)造表2中,活動A作為第1位次的活動出現(xiàn)了7次,即A都是第一個發(fā)生的活動。由于每個案例中發(fā)生活動的數(shù)量與過程不同,每個活動順序發(fā)生的位次不同,D在案例4和案例7中是第3個發(fā)生的活動,在其余5個案例中是第4個發(fā)生的活動,但所有案例中D都是最后一個
鄰的只有活動C,利用活動C在第3位次發(fā)生的頻率3與活動B在第2位次發(fā)生的頻率3可以求得此時的條件概率,那么活動C發(fā)生的概率是1(P{{3}←C/{2}←B}=3/3=1,與此同時,活動B完成后距離活動C完成的時間是4.33。針對表2中的隨機數(shù)據(jù)事件日志信息,利用圖2中的過程模型相比利用圖1中的過程模型能得到更好地預(yù)測結(jié)果,原因在于鄰接矩陣Ⅲ比鄰接矩陣Ⅱ含有更多的信息(案例中每個活動的順序位次信息),因此圖2中過程模型更精確。因此,在實際應(yīng)用中,可根據(jù)決策者對模型預(yù)測精度要求,在鄰接矩陣中增加不同的信息。3隨機數(shù)據(jù)預(yù)測結(jié)果比較利用隨機數(shù)據(jù),將本文提出的PMAM的預(yù)測結(jié)果與文獻[1]中提出的PMS的預(yù)測結(jié)果進行比較,來驗證PMAM算法的可行性。3.1隨機數(shù)據(jù)I針對表2中的事件日志,利用過程挖掘工具PROM[20]提。校停优cPMAM(具體數(shù)據(jù)信息如圖2中所示),這兩種模型的預(yù)測結(jié)果比較如表6所示。表6PMAM與PMS預(yù)測結(jié)果狀態(tài)PMAM預(yù)測結(jié)果PMS預(yù)測結(jié)果1START{0}(adjacencyA)[FRE=7]<IT=0>[{}]<IT=0>2A{1}(adjacencyB)[FRE=3]<IT=4.67>(adjacencyC)[FRE=2]<IT=4.50>(adjacencyE)[FRE=2]<IT=9.50>[{0=A}]<Sojourntime=6.00>3B{2}(adjacencyC)
【共引文獻】
相關(guān)期刊論文 前10條
1 宋煒;劉強;;基于模擬退火算法的過程挖掘研究[J];電子學報;2009年S1期
2 瞿華;;基于結(jié)構(gòu)化工作流網(wǎng)的隱含任務(wù)挖掘方法[J];中國管理信息化;2012年07期
3 王sマ
本文編號:2793945
本文鏈接:http://www.sikaile.net/guanlilunwen/glzh/2793945.html