供應鏈聯合補充問題的強化學習算法
本文關鍵詞:供應鏈聯合補充問題的強化學習算法
更多相關文章: 供應鏈 聯合補充問題 強化學習 進銷存系統(tǒng)
【摘要】:聯合補充問題(The joint replenishment problem ERP),是指在同一供應商處采購多種貨物,對不同周期的不同貨物進行調度的策略問題,好的采購策略能提高庫存管理效果和節(jié)約成本。在實現生活中,企業(yè)受到外界各種因素的影響,在聯合補充的過程中需求量或者采購周期往往會產生波動,為了降低企業(yè)的額外無用消耗,模糊聯合問題就因運而生,,問題的解決也變得迫在眉睫。隨著生產生活的需要,企業(yè)需要面對各種各樣的聯合補充問題,機器學習和ERP相結合,解決了專家算法中供應鏈中的知識獲取問題。強化學習是人工智能的重要算法之一,它是通過不斷與環(huán)境交互從而改進本身的策略。 首先,研究單一供應商條件下需求為模糊變量的聯合補充問題,需求量為模糊變量,列出其隸屬函數,通過梯形模糊數求解目標函數,通過模糊隸屬度求出目標函數,即各產品的補充周期;通過各個產品的最佳補充周期確定對應的基本補充周期長度。通過對需求模糊的聯合補充問題研究,得到一個每次行動后系統(tǒng)獲得的回報函數并通過學習算法對數學模型進行處理,最終求解出的函數為最小化訂貨成本。 其次,研究聯合補充問題的強化學習算法。通過強化學習對離散問題的研究,從而解決無模型情況下的聯合補充問題。將聯合補充問題轉變?yōu)闆Q策問題,進而使用強化學習解決策略問題。依據半馬爾可夫理論,采用強化學習算法,對供應鏈中聯合補充問題進行無導師學習,每種貨物的基本周期作為初始狀態(tài),由馬爾可夫決策鏈,通過行為和轉移概率計算出聯合補充的Q值,參數選取原則與結束條件,最后通過實例的驗證證明算法的有效性與實用性。 最后,將本文研究的學習算法應用于一套進銷存系統(tǒng)中,系統(tǒng)使用SSH框架,使用Java開發(fā),數據庫采用Mysql。經銷存系統(tǒng)中包括商品管理、采購管理、商品運輸、倉庫管理、基礎維護這五大模塊。通過測試驗證,證明了本文模型算法在實際中的實用性。
【學位授予單位】:哈爾濱理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:F274;TP18
【相似文獻】
中國期刊全文數據庫 前10條
1 李春貴,劉永信,陳波;多步截斷行動—評價強化學習算法[J];內蒙古大學學報(自然科學版);2005年02期
2 鄭宇;羅四維;呂子昂;;基于模型的層次化強化學習算法[J];北京交通大學學報;2006年05期
3 周如益;高陽;;一種基于性能勢的無折扣強化學習算法[J];廣西師范大學學報(自然科學版);2006年04期
4 高陽;周如益;王皓;曹志新;;平均獎賞強化學習算法研究[J];計算機學報;2007年08期
5 何源;張文生;;基于核方法的強化學習算法[J];微計算機信息;2008年04期
6 楊旭東;劉全;李瑾;;一種基于資格跡的并行強化學習算法[J];蘇州大學學報(自然科學版);2012年01期
7 劉夢婷;牟永敏;趙剛;歐陽騰飛;;基于強化學習算法的供應鏈管理訂單策略研究[J];數據通信;2013年01期
8 王學寧,賀漢根,徐昕;求解部分可觀測馬氏決策過程的強化學習算法[J];控制與決策;2004年11期
9 李春貴;劉永信;王萌;;集成規(guī)劃的行動-自適應評價強化學習算法[J];內蒙古大學學報(自然科學版);2008年03期
10 蘇浩銘;王浩;;一種基于模型的強化學習算法[J];合肥工業(yè)大學學報(自然科學版);2008年09期
中國重要會議論文全文數據庫 前2條
1 陳宗海;段家慶;任皴;羅楊宇;李成榮;;針對機器人覓食任務的強化學習算法及其仿真研究[A];'2008系統(tǒng)仿真技術及其應用學術會議論文集[C];2008年
2 孟祥萍;苑全德;皮玉珍;;基于量子理論的多Agent系統(tǒng)強化學習研究[A];'2006系統(tǒng)仿真技術及其應用學術交流會論文集[C];2006年
中國博士學位論文全文數據庫 前3條
1 陳興國;基于值函數估計的強化學習算法研究[D];南京大學;2013年
2 鄭宇;分層強化學習算法及其應用研究[D];北京交通大學;2009年
3 李妼;基于視覺聽覺語義相干性的強化學習系統(tǒng)的研究[D];太原理工大學;2012年
中國碩士學位論文全文數據庫 前10條
1 張曉艷;連續(xù)時間分層強化學習算法[D];合肥工業(yè)大學;2010年
2 蘇浩銘;基于模型知識的大空間強化學習算法的研究與實現[D];合肥工業(yè)大學;2008年
3 楊宛璐;基于性能勢的改進平均獎賞強化學習算法研究[D];廣東工業(yè)大學;2014年
4 宋超峰;基于平均型強化學習算法的動態(tài)調度方法的研究[D];天津大學;2006年
5 袁姣紅;基于模型的動態(tài)分層強化學習算法研究[D];中南大學;2011年
6 褚建華;Q-learning強化學習算法改進及其應用研究[D];北京化工大學;2009年
7 周雷;折扣和平均準則下SMDP基于性能勢的統(tǒng)一強化學習算法[D];合肥工業(yè)大學;2006年
8 黃付亮;聯合博弈框架下的多Agent強化學習算法研究[D];太原科技大學;2011年
9 趙紹航;供應鏈聯合補充問題的強化學習算法[D];哈爾濱理工大學;2015年
10 楊旭東;并行強化學習研究[D];蘇州大學;2012年
本文編號:1172565
本文鏈接:http://www.sikaile.net/guanlilunwen/gongyinglianguanli/1172565.html