基于强化学习的生产再决策问题

doi:10.13196/j.cims.2019.11.022

计算机集成制造系统 ›› 2019, Vol. 25 ›› Issue (第11): 2935-2942.DOI: 10.13196/j.cims.2019.11.022

基于强化学习的生产再决策问题

夏金,孙宏波,孙立民⁺

烟台大学计算机与控制工程学院

出版日期:2019-11-30 发布日期:2019-11-30
基金资助:
烟台市科技计划资助项目(2016ZH065)。

Reinforcement learning for production reschedule

Online:2019-11-30 Published:2019-11-30
Supported by:
Project supported by the Science & Technology Plan of Yantai City,China(No.2016ZH065).

摘要/Abstract

摘要： 为解决制造型企业面临的订单变更后生产再决策问题,提出一种基于强化学习的生产再决策方案。对订单变更问题使用半马尔可夫决策模型建模,综合考虑企业实际生产环节中的设备使用情况、产品的收益、库存开销以及订单的违约赔偿等因素,将企业收益最大化和变更前后整体生产决策差异最小化作为优化目标,采用动态改变探索速率和学习速率的Q-learning算法对生产再决策问题进行优化。数值实验证明,所提方法可以快速解决生产再决策问题。

关键词: 订单变更, 生产再决策, 强化学习, Q-learning算法

Abstract: For the problem of production reschedule of manufacturing industry,a method was proposed based on reinforcement learning.The maximizing manufacturer profit and minimizing changes of existed production plans were set to be optimal objective,so that the equipment conditions,profit,storage cost and default cost of industry in production process could be balanced.The Q-learning algorithm which dynamically had changed the exploration rate and the learning rate was employed to optimize the problem of production reschedule.The numerical experiments showed that the optimal production reschedule plan could be quickly obtained with the proposed method.

Key words: order change, production reschedule, reinforcement learning, Q-learning algorithm

中图分类号:

TP31

夏金,孙宏波,孙立民. 基于强化学习的生产再决策问题[J]. 计算机集成制造系统, 2019, 25(第11): 2935-2942.

[1]	冯春,张祎伟,黄成,姜文彪,武之炜. 双足机器人步态控制的深度强化学习方法[J]. 计算机集成制造系统, 2021, 27(8): 2341-2349.
[2]	崔鹏浩,王军强,张文沛,李洋. 基于深度强化学习的流水线预测性维护决策[J]. 计算机集成制造系统, 2021, 27(12): 3416-3428.
[3]	陈勇,王昊天,易文超,裴植,王成,吴光华. 基于元胞机与强化学习的多扰动车间调度算法[J]. 计算机集成制造系统, 2021, 27(12): 3536-3549.
[4]	张韵,钟慧超,张春江,李新宇,丛建臣. 基于机器学习的多策略并行遗传算法[J]. 计算机集成制造系统, 2021, 27(10): 2921-2928.
[5]	肖鹏飞,张超勇,孟磊磊,洪辉,戴稳. 基于深度强化学习的非置换流水车间调度问题[J]. 计算机集成制造系统, 2021, 27(1): 193-206.
[6]	张景玲,冯勤炳,赵燕伟,刘金龙,冷龙龙. 基于强化学习的超启发算法求解有容量车辆路径问题[J]. 计算机集成制造系统, 2020, 26(第4): 1118-1129.
[7]	李锋,陈勇,王家序,汤宝平. 基于强化学习单元匹配循环神经网络的滚动轴承状态趋势预测[J]. 计算机集成制造系统, 2020, 26(8): 2050-2059.
[8]	徐小斐,陈婧,饶运清,孟荣华,袁博,罗强. 迁移蚁群强化学习算法及其在矩形排样中的应用[J]. 计算机集成制造系统, 2020, 26(12): 3236-3247.
[9]	杨宏兵,沈露,成明,陶来发. 带退化效应多态生产系统调度与维护集成优化[J]. 计算机集成制造系统, 2018, 24(第1): 80-88.
[10]	李文超,,，严洪森,. 基于链约束的Job-Shop型知识化制造单元自进化算法[J]. , 2012, 18(09): 0-0.
[11]	徐新黎，郝平，王万良. 多Agent动态调度方法在染色车间调度中的应用[J]. , 2010, 16(03): 0-0.
[12]	王文玺，肖世德，孟祥印，陈应松，张卫华. 基于递阶强化学习的自主机器人路径规划智能体[J]. , 2009, 15(06): 0-0.
[13]	孙晟，王世进，奚立峰. 基于强化学习的模式驱动调度系统研究[J]. , 2007, 13(09): 0-0.

基于强化学习的生产再决策问题

Reinforcement learning for production reschedule

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 13

编辑推荐

Metrics