基于多智能体强化学习的纺织面料染色车间动态调度方法

doi:10.13196/j.cims.2023.01.006

计算机集成制造系统 ›› 2023, Vol. 29 ›› Issue (1): 61-74.DOI: 10.13196/j.cims.2023.01.006

基于多智能体强化学习的纺织面料染色车间动态调度方法

贺俊杰¹,张洁¹⁺,张朋¹,郑鹏²,王明¹

1.东华大学机械工程学院
2.上海交通大学机械与动力工程学院

出版日期:2023-01-31 发布日期:2023-02-14
基金资助:
国家重点研发计划资助项目(2019YFB1706300);东华大学青年教师启动基金资助项目。

Multi-agent reinforcement learning based textile dyeing workshop dynamic scheduling method

HE Junjie¹,ZHANG Jie¹⁺,ZHANG Peng¹,ZHENG Peng²,WANG Ming¹

1.School of Mechanical Engineering,Donghua University
2.School of Mechanical Engineering,Shanghai Jiao Tong University

Online:2023-01-31 Published:2023-02-14
Supported by:
Project supported by the National Key Research and Development Program,China(No.2019YFB1706300),and the Initial Research Funds for Young Teacher of Donghua University,China.

摘要/Abstract

摘要： 针对任务随订单动态到达环境下的纺织面料染色车间动态调度问题,以最小化总拖期时间为优化目标,提出了基于多智能体循环近端策略优化(MA-RPPO)强化学习的完全反应式调度方法。首先,针对染色车间调度的组批和排缸两个子问题,设计了组批和排缸两个强化学习智能体;然后,针对车间任务的动态性,引入长短期记忆网络(LSTM)提取车间动态信息,提高智能体对动态环境的自适应能力;进一步提出组批智能体和排缸智能体的交互机制,实现组批与排缸全局优化;最后,抽取问题约束与优化目标的相关特征并设计奖励函数,通过动态调度机制驱动智能体的交互学习获得最优调度策略。经某印染企业的实例验证表明,所提方法对不同规模问题的求解性能均优于多种常用的高性能启发式规则,有效降低了产品的总拖期时间,提升了企业订单的准时交付能力。

关键词: 染色车间调度, 并行批处理机, 动态调度, 多智能体强化学习, 长短期记忆网络, 总拖期时间

Abstract: Aiming at the dynamic scheduling problem of textile dyeing workshop in which tasks release dynamically by orders,a Multi-Agent Recurrent Proximal Policy Optimization (MA-RPPO) reinforcement learning(RL) based fully reactive scheduling method was proposed by taking the minimum total tardiness time as the optimization goal.For the two sub-problems of group batching and the vats scheduling in the dyeing workshop,the batching agent and the scheduling agent were designed to group batches and schedule the vats.For the dynamics of dyeing tasks,Long Short Term Memory (LSTM) was introduced to extract workshop dynamic information and improve the adaptive ability of the agent;further the interaction mechanism between agents was proposed to achieve global optimization of two sub-problems.The relevant features of constraints and optimization goal were extracted,and the reward function was designed.The agents interacted with the dyeing workshop environment through dynamic scheduling mechanisms to learn the optimal scheduling strategy.The case study from a dyeing enterprise showed that the proposed method was better than some high-performance heuristic rules in different scales of problems,reducing the total tardiness time of products and improving the ability of timely delivery of enterprise effectively.

Key words: dyeing workshop scheduling, batch processing machine, dynamic scheduling, multi-agent reinforcement learning, long short term memory network, total tardiness

中图分类号:

TH166

贺俊杰, 张洁, 张朋, 郑鹏, 王明. 基于多智能体强化学习的纺织面料染色车间动态调度方法[J]. 计算机集成制造系统, 2023, 29(1): 61-74.

HE Junjie, ZHANG Jie, ZHANG Peng, ZHENG Peng, WANG Ming. Multi-agent reinforcement learning based textile dyeing workshop dynamic scheduling method[J]. Computer Integrated Manufacturing System, 2023, 29(1): 61-74.

[1]	孙阳君, 赵宁. 多机器人存取系统动态调度方法[J]. 计算机集成制造系统, 2022, 28(7): 2213-2228.
[2]	沈倩, 管在林, 张正敏, 王创剑, 岳磊. 面向卷烟生产调度的集成产能过滤算法与仿真技术的优化框架[J]. 计算机集成制造系统, 2022, 28(5): 1462-1471.
[3]	高鹏, 苏雍贺, 左颖, 陶飞. 基于强化学习的分布式光伏运维资源动态调度[J]. 计算机集成制造系统, 2022, 28(2): 552-563.
[4]	朱锐, 吕昌龙, 李彤, 何亚辉, 刘航, 张存明, 陈晔婷. 基于ON-LSTM的业务过程模型深度自动生成[J]. 计算机集成制造系统, 2022, 28(10): 3225-3238.
[5]	樊盼盼,袁逸萍,孙文磊,樊小朝,赵琴,马占伟. 融合多时段SCADA数据的风电机组风险态势预测[J]. 计算机集成制造系统, 2021, 27(7): 1993-2004.
[6]	陈治宇,鲍劲松,郑小虎,丁司懿,刘天元. 基于长短期记忆网络的装配工艺语义识别方法[J]. 计算机集成制造系统, 2021, 27(6): 1582-1593.
[7]	曾鹏飞,刘辉. 基于二次相似性度量的即时学习转炉炼钢终点碳温软测量方法[J]. 计算机集成制造系统, 2021, 27(5): 1429-1439.
[8]	马玉敏,陆晓玉,乔非,沈一路. 基于极限学习机的复杂制造系统动态调度[J]. 计算机集成制造系统, 2021, 27(4): 1081-1088.
[9]	杨小佳,刘建军,陈庆新,毛宁. 变扰动强度下柔性装配作业车间调度性能分析[J]. 计算机集成制造系统, 2021, 27(3): 800-814.
[10]	曹远冲,熊辉,庄存波,刘检华,宁伟航. 基于数字孪生的复杂产品离散装配车间动态调度[J]. 计算机集成制造系统, 2021, 27(2): 557-568.
[11]	葛艳,王爱民,叶介然. 基于遗传退火算法的质检扰动应对方法[J]. 计算机集成制造系统, 2021, 27(11): 3159-3171.
[12]	陶俐言,赵鹏翡,陈冉冉. 基于动态机器故障率的并联加工系统资源多目标调度[J]. 计算机集成制造系统, 2020, 26(第1): 66-73.
[13]	汤洪涛,费永辉,陈青丰,詹燕,鲁建厦,李晋青. 基于工业大数据的柔性作业车间动态调度[J]. 计算机集成制造系统, 2020, 26(9): 2497-2510.
[14]	刘俨后,麻娟,牟健慧,李学伟. 面向紧急订单的混流装配线动态调度[J]. 计算机集成制造系统, 2017, 23(第12): 2647-2656.
[15]	马玉敏,乔非,陈曦,田阔,伍星浩. 基于支持向量机的半导体生产线动态调度方法[J]. 计算机集成制造系统, 2015, 21(第3期): 733-739.

基于多智能体强化学习的纺织面料染色车间动态调度方法

Multi-agent reinforcement learning based textile dyeing workshop dynamic scheduling method

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics