计算机集成制造系统 ›› 2023, Vol. 29 ›› Issue (1): 61-74.DOI: 10.13196/j.cims.2023.01.006
贺俊杰1,张洁1+,张朋1,郑鹏2,王明1
HE Junjie1,ZHANG Jie1+,ZHANG Peng1,ZHENG Peng2,WANG Ming1
摘要: 针对任务随订单动态到达环境下的纺织面料染色车间动态调度问题,以最小化总拖期时间为优化目标,提出了基于多智能体循环近端策略优化(MA-RPPO)强化学习的完全反应式调度方法。首先,针对染色车间调度的组批和排缸两个子问题,设计了组批和排缸两个强化学习智能体;然后,针对车间任务的动态性,引入长短期记忆网络(LSTM)提取车间动态信息,提高智能体对动态环境的自适应能力;进一步提出组批智能体和排缸智能体的交互机制,实现组批与排缸全局优化;最后,抽取问题约束与优化目标的相关特征并设计奖励函数,通过动态调度机制驱动智能体的交互学习获得最优调度策略。经某印染企业的实例验证表明,所提方法对不同规模问题的求解性能均优于多种常用的高性能启发式规则,有效降低了产品的总拖期时间,提升了企业订单的准时交付能力。
中图分类号: