摘要: 针对考虑工件动态插入及转移时间的分布式异构作业车间调度问题,以最小化总拖期时间为目标,提出一种基于决斗双深度 Q 网络的多智能体深度强化学习(MAD3QN)方法。该问题涉及到工件选择与机器分配两个耦合的决策过程,因此创建了两类智能体,分别为两个智能体制定了两个马尔可夫决策过程。针对工件选择智能体和机器分配智能体,详细描述了两个智能体的状态表示、动作空间和奖励设置,以实现更高效的决策。最后,为了验证所提方法中在不同规模实例下的有效性,与复合调度规则进行了对比;进一步,与启发式调度算法及其他深度强化学习方法相比,验证所提方法在不同规模下的优越性。
中图分类号:
王丽君, 王成广, 李相阳, CHENG Ruixue, 文笑雨. 基于多智能体深度强化学习求解分布式异构作业车间动态调度问题[J]. 计算机集成制造系统, 2025, 31(12): 4608-4620.
WANG Lijun, WANG Chengguang, LI Xiangyang, CHENG Ruixue, WEN Xiaoyu. Dynamic scheduling problem in distributed heterogeneous job shops based on multi-agent deep reinforcement learning[J]. Computer Integrated Manufacturing System, 2025, 31(12): 4608-4620.