基于深度强化学习的多自动导引车运动规划

doi:10.13196/j.cims.2021.0607

计算机集成制造系统 ›› 2024, Vol. 30 ›› Issue (2): 708-716.DOI: 10.13196/j.cims.2021.0607

基于深度强化学习的多自动导引车运动规划

孙辉,袁维

东南大学机械工程学院

出版日期:2024-02-29 发布日期:2024-03-08
基金资助:
2016年智能制造综合标准化资助项目(工信部联装［2016］213号)。

Multi-AGV motion planning based on deep reinforcement learning

SUN Hui,YUAN Wei

School of Mechanical Engineering,Southeast University

Online:2024-02-29 Published:2024-03-08
Supported by:
Project supported by the Ministry of Industry and Information Technology,China(No.［2016］213).

摘要/Abstract

摘要： 为解决移动机器人仓储系统中的多自动导引车(AGV)无冲突运动规划问题,建立了Markov决策过程模型,提出一种新的基于深度Q网络(DQN)的求解方法。将AGV的位置作为输入信息,利用DQN估计该状态下采取每个动作所能获得的最大期望累计奖励,并采用经典的深度Q学习算法进行训练。算例计算结果表明,该方法可以有效克服AGV车队在运动中的碰撞问题,使AGV车队能够在无冲突的情况下完成货架搬运任务。与已有启发式算法相比,该方法求得的AGV运动规划方案所需要的平均最大完工时间更短。

关键词: 多自动导引车, 运动规划, Markov决策过程, 深度Q网络, 深度Q学习

Abstract: To solve the problem of multi-Automated Guided Vehicle(AGV)conflict-free motion planning in mobile robot fulfillment systems,a Markov Decision Process(MDP)model was constructed,then a novel planning approach based on Deep Q-Network(DQN)was proposed.With AGVs'positions as inputs,the DQN was trained by using classical deep Q-learning algorithm and was used to estimate the maximum expected cumulative reward received from taking each action.Computational results of problem instances showed that the proposed approach could effectively overcome the potential collisions of AGV fleet in motion,and thus enabled the AGV fleet to accomplish all rack transportation tasks with conflict-free.Furthermore,compared to an existing planning heuristic in the literature,the motion plans of AGVs generated from the proposed approach requid shorter average makespans.

Key words: multi-automated guided vehicle, motion planning, Markov decision process, deep Q-network, deep Q-learning

中图分类号:

TP18
TP24

孙辉, 袁维. 基于深度强化学习的多自动导引车运动规划[J]. 计算机集成制造系统, 2024, 30(2): 708-716.

SUN Hui, YUAN Wei. Multi-AGV motion planning based on deep reinforcement learning[J]. Computer Integrated Manufacturing System, 2024, 30(2): 708-716.

[1]	黄岩松, 姚锡凡, 景轩, 胡晓阳. 基于深度Q网络的多起点多终点AGV路径规划[J]. 计算机集成制造系统, 2023, 29(8): 2550-2562.
[2]	双丰, 刘旭兀, 李少东, 刘熹, 陈明岐. 基于GPF-RRT*的机械臂自主运动规划[J]. 计算机集成制造系统, 2023, 29(4): 1174-1185.
[3]	黎声益, 马玉敏, 刘鹃. 基于双深度Q学习网络的面向设备负荷稳定的智能车间调度方法[J]. 计算机集成制造系统, 2023, 29(1): 91-99.
[4]	李扬, 张蕾, 李鹏飞, 王晓华, 王文杰. 基于改进RRT结合B样条的机械臂运动规划方法[J]. 计算机集成制造系统, 2023, 29(1): 254-263.
[5]	张振, 李新宇, 董昊臻, 周林, 高亮. 基于约束采样RRT的机械臂运动规划[J]. 计算机集成制造系统, 2022, 28(6): 1616-1626.
[6]	朱德慰, 李志海, 吴镇炜. 基于异常行为监测的人机安全协作方法[J]. 计算机集成制造系统, 2022, 28(12): 3737-3746.
[7]	刘国志, 代飞, 莫启, 许小龙, 强振平, 王雷光. 车辆边缘计算环境下基于深度强化学习的服务卸载方法[J]. 计算机集成制造系统, 2022, 28(10): 3304-3315.
[8]	冯春,张祎伟,黄成,姜文彪,武之炜. 双足机器人步态控制的深度强化学习方法[J]. 计算机集成制造系统, 2021, 27(8): 2341-2349.
[9]	李琦,李婧,蒋增强,边靖媛. 考虑个体差异的系统退化建模与半Markov过程维修决策[J]. 计算机集成制造系统, 2020, 26(第2): 331-339.
[10]	杨艳芳,贺焕,舒亮,杨秒,吴自然. 断路器柔性装配数字孪生机器人及其运动控制[J]. 计算机集成制造系统, 2020, 26(11): 2915-2926.
[11]	顾岩,何其昌,范秀敏,杨云飞. 狭小空间虚拟人手臂装配运动规划及智能寻优[J]. 计算机集成制造系统, 2016, 22(第6期): 1447-1455.
[12]	陈在德，陈庆新，毛宁，刘建军. 不确定环境下模具群项目计划制定方法[J]. , 2013, 19 (04 ): 0-0.
[13]	王小明，陈庆新，毛宁，刘建军. 随机环境下的模具项目交货期预测方法[J]. , 2012, 18(02): 0-0.
[14]	付宜利，闫庆辉，马玉林. 障碍环境下移动操作机零件移动规划方法研究[J]. , 2006, 12(01): 0-0.

基于深度强化学习的多自动导引车运动规划

Multi-AGV motion planning based on deep reinforcement learning

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 14

编辑推荐

Metrics