计算机集成制造系统 ›› 2025, Vol. 31 ›› Issue (11): 4071-4084.DOI: 10.13196/j.cims.2024.0365
袁瑞萍1,2,傅之家1,2,李俊韬1,2+,王伟2,3,姜盈帆1,2
YUAN Ruiping1,2,FU Zhijia1,2,LI Juntao1,2+,WANG Wei3,JIANG Yingfan1,2
摘要: 当机器人被应用于智能制造场景进行零件拣选作业时,多机器人在复杂动态环境中运行极易发生拥堵和冲突,而传统路径规划方法在感知环境动态变化和处理路径冲突方面效率不高。本文提出了一种基于深度强化学习的多机器人无冲突路径规划方法来求解该问题。首先,采用部分可观测的马尔可夫决策过程对机器人路径规划过程进行建模,在奖励函数设计中加入势能引导和区域密度奖励减少拥堵、冲突的发生。其次,提出一种改进的多智能体优势演员-评论家路径规划算法,通过引入注意力机制加强机器人之间的信息传递和共享,提高算法的效率。汽车智能装配场景下零件拣选仿真实验表明,相比其他路径规划算法,本文所提算法收敛速度最快、完成所有订单拣选总耗时最短,验证了所提出的多机器人路径规划模型和算法应用于智能制造零件拣选场景中的优越性。
中图分类号: