基于深度强化学习的人机协作组装任务分配

doi:10.13196/j.cims.2023.03.009

计算机集成制造系统 ›› 2023, Vol. 29 ›› Issue (3): 789-800.DOI: 10.13196/j.cims.2023.03.009

基于深度强化学习的人机协作组装任务分配

熊志华¹,陈昊²,王长生¹,岳明¹,侯文彬^1,3+,徐斌²

1.大连理工大学汽车工程学院
2.华晨宝马汽车有限公司
3.大连理工大学宁波研究院

出版日期:2023-03-31 发布日期:2023-04-18
基金资助:
国家自然科学基金资助项目(52072057)。

Assembly task allocation of human-robot collaboration based on deep reinforcement learning

XIONG Zhihua¹,CHEN Hao²,WANG Changsheng¹,YUE Ming¹,HOU Wenbin^1,3+,XU Bin²

1.School of Automotive Engineering,Dalian University of Technology
2.BMW Brilliance Automotive Ltd.
3.Ningbo Institute of Dalian University of Technology

Online:2023-03-31 Published:2023-04-18
Supported by:
Project supported by the National Natural Science Foundation,China (No.52072057).

摘要/Abstract

摘要： 为适应人机协作组装任务分配日趋复杂的任务结构和高维的任务状态空间,提出了一种基于深度强化学习的人机协作组装任务分配方法。首先,将人机协作组装任务分配形式化为强化学习问题,设计了4通道帧图进行任务分配环境状态的表示,并构建了通用化的组装闯关游戏模拟环境。其次,为解决深度Q网络(DQN)算法频繁的情节重启导致探索效率低下的问题,提出了存档机制及其改进算法Archive DDQN(Double DQN),并介绍了利用该算法与模拟环境交互以进行人机协作组装任务分配的流程方法。最后,通过2种不同难度的组装模拟环境进行对比实验,验证了所提出方法的有效性。

关键词: 深度强化学习, 存档机制, 人机协作, 任务分配, 生产组装

Abstract: To adapt to the increasingly complex task structure and high-dimensional task space of Human-Robot Collaboration (HRC) assembly task allocation,a task allocation method based on deep reinforcement learning was proposed.To model a generalized solution environment,the HRC task allocation was formalized as a reinforcement learning problem.A 4-channel image was designed to indicate the environment state,and the execution environment was constructed as an assembly breakthrough game.In view of the inefficiency of exploration caused by frequent episode restarts of Deep Q-Networks (DQN) algorithm,an archive mechanism and its improved algorithm Archive Double DQN (DDQN) were proposed.Besides,the process of HRC assembly task allocation based on the interaction between Archive DDQN and assembly execution environment was introduced.The effectiveness of proposed method was verified through comparison experiments in two assembly execution environments with different difficulty.

Key words: deep reinforcement learning, archive mechanism, human-robot collaboration, task allocation, production assembly

中图分类号:

TP29

熊志华, 陈昊, 王长生, 岳明, 侯文彬, 徐斌. 基于深度强化学习的人机协作组装任务分配[J]. 计算机集成制造系统, 2023, 29(3): 789-800.

XIONG Zhihua, CHEN Hao, WANG Changsheng, YUE Ming, HOU Wenbin, XU Bin. Assembly task allocation of human-robot collaboration based on deep reinforcement learning[J]. Computer Integrated Manufacturing System, 2023, 29(3): 789-800.

[1]	李彦征, 陈浩, 赵文政, 刘银华. 多工位多机器人装配过程的分布式点焊任务分配方法[J]. 计算机集成制造系统, 2023, 29(3): 781-788.
[2]	蔡泽, 胡耀光, 闻敬谦, 张立祥. 复杂动态环境下基于深度强化学习的AGV避障方法[J]. 计算机集成制造系统, 2023, 29(1): 236-245.
[3]	杨琪森, 王慎执, 桑金楠, 王朝飞, 黄高, 吴澄, 宋士吉. 复杂开放水域下智能船舶路径规划与避障方法[J]. 计算机集成制造系统, 2022, 28(7): 2030-2040.
[4]	朱德慰, 李志海, 吴镇炜. 基于异常行为监测的人机安全协作方法[J]. 计算机集成制造系统, 2022, 28(12): 3737-3746.
[5]	刘少睿, 田威, 沈建新, 李波, 胡俊山. 多机器人协同制造系统时序约束任务调度优化方法[J]. 计算机集成制造系统, 2022, 28(12): 3899-3911.
[6]	刘国志, 代飞, 莫启, 许小龙, 强振平, 王雷光. 车辆边缘计算环境下基于深度强化学习的服务卸载方法[J]. 计算机集成制造系统, 2022, 28(10): 3304-3315.
[7]	冯春,张祎伟,黄成,姜文彪,武之炜. 双足机器人步态控制的深度强化学习方法[J]. 计算机集成制造系统, 2021, 27(8): 2341-2349.
[8]	赵文政,刘银华,金隼. 面向多机器人协调运动规划的层级化任务分配方法[J]. 计算机集成制造系统, 2021, 27(4): 999-1007.
[9]	崔鹏浩,王军强,张文沛,李洋. 基于深度强化学习的流水线预测性维护决策[J]. 计算机集成制造系统, 2021, 27(12): 3416-3428.
[10]	陈友玲,牛禹霏,刘舰,左丽丹,王龙. 面向云制造的多供应商协同生产任务分配优化[J]. 计算机集成制造系统, 2019, 25(第7): 1806-1816.
[11]	李军强,齐恒佳,张改萍,赵海文,郭士杰. 基于力信息的人机协调运动控制方法[J]. 计算机集成制造系统, 2018, 24(第8): 2005-2011.
[12]	吕龙,胡海洋,李忠金,陈洁,胡华. 基于蚁群算法的工作流系统优化任务分配[J]. 计算机集成制造系统, 2018, 24(第7): 1723-1735.
[13]	胡华,张强,胡海洋,陈洁,李忠金. 基于Q-learning的移动群智感知任务分配算法[J]. 计算机集成制造系统, 2018, 24(第7): 1774-1783.
[14]	任磊,任明仑. 基于混合任务网络的智慧制造任务协同分配模型[J]. 计算机集成制造系统, 2018, 24(第4): 838-850.
[15]	陈健,莫蓉,初建杰,刘敬,吴林健. 工业设计云服务平台协同任务模块化重组与分配方法[J]. 计算机集成制造系统, 2018, 24(第3): 720-730.

基于深度强化学习的人机协作组装任务分配

Assembly task allocation of human-robot collaboration based on deep reinforcement learning

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics