双足机器人步态控制的深度强化学习方法

doi:10.13196/j.cims.2021.08.016

计算机集成制造系统 ›› 2021, Vol. 27 ›› Issue (8): 2341-2349.DOI: 10.13196/j.cims.2021.08.016

双足机器人步态控制的深度强化学习方法

冯春,张祎伟,黄成,姜文彪,武之炜

常州工学院航空与机械工程学院

出版日期:2021-08-31 发布日期:2021-08-31
基金资助:
国家自然科学基金青年基金资助项目(11802040);2018年江苏省青蓝工程优秀青年骨干教师资助项目(A1-5501-19-003)。

Deep reinforcement learning method for biped robot gait control

Online:2021-08-31 Published:2021-08-31
Supported by:
Project supported by the National Natural Science Foundation,China(No.11802040),and the Jiangsu Provincial Outstanding Young Key Teachers Fund of “Green Blue Project” in 2018,China(No.A1-5501-19-003).

摘要/Abstract

摘要： 针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足机器人连杆模型,在常规的平整路面上将改进的深度Q网络用于作为智能体的双足机器人进行步态控制训练。MATLAB仿真结果表明,与深度Q网络和深度确定性策略梯度算法相比,所提算法有更好的训练速度且其回报曲线具有良好的平滑性。在CPU训练下,经过20 h左右深度强化学习能够完成智能体训练。双足机器人在较小的力矩和长距离下能够稳定快步行走。

关键词: 双足机器人, 步态控制, 深度强化学习, 智能体, 操作—评论, 改进深度Q网络算法

Abstract: Aiming at the stable control of gait during biped robot walking,a deep reinforcement learning method with improved Deep Q-Network (DQN) was proposed.By combining DQN algorithm with a deterministic strategy gradient,an improved DQN learning network was proposed to replace the critic network of actor-critic network with a clipped Double-Q network.A link model of biped robot was established,and the proposed network was used for biped robots gait control training as agents in a conventional flat road environment.MATLAB simulation results showed that compared with DQN and Deep Deterministic Policy Gradient (DDPG) algorithms,the proposed algorithm had a better training speed and its average reward curve had a good smoothness.Under the CPU training conditions,the agent training could be completed after about 20 hours of deep reinforcement learning.The biped robot could achieve stable and fast walking (average speed about 0.5m/s) under the conditions of small torque and long distance (about 5 meters).

Key words: biped robot, gait control, deep reinforcement learning, agent, actor-critic, improved deep Q-net algorithm

中图分类号:

TP242.6

冯春,张祎伟,黄成,姜文彪,武之炜. 双足机器人步态控制的深度强化学习方法[J]. 计算机集成制造系统, 2021, 27(8): 2341-2349.

[1]	伍京华,王佳莹,张富娟,韩佳丽,叶慧慧. 基于Agent的信任的情感劝说决策模型[J]. 计算机集成制造系统, 2021, 27(3): 887-898.
[2]	崔鹏浩,王军强,张文沛,李洋. 基于深度强化学习的流水线预测性维护决策[J]. 计算机集成制造系统, 2021, 27(12): 3416-3428.
[3]	魏莹,刘冠,李锋. 基于社交网络效应的产品设计研究[J]. 计算机集成制造系统, 2021, 27(12): 3591-3603.
[4]	张文杰,王国新,阎艳,褚厚斌,王晶,曹志松. 基于数字孪生和多智能体的航天器智能试验[J]. 计算机集成制造系统, 2021, 27(1): 17-34.
[5]	伍京华,陈虹羽,汪文生. 基于Agent的情感劝说的舆情交互及产生模型[J]. 计算机集成制造系统, 2021, 27(1): 249-259.
[6]	伍京华,郄晓彤,汪文生. 基于Agent的情感劝说交互的口碑更新模型[J]. 计算机集成制造系统, 2020, 26(7): 1976-1985.
[7]	安敬民,李冠宇,张冬青,蒋伟. 面向序贯决策中异常情景下交互问题处理方法[J]. 计算机集成制造系统, 2020, 26(12): 3274-3282.
[8]	吴晓强,田松龄,郑淑贤,项忠霞. 面向开放式结构产品的智能制造车间实时调度方法[J]. 计算机集成制造系统, 2020, 26(10): 2703-2713.
[9]	庄存波,刘检华,熊辉. 分布式自主协同制造——一种智能车间运行新模式[J]. 计算机集成制造系统, 2019, 25(第8): 1865-1874.
[10]	韩端锋,周青骅,李敬花,李盟,杨博歆. 船舶建造物资追溯实体单元信息模型及追溯管理系统[J]. 计算机集成制造系统, 2017, 23(第9期): 1983-1991.
[11]	赵婷婷,曹政才,邱明辉. 面向半导体生产线基于MAS模糊协同的成品率预测方法[J]. 计算机集成制造系统, 2017, 23(第4期): 852-859.
[12]	韩端锋,杨博歆,李敬花,周青骅. 基于MAS的海洋工程装备项目进度控制系统[J]. 计算机集成制造系统, 2017, 23(第11): 2456-2466.
[13]	魏莹,李锋. 广告和口碑共同作用下的两阶段产品定价问题[J]. 计算机集成制造系统, 2017, 23(第11): 2541-2552.
[14]	孙军艳,王雯,傅卫平,姚丹. 轿车供应链复杂自适应系统演化规律[J]. 计算机集成制造系统, 2016, 22(第8期): 2011-2022.
[15]	赵淳,张霖,任磊,陶飞. 面向云制造交易过程的仿真平台[J]. 计算机集成制造系统, 2016, 22(第1期): 25-32.

双足机器人步态控制的深度强化学习方法

Deep reinforcement learning method for biped robot gait control

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics