返回 蓝莓看看A4

人形机器人竟在上海黄浦江畔平地坐起看日出?

2025-02-26

探索策略

即使有了合理的奖励函数设计,研究者们依旧观测到了强化学习在探索上遇到的困难。

研究团队从科学家对婴儿的研究中发现,外界的帮助有助于婴儿学习许多动作技能。受此启发,研究者们设计了基于课程的辅助力探索策略。

在训练初期,基于机器人额外的向上的辅助力,帮助其更容易的站起,探索到高质量的学习样本。随着机器人逐步掌握站起能力,这一辅助力会逐步减小至零,使得机器人最终学习到无辅助力帮助下的站起控制。这一设计极大的加快了学习效率。

运动约束

研究者们观测到机器人容易学到剧烈的站起策略,为了克服这一问题,他们引入了动作缩放系数(动作界限),该缩放系数决定了 PD 控制器中的目标关节角与当前关节角的最大偏差,从而隐式的约束关节最大的力矩与速度该缩放系数初始被设置为 1。随着学习的进行,该缩放系数逐渐减弱至 0.25。

此外,研究者们还观测到了站起过程中的行为抖动。为了避免这个问题,他们在值函数网络和策略网络优化时采用了平滑约束方法(L2C2)。

真机策略迁移

为了模拟真实世界中可能见到的初始姿势,研究者们在仿真训练中设计了四种地形:平地、平台、斜坡和靠墙,以模拟真实世界中常见到的环境。

另外,为了减小物理仿真与现实中的物理参数差异,研究者们还采用了域随机化(domain randomization)的技术,在仿真中给予某些物理参数一些随机噪声,例如质心的偏移、base 重力等。

实验评估

仿真环境站起动作质量

为了更好的评估站起动作,研究人员首先提出了四个量化指标:成功率、双脚移动距离、动作平滑度和消耗能量。基于此,他们首先对 HoST 与其消融版本在仿真中进行了比较。结果如下表显示,多评论家、辅助力探索、运动约束均对策略学习有着显著的影响。

例如,机器人在缺少前两者的情况下,无法在大多数地形上成功学到站起技能;缺少运动约束会使得站起动作不够平滑。这些验证了上述技术设计的重要性。

真实环境站起动作质量

接着,研究者们将控制策略直接部署到机器人 Unitree G1 上,并且在室内外多种场景进行了测试。如下图所示,在多种地形上均实现了成功站起,包括木质平台、草地、平台、斜坡、靠树、石子路等。

其中,在室内场景下,研究者还对比了平滑约束对真机表现的影响。如下图所示,平滑约束显著提升了站起动作的平滑度与其成功率。

最新文章

“亨超”谈打造《战锤40K》真人电影

电影

 

阅读18087

新剧刚开播就被骂上热搜,于正破防了

电视

 

阅读18161

人狂自有天收!《长安荔枝》女主吃国家红利

电视

 

阅读11397

那尔那茜才没空理会普通人的愤怒

明星

 

阅读16059

周杰伦眼袋变大颜值骤跌,疑病痛复发惹人担忧

明星

 

阅读14723

2024 ilanmeis.cn 冀ICP备20014399号-3