人形机器人竟在上海黄浦江畔平地坐起看日出？

2025-02-26

设想人形机器人能否做到：从沙发上站起，走向桌子，拿起一杯咖啡。尽管最近的工作赋予了它们强大的运动和操作能力，但是沙发上站起这一环节，相对而言缺乏了研究。

大多数工作假设机器人从一个预定义好的站立姿势开始，执行后续任务。研究者认为，学会人形机器人站起控制能够应对上述坐立姿态转换，或是跌倒后站起等场景，有助于进一步提升人形机器人的落地场景。

和此前依赖于预定义轨迹或是忽视真机硬件限制的控制算法不同，HoST 的研究团队提出了一套从零开始、不依赖预定于轨迹的强化学习框架，能够在仿真环境中学会从多种姿势下成功站起，并且能够直接部署到真实机器人上。

核心技术

HoST 算法框架

奖励函数设计与策略优化

不同于行走与操作，站起这一控制任务动态性更强，对上下半身的动态性要求更高。特别的，对于强化学习算法而言，需要克服随时间变化的接触点、多阶段技能学习、精确的身体角动量控制，无疑对奖励函数的设计与策略优化带来了极大的困难。

为此，研究者们设计了多种奖励函数，并将其归类到了四种奖励组：任务奖励、风格奖励、约束奖励与后任务奖励。

为了能更好的平衡各个奖励函数，研究者们紧接着采用了多评论家技术，对每一个奖励函数组分别进行汇报估计，并对每个奖励函数组赋予不同权重，来最终优化控制策略。