![]()
![]()
- 项目主页:https://taohuang13.github.io/humanoid-standingup.github.io/
- 论文地址:https://arxiv.org/abs/2502.08378
设想人形机器人能否做到:从沙发上站起,走向桌子,拿起一杯咖啡。尽管最近的工作赋予了它们强大的运动和操作能力,但是沙发上站起这一环节,相对而言缺乏了研究。
大多数工作假设机器人从一个预定义好的站立姿势开始,执行后续任务。研究者认为,学会人形机器人站起控制能够应对上述坐立姿态转换,或是跌倒后站起等场景,有助于进一步提升人形机器人的落地场景。
和此前依赖于预定义轨迹或是忽视真机硬件限制的控制算法不同,HoST 的研究团队提出了一套从零开始、不依赖预定于轨迹的强化学习框架,能够在仿真环境中学会从多种姿势下成功站起,并且能够直接部署到真实机器人上。
![]()
核心技术
![]()
HoST 算法框架
奖励函数设计与策略优化
不同于行走与操作,站起这一控制任务动态性更强,对上下半身的动态性要求更高。特别的,对于强化学习算法而言,需要克服随时间变化的接触点、多阶段技能学习、精确的身体角动量控制,无疑对奖励函数的设计与策略优化带来了极大的困难。
为此,研究者们设计了多种奖励函数,并将其归类到了四种奖励组:任务奖励、风格奖励、约束奖励与后任务奖励。
![]()
为了能更好的平衡各个奖励函数,研究者们紧接着采用了多评论家技术,对每一个奖励函数组分别进行汇报估计,并对每个奖励函数组赋予不同权重,来最终优化控制策略。