"盲眼"机器人30秒跑酷首秀惊艳 华人学者领衔

具体来说,OmniRetarget通过参数化地改变物体配置、形状或地形特征,将单个人类演示转化为丰富多样的数据集。
对于每个新场景,研究都会使用固定的源动作集和增强后的目标动作集重新求解优化问题:通过最小化交互网格的形变,可以得到一组新的、运动学上有效的机器人动作,同时保留原始交互中的基本空间结构和接触关系。
在机器人-物体的交互中,研究通过增强物体的空间位置和形状来生成多样化的交互(位姿和平移进行增强,并在局部坐标系中构建交互网格)。
为避免整个机器人随物体发生简单刚体变换,研究还在优化中加入约束,将下半身固定到标称轨迹,同时允许上半身探索新的协调方式,从而生成真正多样化的交互动作。
在机器人-地形的交互中,研究通过改变平台的高度和深度,并引入额外约束来生成多样化的地形场景。
最后,在建立了高质量运动学参考的方法之后,研究使用强化学习来弥补动力学差异,即训练一个低层策略,将这些轨迹转化为物理可实现的动作,实现从仿真到硬件的零次迁移。
得益于干净且保留交互的参考数据,OmniRetarget仅需最小化奖励即可高保真跟踪,无需繁琐调参。
训练时,机器人无法直接感知明确的场景和物体信息,仅依赖本体感知和参考轨迹作为复杂任务的先验知识:
参考动作: 参考关节位置/速度,参考骨盆位置/方向误差
本体感受 : 骨盆线速度/角速度,关节位置/速度
先前动作: 上一时间步的策略动作
在奖励方面,研究使用五类奖励(身体跟踪、物体跟踪、动作速率、软关节限制、自碰撞)来保证动作质量,同时结合物体参数和机器人状态的领域随机化提升泛化能力。
此外,相似动作会分组训练以加快策略收敛,不同的任务(如搬箱和平台攀爬)则采用不同策略设置。

实验结论
在实验方面,研究团队首先展示了OmniRetarget能实现的复杂行为的广度,包括自然的物体操作和地形交互。
然后提供了针对最先进基线的定量基准测试,评估了在运动学质量指标和下游策略性能方面的表现。
正如我们开头所展示的,搭载OmniRetarget的宇树G1实现了一个类似波士顿动力的跑酷动作。
[加西网正招聘多名全职sales 待遇优]
分享: |
注: | 在此页阅读全文 |
延伸阅读 |
推荐: