宇树科技正式推出跨多类机器人本体的开源世界模型-动作(WMA)架构 —— UnifoLM-WMA-0。该架构旨在为通用机器人学习提供统一的技术基础,核心在于一个能够理解机器人与环境交互物理规律的世界模型。
该世界模型具备两大核心功能:
- 仿真引擎:作为交互式仿真器运行,为机器人学习生成合成数据。
- 策略增强:可与动作头对接,通过预测未来与物理世界的交互过程,优化决策性能。
模型接收图像及文本指令,生成与文本指令对应的未来动作视频。
官方介绍,UnifoLM-WMA-0 支持两种运行模式:
- 决策模式:提供机器人与环境物理交互的预测信息,辅助策略生成动作。
- 仿真模式:基于机器人动作生成高保真环境反馈。
在训练方面,团队基于 5 个宇树科技开源数据集完成模型训练,测试结果显示,该模型可根据「当前图像」及一定数量的「机器人未来动作」实现交互可控生成,并具备长程任务的持续交互生成能力。