英伟达开源15T超大训练数据集,涵盖超过32万个机器人训练轨迹

  英伟达开源了用于实体机器人和自动化驾驶的超大训练数据合集 —— NVIDIA Physical AI Dataset。

  据介绍,该数据集一共 15T,涵盖了超过 320,000 个机器人训练轨迹,以及多达 1,000 个通用场景描述,还包括一个 SimReady 集合。

  开源地址:https://huggingface.co/collections/nvidia/physical-ai-67c643edbb024053dcbcd6d8

  Physical AI Dataset 包含 NVIDIA 用于训练、测试和验证物理 AI 的真实世界和合成数据的一个子集,这些数据用于 NVIDIA Cosmos 世界模型开发平台、NVIDIA DRIVE AV 软件栈、NVIDIA Isaac AI 机器人开发平台以及 NVIDIA Metropolis 智能城市应用框架,能够帮助开发者在预训练阶段扩展 AI 性能,因为更多的数据有助于构建更健壮的模型;同时,在后训练阶段,AI 模型通过在额外数据上训练来提高其针对特定用例的性能。

  此外,用于支持端到端自动驾驶汽车(AV)开发的专用数据即将推出,这些数据将包括来自美国 1,000 多个城市和欧洲二十多个国家的多样化交通场景的 20 秒剪辑,这对于训练自动化驾驶非常珍贵。