跳到主要内容

LeRobot数据集

LeRobot是由HuggingFace开源的,面向机器人学习和强化学习场景的标准化数据集方案。它提供了一种统一的格式,使研究人员能够更轻松地共享、比较和复现机器人学习实验。

导出数据

艾欧数据平台支持将数据导出为LeRobot格式数据,用于直接投入VLA(Vision-Language-Action)模型的训练。这种格式包含了机器人操作的视觉信息、语言指令和动作数据的完整映射。

提示

由于导出需要消耗较高的算力,所以免费版的艾欧数据开放平台限制了每个用户可以导出的数量。而收费版则不限制导出量,并且配合GPU加速导出的速度可以更快。

1. 选择要导出的数据

需要先对数据进行标注。标注的作用是将动作与自然语言指令对应起来,才能进行VLA模型的训练。这个过程确保了模型能够理解语言命令并将其转化为相应的机器人动作。

标注完成后,就能在导出界面看到相关的标注好的数据了。您可以选择特定的数据子集进行导出。

选择要导出的数据

数据集的名称可以自定义设置。如果您计划将数据上传到Hugging Face上,建议设置成标准的仓库名格式,例如myproject/myrepo1,这将简化后续的发布流程。

提示

选择的数据量越大,导出速度会越慢。建议按任务类型区分选择,不要一次性全部导出。这样不仅能加快导出速度,还便于后续的数据管理和模型训练。

2. 下载导出文件并解压

导出的过程可能持续数十分钟,取决于数据量大小和系统负载。进度会自动刷新,您可以稍后再回到导出页面查看结果。

导出成功后,您可以在页面右侧的 导出记录 看到 下载数据 按钮,点击将会下载一个 .tar.gz 的压缩文件。

导出结果

建议在本地新建一个空目录,例如~/Downloads/mylerobot3,用来解压文件,以避免文件混乱:

新建目录

解压后的文件结构遵循标准的LeRobot数据集格式,包含视觉数据、状态信息和动作标签:

解压数据

浏览数据

有两种常见的可视化方式,方便用户快速浏览、理解和调试数据内容。每种方式适用于不同的使用场景。

场景方式优势
本地开发和调试Rerun SDK 本地观看完整功能、高度交互性、无网络依赖
快速预览或载入示范Hugging Face 在线查看无需安装、便于分享、随时访问

1. 使用 Rerun SDK 本地查看

需要在本地下载并安装 lerobot 仓库,通过 lerobot/scripts/visualize_dataset.py,可以使用 Rerun SDK 实现时间轴式的交互式多模态数据查看(包括图像、状态、动作等)。这种方式提供了最丰富的交互功能和定制选项。

安装 Rerun SDK

确保使用 Python 3.10及以上版本,并执行以下命令安装必要的依赖:

python3 -m pip install rerun-sdk==0.23.1
git clone https://github.com/lerobot-ai/lerobot.git # 克隆仓库
cd lerobot
pip install -e . # 安装开发模式

启动可视化脚本

python3 lerobot/scripts/visualize_dataset.py \
--repo-id io-ai-data/lerobot_dataset \
--root ~/Downloads/mylerobot3 \
--episode-index 0

参数说明:

  • --repo-id:Hugging Face 数据集名,如 io-ai-data/lerobot_dataset
  • --root: LeRobot数据存放在本地的路径,指向解压后的目录
  • --episode-index:指定要查看的 episode 索引(从 0 开始)

保存为 .rrd 文件

可将数据可视化结果保存为 Rerun 格式,便于离线查看或分享给团队成员:

python3 lerobot/scripts/visualize_dataset.py \
--repo-id io-ai-data/lerobot_dataset \
--root ~/Downloads/mylerobot3 \
--episode-index 0 \
--save 1 \
--output-dir ./rrd_out

# 随后可以离线查看
rerun ./rrd_out/lerobot_pusht_episode_0.rrd

远程 WebSocket 方式

如果需要远程查看(例如服务器上的数据在本地查看),可使用 WebSocket 模式:

# 服务器端
python3 lerobot/scripts/visualize_dataset.py \
--repo-id io-ai-data/lerobot_dataset \
--root ~/Downloads/mylerobot3 \
--episode-index 0 \
--mode distant \
--ws-port 9091

# 本地端
rerun ws://服务器IP:9091

2. 通过 Hugging Face Spaces 在线查看

如果不想安装任何本地环境,LeRobot 提供了基于 Hugging Face Spaces 的在线观看工具,无需任何本地依赖。这种方式特别适合快速预览或与团队分享数据集内容。

提示

在线可视化需要您将数据上传到 Hugging Face 的在线仓库。Hugging Face免费账户只能可视化公开的仓库,也就是您的数据需要被公开访问才能可视化。如需保持私密性,请使用本地可视化方式。

操作步骤

  1. 打开页面:https://huggingface.co/spaces/lerobot/visualize_dataset
  2. 填写 Dataset Repo ID,如 io-ai-data/DesktopCleanup_RM_AIDAL_demo
  3. 左侧选择任务编号,如 Episode 0
  4. 页面顶部有更多选项,可以选择最适合的播放方式

相关链接