LeRobot数据集
LeRobot 是 Hugging Face 开源的机器人学习数据标准化框架,专为机器人学习和强化学习场景设计。它提供了统一的数据格式规范,使研究人员能够更便捷地共享、比较和复现机器人学习实验,显著降低了不同研究项目之间的数据格式转换成本。
导出数据
艾欧数据平台完全支持 LeRobot 标准格式的数据导出,可直接用于 VLA(Vision-Language-Action)模型的训练流程。导出的数据包含机器人操作的完整多模态信息:视觉感知数据、自然语言指令以及对应的动作序列,形成完整的感知-理解-执行闭环数据映射。
LeRobot 格式数据导出需要较高的计算资源支持。艾欧数据开放平台的免费版本对每位用户的导出数量进行了合理限制,而付费版本则提供无限制导出服务,并配备 GPU 加速功能,可显著提升导出处理速度。
1. 选择导出数据
数据导出前需要完成标注工作。标注过程将机器人的动作序列与对应的自然语言指令建立精确映射关系,这是训练 VLA 模型的必要前提。通过这种映射,模型能够学习理解语言命令并将其转化为准确的机器人控制动作。
关于数据标注的详细流程和批量标注技巧,请参阅:数据标注指南
标注完成后,您可以在导出界面查看所有已标注的 数据集。系统支持灵活的数据子集选择,您可以根据具体需求选择特定的数据进行导出。
数据集命名支持自定义设置。如果您计划将数据集发布到 Hugging Face 平台,建议采用标准的仓库命名格式(如 myproject/myrepo1
),这将为后续的模型分享和协作提供便利。
数据量越大,导出耗时越长。建议根据任务类型进行分类导出,避免一次性处理全部数据。分批导出不仅能提升处理速度,还便于后续的数据管理、版本控制和针对性的模型训练。
2. 下载与解压导出文件
导出过程的耗时取决于数据规模和当前系统负载,通常需要数十分钟。页面会自动更新进度状态,您可以稍后返回查看处理结果。
导出完成后,在页面右侧的 导出记录 区域可以看到 下载数据 按钮。点击后将获得一个 .tar.gz
格式的压缩文件包。
建议在本地创建一个专用目录(如 ~/Downloads/mylerobot3
)来解压文件,避免与其他数据混淆:
解压后的文件严格遵循 LeRobot 数据集的标准格式规范,包含完整的多模态数据:视觉感知数据、机器人状态信息和动作标签等:
数据可视化与验证
为了帮助用户快速理解和验证数据内容,LeRobot 提供了两种主要的数据可视化方案。每种方案都有其适用场景和独特优势:
使用场景 | 可视化方案 | 主要优势 |
---|---|---|
本地开发调试 | Rerun SDK 本地查看 | 功能完整、高度交互、离线可用 |
快速预览分享 | Hugging Face 在线查看 | 免安装、易分享、随时访问 |
1. 使用 Rerun SDK 进行本地可视化
通过本地安装 lerobot
仓库,您可以使用其内置的 lerobot/scripts/visualize_dataset.py
脚本,配合 Rerun SDK 实现时间轴式的交互式多模态数据可视化。这种方式能够同时展示图像、状态、动作等多维度信息,提供最丰富的交互功能和自定义选项。