数据导出
标注完成的数据需要导出为特定格式,才能用于模型训练或数据分析。平台支持多种标准格式,满足不同训练框架和工具的需求。
典型使用场景:
- 模型训练:导出为 LeRobot、HDF5 等格式,直接用于训练
- 数据分析:导出为 JSON、CSV 格式,便于分析和可视化
- 机器人回放:导出为 MCap 格式,支持完整数据回放
- 图像标注训练:导出为 YOLO、COCO 等格式,适配主流检测框架

导出格式与可训练模型对应关系
根据目标模型选择导出格式:LeRobot 格式可直接用于 SmolVLA、ACT、Diffusion 等;LeRobot v2.1 配合 OpenPI 可微调 Pi0、Pi0.5。HDF5 适用于其它深度学习框架。
快速上手:选择导出格式
如何选择导出格式?
根据你的使用场景选择合适的格式:
| 使用场景 | 推荐格式 | 说明 |
|---|---|---|
| LeRobot 模型训练 | LeRobot | 支持图像/视频模式,包含完整标注信息 |
| 其他框架训练 | HDF5 | 通用科学计算格式,支持多模态数据 |
| 数据分析 | JSON/CSV | 结构化数据,便于分析和可视化 |
| 机器人回放 | MCap | ROS 标准格式,支持完整数据回放 |
| 图像目标检测 | YOLO/COCO/VOC | 标准目标检测格式,适配主流框架 |
| 数据质量分析 | 时间对齐/丢帧检测 | 时间对齐和丢帧检测结果 |
导出步骤
- 选择导出格式:在页面顶部选择对应的格式标签页
- 筛选数据:使用项目、时间、标注员等条件筛选要导出的数据
- 选择数据集:勾选需要导出的数据集
- 配置参数:根据格式要求设置导出参数(如采样频率、图像格式等)
- 开始导出:点击导出按钮,等待处理完成
- 下载文件:导出完成后 下载生成的文件
主要导出格式详解
LeRobot 格式导出
适用场景:使用 LeRobot 框架进行模型训练。
导出配置:
- 数据集选择:选择要导出的数据集,支持多选
- 图像格式:选择导出为图像(jpg)或视频(mp4)格式
- 图像格式:每个时间点保存为单独的图像文件
- 视频格式:将数据打包为视频文件,文件更小
- 采样频率(hz):控制数据采样频率,默认 30Hz
- 降低频率可以减少文件大小
- 提高频率可以获得更密集的采样
- 严格匹配:是否严格匹配标注时间段
- 人脸模糊(3.3.0 新增):导出时是否模糊人脸信息,保护隐私
- 版本选择:选择导出格式版本(latest 或 v2.1)
导出配额:
- 显示当前用户的导出配额使用情况
- 显示已使用数量和总配额
- 超出配额时无法导出
导出结果:
- 导出的 LeRobot 格式数据可直接用于模型训练
- 支持 SmolVLA、ACT、Pi0 等多种模型训练
- 文件自动打包为 tar.gz 格式
- 支持直接下载或用于训练服务
HDF5 格式导出
适用场景:使用其他深度学习框架(如 PyTorch、TensorFlow)进行训练。
导出配置:
-
分组数量(chunk_size):设置每个 HDF5 文件包含的原始文件数量
- 设置为 1:每个原始文件对应一个 HDF5 文件(一一对应)
- 设置更大值:将多个文件合并到一个 HDF5 文件中
- 建议根据数据量和训练需求设置
-
数据刷新频率(hz):控制每秒数据采集次数,影响文件大小
- 默认 30Hz,适用于大多数场景
- 可以降低频率以减少文件大小
- 提高频率可以获得更密集的采样
导出统计:
- 显示已选择的数据集数量
- 显示导出配额使用情况
- 显示导出进度和预计完成时间
导出结果:
- 导出的 HDF5 文件按原始文件分组命名(如
chunk_001.hdf5) - 文件自动压缩为 tar.gz 格式
- 支持直接下载或保存到云存储
- 导出的 HDF5 文件可直接用于模型训练
HDF5 导出详细说明:
- 更多关于 HDF5 格式和数据结构的信息,请参考:HDF5 数据集文档
- HDF5 文件采用分层结构组织数据,支持多模态数据存储
- 导出后的 HDF5 文件包含完整的标注信息(任务描述、动作序列等)
MCap 格式导出
适用场景:需要完整回放机器人数据,或与其他 ROS 系统集成。
导出特点:
- ROS 标准多模态数据格式
- 支持完整数据回放
- 保持时间戳和消息结构完整性
- 自动压缩为 tar.gz 格式
导出历史与进度:
- 显示所有 MCap 导出任务的列表
- 实时更新导出任务状态(pending → processing → completed/failed)
- 对于处理中的任务,显示实时进度条
- 导出完成后可以直接下载生成的 MCap 文件
MCap 导出建议:
- 导出大量数据时,建议分批导出以提高成功率
- 可以通过导出历史查看之前的导出记录
- 如果导出失败,可以查看错误信息并重新导出
- 导出的 MCap 文件会自动压缩为 tar.gz 格式以节省空间
JSON/CSV 格式导出
适用场景:数据分析、可视化、API 集成。
JSON 格式:
- 结构化数据格式,适合程序化处理
- 支持 API 集成
- 便于数据交换
CSV 格式:
- 表格数据格式,适合 Excel 等工具分析
- 便于数据可视化
- 支持大规模数据处理
图像标注导出(3.3.0 新增)
适用场景:图像目标检测、分割等任务的模型训练。
支持的标注类型:
- BBOX:边界框标注
- POINT:点标注
- POLYGON:多边形标注
- POLYLINE:折线标注
- KEYPOINT:关键点标注
- SEGMENTATION:分割标注
导出格式:
- CSV:表格格式,包含图像路径和标注坐标
- YOLO:YOLO 格式,包含 txt 标注文件和类别定义
- COCO:COCO 格式,标准 JSON 格式,支持目标检测和分割
- Pascal VOC:VOC XML 格式,经典的目标检测格式
- TAR:完整打包,包含所有图像文件和标注文件
使用步骤:
- 选择项目或数据集筛选标注数据
- 选择标注类型(可选,不选则导出所有类型)
- 搜索和筛选需要导出的标注
- 选择导出格式
- 点击导出按钮,等待处理完成
- 下载导出的文件
时间对齐导出
适用场景:数据质量检查,分析多个传感器数据的时间对齐情况。
功能说明:
- 分析多个传感器数据的时间对齐情况
- 导出对齐结果和统计信息
- CSV 格式,便于数据分析
丢帧检测导出
适用场景:数据质量评估,检测视频文件中的丢帧情况。
功能说明:
- 检测视频文件中的丢帧情况
- 导出丢帧时间点和统计信息
- CSV 格式,包含时间戳和丢帧信息
MCap 切块导出
适用场景:将大型 MCap 文件切分为多个小文件,便于处理和管理。
功能说明:
- 按时间或大小切分 MCap 文件
- 保持数据完整性和时间连续性
- 切分后的文件可独立使用
导出管理
如何筛选要导出的数据?
筛选条件:
- 项目筛选:选择特定项目的数据
- 时间范围:选择特定时间段的数据
- 标注员筛选:选择特定标注员标注的数据
- 质量等级:按标注质量筛选数据
- 数据集选择:直接勾选需要导出的数据集
预览功能:
在导出前可以预览筛选结果,确认导出的数据符合预期,避免不必要的导出操作。
导出任务队列
任务状态:
- pending(待处理):导出任务已创建,等待执行
- processing(处理中):导出任务正在执行中
- completed(已完成):导出任务成功完成,文件已生成
- failed(失败):导出任务执行失败,可以查看错误信息
进度监控:
- 实时显示导出进度百分比
- 显示已处理数据集数量和总数量
- 显示预计剩余时间
- 支持自动刷新进度状态
批量导出:
- 支持批量导出多个数据集
- 可以同时处理多个导出任务
- 通过任务队列有序处理大量导出请求
导出历史管理
历史记录信息:
- 导出时间:创建时间、开始时间、完成时间
- 导出格式:导出数据类型(HDF5、LeRobot、MCAP、JSON、CSV 等)
- 数据量:包含的数据集数量和文件大小
- 操作人:执行导出操作的用户信息
- 导出状态:当前导出任务的状态
- 文件信息:导出文件名称、大小、存储位置
历史记录功能:
- 支持按时间、格式、状态等条件筛选导出记录
- 支持搜索特定导出任务
- 显示导出任务的详细信息,包括包含的数据集列表
- 支持查看导出任务的错误信息(如失败)
- 支持重新下载 已导出的文件
导出配额管理
什么是导出配额?
导出配额用于控制资源使用,确保系统资源合理分配。
配额类型:
- 用户配额:每个用户有独立的导出配额限制
- 全局配额:系统级别的总配额限制(管理员配置)
- 配额统计:实时显示已使用配额和剩余配额
配额显示:
- 导出页面显示当前用户的配额使用情况
- 显示已使用数量和总配额限制
- 显示是否为管理员配置的全局配额
配额控制:
- 超出配额时会提示并阻止导出操作
- 管理员可以查看和管理所有用户的配额
- 支持配额重置和调整(管理员权限)
配额管理页面(管理员)
管理员可以:
- 查看所有用户的导出配额使用情况
- 配置全局导出配额限制
- 调整单个用户的配额
- 查看导出历史统计
常见问题
如何选择合适的导出格式?
选择建议:
- 确定训练框架:如果使用 LeRobot,选择 LeRobot 格式;如果使用其他框架,选择 HDF5
- 确定数据用途:如果用于数据分析,选择 JSON/CSV;如果用于机器人回放,选择 MCap
- 确定标注类型:如果是图像标注,选择对应的图像格式(YOLO/COCO/VOC)
- 考虑文件大小:视频格式通常比图像格式文件更小,但处理可能更复杂
导出任务失败怎么办?
可能原因:
- 数据量过大:尝试分批导出
- 网络问题:检查网络连接,重试导出
- 存储空间不足:联系管理员检查存储空间
- 格式错误:检查数据格式是否符合导出要求
解决方法:
- 查看错误信息,了解失败原因
- 根据错误信息修复问题
- 重新尝试导出
- 如果问题持续,联系技术支持
导出需要多长时间?
时间估算:
导出时间取决于:
- 数据量:数据越多,导出时间越长
- 导出格式:某些格式转换需要更多时间
- 系统负载:系统繁忙时可能较慢
一般情况:
- 小数据集(10 个以下):1-5 分钟
- 中等数据集(10-50 个):5-15 分钟
- 大数据集(50 个以上):15 分钟以上
建议:
- 导出大量数据时,建议分批导出
- 可以在导出历史中查看进度
- 导出完成后会收到通知
如何查看导出历史?
查看方法:
- 进入数据导出页面
- 在对应格式的标签页中查看导出历史
- 可以按时间、状态等条件筛选
- 点击历史记录可以查看详细信息
历史记录信息:
- 导出时间、格式、数据量
- 导出状态和进度
- 文件下载链接
- 错误信息(如失败)
适用角色
管理员
你可以:
- 对外交付训练数据或下游分析所需数据
- 管理导出任务,监控导出进度
- 控制数据导出权限
- 管理导出配额
项目经理
你可以:
- 导出项目相关的数据
- 为项目交付准备数据
- 监控数据使用情况
- 协调数据导出工作
训练工程师
你可以:
- 导出已标注数据用于模型训练
- 选择适合训练框架的导出格式
- 配置导出参数以满足训练需求
- 下载导出的训练数据
相关功能
完成数据导出后,你可能还需要: