数据导出

标注完成的数据需要导出为特定格式，才能用于模型训练或数据分析。平台支持多种标准格式，满足不同训练框架和工具的需求。

典型使用场景:

模型训练:导出为 LeRobot、HDF5 等格式，直接用于训练
数据分析:导出为 JSON、CSV 格式，便于分析和可视化
机器人回放:导出为 MCap 格式，支持完整数据回放
图像标注训练:导出为 YOLO、COCO 等格式，适配主流检测框架

数据导出界面

导出格式与可训练模型对应关系

根据目标模型选择导出格式：LeRobot 格式可直接用于 SmolVLA、ACT、Diffusion 等；LeRobot v2.1 配合 OpenPI 可微调 Pi0、Pi0.5。HDF5 适用于其它深度学习框架。

快速上手:选择导出格式

如何选择导出格式?

根据你的使用场景选择合适的格式:

使用场景	推荐格式	说明
LeRobot 模型训练	LeRobot	支持图像/视频模式，包含完整标注信息
其他框架训练	HDF5	通用科学计算格式，支持多模态数据
数据分析	JSON/CSV	结构化数据，便于分析和可视化
机器人回放	MCap	ROS 标准格式，支持完整数据回放
图像目标检测	YOLO/COCO/VOC	标准目标检测格式，适配主流框架
数据质量分析	时间对齐/丢帧检测	时间对齐和丢帧检测结果

导出步骤

选择导出格式:在页面顶部选择对应的格式标签页
筛选数据:使用项目、时间、标注员等条件筛选要导出的数据
选择数据集:勾选需要导出的数据集
配置参数:根据格式要求设置导出参数(如采样频率、图像格式等)
开始导出:点击导出按钮，等待处理完成
下载文件:导出完成后下载生成的文件

主要导出格式详解

LeRobot 格式导出

适用场景:使用 LeRobot 框架进行模型训练。

导出配置:

数据集选择:选择要导出的数据集，支持多选
图像格式:选择导出为图像(jpg)或视频(mp4)格式
- 图像格式:每个时间点保存为单独的图像文件
- 视频格式:将数据打包为视频文件，文件更小
采样频率(hz):控制数据采样频率，默认 30Hz
- 降低频率可以减少文件大小
- 提高频率可以获得更密集的采样
严格匹配:是否严格匹配标注时间段
人脸模糊(3.3.0 新增):导出时是否模糊人脸信息，保护隐私
版本选择:选择导出格式版本(latest 或 v2.1)

导出配额:

显示当前用户的导出配额使用情况
显示已使用数量和总配额
超出配额时无法导出

导出结果:

导出的 LeRobot 格式数据可直接用于模型训练
支持 SmolVLA、ACT、Pi0 等多种模型训练
文件自动打包为 tar.gz 格式
支持直接下载或用于训练服务

HDF5 格式导出

适用场景:使用其他深度学习框架(如 PyTorch、TensorFlow)进行训练。

导出配置:

分组数量(chunk_size):设置每个 HDF5 文件包含的原始文件数量
- 设置为 1:每个原始文件对应一个 HDF5 文件(一一对应)
- 设置更大值:将多个文件合并到一个 HDF5 文件中
- 建议根据数据量和训练需求设置
数据刷新频率(hz):控制每秒数据采集次数，影响文件大小
- 默认 30Hz，适用于大多数场景
- 可以降低频率以减少文件大小
- 提高频率可以获得更密集的采样

导出统计:

显示已选择的数据集数量
显示导出配额使用情况
显示导出进度和预计完成时间

导出结果:

导出的 HDF5 文件按原始文件分组命名(如 chunk_001.hdf5)
文件自动压缩为 tar.gz 格式
支持直接下载或保存到云存储
导出的 HDF5 文件可直接用于模型训练

信息

HDF5 导出详细说明:

更多关于 HDF5 格式和数据结构的信息，请参考:HDF5 数据集文档
HDF5 文件采用分层结构组织数据，支持多模态数据存储
导出后的 HDF5 文件包含完整的标注信息(任务描述、动作序列等)

MCap 格式导出

适用场景:需要完整回放机器人数据，或与其他 ROS 系统集成。

导出特点:

ROS 标准多模态数据格式
支持完整数据回放
保持时间戳和消息结构完整性
自动压缩为 tar.gz 格式

导出历史与进度:

显示所有 MCap 导出任务的列表
实时更新导出任务状态(pending → processing → completed/failed)
对于处理中的任务，显示实时进度条
导出完成后可以直接下载生成的 MCap 文件

提示

MCap 导出建议:

导出大量数据时，建议分批导出以提高成功率
可以通过导出历史查看之前的导出记录
如果导出失败，可以查看错误信息并重新导出
导出的 MCap 文件会自动压缩为 tar.gz 格式以节省空间

JSON/CSV 格式导出

适用场景:数据分析、可视化、API 集成。

JSON 格式:

结构化数据格式，适合程序化处理
支持 API 集成
便于数据交换

CSV 格式:

表格数据格式，适合 Excel 等工具分析
便于数据可视化
支持大规模数据处理

图像标注导出(3.3.0 新增)

适用场景:图像目标检测、分割等任务的模型训练。

支持的标注类型:

BBOX:边界框标注
POINT:点标注
POLYGON:多边形标注
POLYLINE:折线标注
KEYPOINT:关键点标注
SEGMENTATION:分割标注

导出格式:

CSV:表格格式，包含图像路径和标注坐标
YOLO:YOLO 格式，包含 txt 标注文件和类别定义
COCO:COCO 格式，标准 JSON 格式，支持目标检测和分割
Pascal VOC:VOC XML 格式，经典的目标检测格式
TAR:完整打包，包含所有图像文件和标注文件

使用步骤:

选择项目或数据集筛选标注数据
选择标注类型(可选，不选则导出所有类型)
搜索和筛选需要导出的标注
选择导出格式
点击导出按钮，等待处理完成
下载导出的文件

时间对齐导出

适用场景:数据质量检查，分析多个传感器数据的时间对齐情况。

功能说明:

分析多个传感器数据的时间对齐情况
导出对齐结果和统计信息
CSV 格式，便于数据分析

丢帧检测导出

适用场景:数据质量评估，检测视频文件中的丢帧情况。

功能说明:

检测视频文件中的丢帧情况
导出丢帧时间点和统计信息
CSV 格式，包含时间戳和丢帧信息

MCap 切块导出

适用场景:将大型 MCap 文件切分为多个小文件，便于处理和管理。

功能说明:

按时间或大小切分 MCap 文件
保持数据完整性和时间连续性
切分后的文件可独立使用

导出管理

如何筛选要导出的数据?

筛选条件:

项目筛选:选择特定项目的数据
时间范围:选择特定时间段的数据
标注员筛选:选择特定标注员标注的数据
质量等级:按标注质量筛选数据
数据集选择:直接勾选需要导出的数据集

预览功能:

在导出前可以预览筛选结果，确认导出的数据符合预期，避免不必要的导出操作。

导出任务队列

任务状态:

pending(待处理):导出任务已创建，等待执行
processing(处理中):导出任务正在执行中
completed(已完成):导出任务成功完成，文件已生成
failed(失败):导出任务执行失败，可以查看错误信息

进度监控:

实时显示导出进度百分比
显示已处理数据集数量和总数量
显示预计剩余时间
支持自动刷新进度状态

批量导出:

支持批量导出多个数据集
可以同时处理多个导出任务
通过任务队列有序处理大量导出请求

导出历史管理

历史记录信息:

导出时间:创建时间、开始时间、完成时间
导出格式:导出数据类型(HDF5、LeRobot、MCAP、JSON、CSV 等)
数据量:包含的数据集数量和文件大小
操作人:执行导出操作的用户信息
导出状态:当前导出任务的状态
文件信息:导出文件名称、大小、存储位置

历史记录功能:

支持按时间、格式、状态等条件筛选导出记录
支持搜索特定导出任务
显示导出任务的详细信息，包括包含的数据集列表
支持查看导出任务的错误信息(如失败)
支持重新下载已导出的文件

导出配额管理

什么是导出配额?

导出配额用于控制资源使用，确保系统资源合理分配。

配额类型:

用户配额:每个用户有独立的导出配额限制
全局配额:系统级别的总配额限制(管理员配置)
配额统计:实时显示已使用配额和剩余配额

配额显示:

导出页面显示当前用户的配额使用情况
显示已使用数量和总配额限制
显示是否为管理员配置的全局配额

配额控制:

超出配额时会提示并阻止导出操作
管理员可以查看和管理所有用户的配额
支持配额重置和调整(管理员权限)

配额管理页面(管理员)

管理员可以:

查看所有用户的导出配额使用情况
配置全局导出配额限制
调整单个用户的配额
查看导出历史统计

常见问题

如何选择合适的导出格式?

选择建议:

确定训练框架:如果使用 LeRobot，选择 LeRobot 格式；如果使用其他框架，选择 HDF5
确定数据用途:如果用于数据分析，选择 JSON/CSV；如果用于机器人回放，选择 MCap
确定标注类型:如果是图像标注，选择对应的图像格式(YOLO/COCO/VOC)
考虑文件大小:视频格式通常比图像格式文件更小，但处理可能更复杂

导出任务失败怎么办?

可能原因:

数据量过大:尝试分批导出
网络问题:检查网络连接，重试导出
存储空间不足:联系管理员检查存储空间
格式错误:检查数据格式是否符合导出要求

解决方法:

查看错误信息，了解失败原因
根据错误信息修复问题
重新尝试导出
如果问题持续，联系技术支持

导出需要多长时间?

时间估算:

导出时间取决于:

数据量:数据越多，导出时间越长
导出格式:某些格式转换需要更多时间
系统负载:系统繁忙时可能较慢

一般情况:

小数据集(10 个以下):1-5 分钟
中等数据集(10-50 个):5-15 分钟
大数据集(50 个以上):15 分钟以上

建议:

导出大量数据时，建议分批导出
可以在导出历史中查看进度
导出完成后会收到通知

如何查看导出历史?

查看方法:

进入数据导出页面
在对应格式的标签页中查看导出历史
可以按时间、状态等条件筛选
点击历史记录可以查看详细信息

历史记录信息:

导出时间、格式、数据量
导出状态和进度
文件下载链接
错误信息(如失败)

适用角色

管理员

你可以:

对外交付训练数据或下游分析所需数据
管理导出任务，监控导出进度
控制数据导出权限
管理导出配额

项目经理

你可以:

导出项目相关的数据
为项目交付准备数据
监控数据使用情况
协调数据导出工作

训练工程师

你可以:

导出已标注数据用于模型训练
选择适合训练框架的导出格式
配置导出参数以满足训练需求
下载导出的训练数据

导出格式与可训练模型对应关系​

快速上手:选择导出格式​

如何选择导出格式?​

导出步骤​

主要导出格式详解​

LeRobot 格式导出​

HDF5 格式导出​

MCap 格式导出​

JSON/CSV 格式导出​

图像标注导出(3.3.0 新增)​

时间对齐导出​

丢帧检测导出​

MCap 切块导出​

导出管理​

如何筛选要导出的数据?​

导出任务队列​

导出历史管理​

导出配额管理​

什么是导出配额?​

配额管理页面(管理员)​

常见问题​

如何选择合适的导出格式?​

导出任务失败怎么办?​

导出需要多长时间?​

如何查看导出历史?​

适用角色​

管理员​

项目经理​

训练工程师​

相关功能​

导出格式与可训练模型对应关系

快速上手:选择导出格式

如何选择导出格式?

导出步骤

主要导出格式详解

LeRobot 格式导出

HDF5 格式导出

MCap 格式导出

JSON/CSV 格式导出

图像标注导出(3.3.0 新增)

时间对齐导出

丢帧检测导出

MCap 切块导出

导出管理

如何筛选要导出的数据?

导出任务队列

导出历史管理

导出配额管理

什么是导出配额?

配额管理页面(管理员)

常见问题

如何选择合适的导出格式?

导出任务失败怎么办?

导出需要多长时间?

如何查看导出历史?

适用角色

管理员

项目经理

训练工程师

相关功能