跳到主要内容

数据导出

标注完成的数据需要导出为特定格式,才能用于模型训练或数据分析。平台支持多种标准格式,满足不同训练框架和工具的需求。

典型使用场景:

  • 模型训练:导出为 LeRobot、HDF5 等格式,直接用于训练
  • 数据分析:导出为 JSON、CSV 格式,便于分析和可视化
  • 机器人回放:导出为 MCap 格式,支持完整数据回放
  • 图像标注训练:导出为 YOLO、COCO 等格式,适配主流检测框架

数据导出界面

导出格式与可训练模型对应关系

根据目标模型选择导出格式:LeRobot 格式可直接用于 SmolVLA、ACT、Diffusion 等;LeRobot v2.1 配合 OpenPI 可微调 Pi0、Pi0.5。HDF5 适用于其它深度学习框架。

快速上手:选择导出格式

如何选择导出格式?

根据你的使用场景选择合适的格式:

使用场景推荐格式说明
LeRobot 模型训练LeRobot支持图像/视频模式,包含完整标注信息
其他框架训练HDF5通用科学计算格式,支持多模态数据
数据分析JSON/CSV结构化数据,便于分析和可视化
机器人回放MCapROS 标准格式,支持完整数据回放
图像目标检测YOLO/COCO/VOC标准目标检测格式,适配主流框架
数据质量分析时间对齐/丢帧检测时间对齐和丢帧检测结果

导出步骤

  1. 选择导出格式:在页面顶部选择对应的格式标签页
  2. 筛选数据:使用项目、时间、标注员等条件筛选要导出的数据
  3. 选择数据集:勾选需要导出的数据集
  4. 配置参数:根据格式要求设置导出参数(如采样频率、图像格式等)
  5. 开始导出:点击导出按钮,等待处理完成
  6. 下载文件:导出完成后下载生成的文件

主要导出格式详解

LeRobot 格式导出

适用场景:使用 LeRobot 框架进行模型训练。

导出配置:

  • 数据集选择:选择要导出的数据集,支持多选
  • 图像格式:选择导出为图像(jpg)或视频(mp4)格式
    • 图像格式:每个时间点保存为单独的图像文件
    • 视频格式:将数据打包为视频文件,文件更小
  • 采样频率(hz):控制数据采样频率,默认 30Hz
    • 降低频率可以减少文件大小
    • 提高频率可以获得更密集的采样
  • 严格匹配:是否严格匹配标注时间段
  • 人脸模糊(3.3.0 新增):导出时是否模糊人脸信息,保护隐私
  • 版本选择:选择导出格式版本(latest 或 v2.1)

导出配额:

  • 显示当前用户的导出配额使用情况
  • 显示已使用数量和总配额
  • 超出配额时无法导出

导出结果:

  • 导出的 LeRobot 格式数据可直接用于模型训练
  • 支持 SmolVLA、ACT、Pi0 等多种模型训练
  • 文件自动打包为 tar.gz 格式
  • 支持直接下载或用于训练服务

HDF5 格式导出

适用场景:使用其他深度学习框架(如 PyTorch、TensorFlow)进行训练。

导出配置:

  • 分组数量(chunk_size):设置每个 HDF5 文件包含的原始文件数量

    • 设置为 1:每个原始文件对应一个 HDF5 文件(一一对应)
    • 设置更大值:将多个文件合并到一个 HDF5 文件中
    • 建议根据数据量和训练需求设置
  • 数据刷新频率(hz):控制每秒数据采集次数,影响文件大小

    • 默认 30Hz,适用于大多数场景
    • 可以降低频率以减少文件大小
    • 提高频率可以获得更密集的采样

导出统计:

  • 显示已选择的数据集数量
  • 显示导出配额使用情况
  • 显示导出进度和预计完成时间

导出结果:

  • 导出的 HDF5 文件按原始文件分组命名(如 chunk_001.hdf5)
  • 文件自动压缩为 tar.gz 格式
  • 支持直接下载或保存到云存储
  • 导出的 HDF5 文件可直接用于模型训练
信息

HDF5 导出详细说明:

  • 更多关于 HDF5 格式和数据结构的信息,请参考:HDF5 数据集文档
  • HDF5 文件采用分层结构组织数据,支持多模态数据存储
  • 导出后的 HDF5 文件包含完整的标注信息(任务描述、动作序列等)

MCap 格式导出

适用场景:需要完整回放机器人数据,或与其他 ROS 系统集成。

导出特点:

  • ROS 标准多模态数据格式
  • 支持完整数据回放
  • 保持时间戳和消息结构完整性
  • 自动压缩为 tar.gz 格式

导出历史与进度:

  • 显示所有 MCap 导出任务的列表
  • 实时更新导出任务状态(pending → processing → completed/failed)
  • 对于处理中的任务,显示实时进度条
  • 导出完成后可以直接下载生成的 MCap 文件
提示

MCap 导出建议:

  • 导出大量数据时,建议分批导出以提高成功率
  • 可以通过导出历史查看之前的导出记录
  • 如果导出失败,可以查看错误信息并重新导出
  • 导出的 MCap 文件会自动压缩为 tar.gz 格式以节省空间

JSON/CSV 格式导出

适用场景:数据分析、可视化、API 集成。

JSON 格式:

  • 结构化数据格式,适合程序化处理
  • 支持 API 集成
  • 便于数据交换

CSV 格式:

  • 表格数据格式,适合 Excel 等工具分析
  • 便于数据可视化
  • 支持大规模数据处理

图像标注导出(3.3.0 新增)

适用场景:图像目标检测、分割等任务的模型训练。

支持的标注类型:

  • BBOX:边界框标注
  • POINT:点标注
  • POLYGON:多边形标注
  • POLYLINE:折线标注
  • KEYPOINT:关键点标注
  • SEGMENTATION:分割标注

导出格式:

  • CSV:表格格式,包含图像路径和标注坐标
  • YOLO:YOLO 格式,包含 txt 标注文件和类别定义
  • COCO:COCO 格式,标准 JSON 格式,支持目标检测和分割
  • Pascal VOC:VOC XML 格式,经典的目标检测格式
  • TAR:完整打包,包含所有图像文件和标注文件

使用步骤:

  1. 选择项目或数据集筛选标注数据
  2. 选择标注类型(可选,不选则导出所有类型)
  3. 搜索和筛选需要导出的标注
  4. 选择导出格式
  5. 点击导出按钮,等待处理完成
  6. 下载导出的文件

时间对齐导出

适用场景:数据质量检查,分析多个传感器数据的时间对齐情况。

功能说明:

  • 分析多个传感器数据的时间对齐情况
  • 导出对齐结果和统计信息
  • CSV 格式,便于数据分析

丢帧检测导出

适用场景:数据质量评估,检测视频文件中的丢帧情况。

功能说明:

  • 检测视频文件中的丢帧情况
  • 导出丢帧时间点和统计信息
  • CSV 格式,包含时间戳和丢帧信息

MCap 切块导出

适用场景:将大型 MCap 文件切分为多个小文件,便于处理和管理。

功能说明:

  • 按时间或大小切分 MCap 文件
  • 保持数据完整性和时间连续性
  • 切分后的文件可独立使用

导出管理

如何筛选要导出的数据?

筛选条件:

  • 项目筛选:选择特定项目的数据
  • 时间范围:选择特定时间段的数据
  • 标注员筛选:选择特定标注员标注的数据
  • 质量等级:按标注质量筛选数据
  • 数据集选择:直接勾选需要导出的数据集

预览功能:

在导出前可以预览筛选结果,确认导出的数据符合预期,避免不必要的导出操作。

导出任务队列

任务状态:

  • pending(待处理):导出任务已创建,等待执行
  • processing(处理中):导出任务正在执行中
  • completed(已完成):导出任务成功完成,文件已生成
  • failed(失败):导出任务执行失败,可以查看错误信息

进度监控:

  • 实时显示导出进度百分比
  • 显示已处理数据集数量和总数量
  • 显示预计剩余时间
  • 支持自动刷新进度状态

批量导出:

  • 支持批量导出多个数据集
  • 可以同时处理多个导出任务
  • 通过任务队列有序处理大量导出请求

导出历史管理

历史记录信息:

  • 导出时间:创建时间、开始时间、完成时间
  • 导出格式:导出数据类型(HDF5、LeRobot、MCAP、JSON、CSV 等)
  • 数据量:包含的数据集数量和文件大小
  • 操作人:执行导出操作的用户信息
  • 导出状态:当前导出任务的状态
  • 文件信息:导出文件名称、大小、存储位置

历史记录功能:

  • 支持按时间、格式、状态等条件筛选导出记录
  • 支持搜索特定导出任务
  • 显示导出任务的详细信息,包括包含的数据集列表
  • 支持查看导出任务的错误信息(如失败)
  • 支持重新下载已导出的文件

导出配额管理

什么是导出配额?

导出配额用于控制资源使用,确保系统资源合理分配。

配额类型:

  • 用户配额:每个用户有独立的导出配额限制
  • 全局配额:系统级别的总配额限制(管理员配置)
  • 配额统计:实时显示已使用配额和剩余配额

配额显示:

  • 导出页面显示当前用户的配额使用情况
  • 显示已使用数量和总配额限制
  • 显示是否为管理员配置的全局配额

配额控制:

  • 超出配额时会提示并阻止导出操作
  • 管理员可以查看和管理所有用户的配额
  • 支持配额重置和调整(管理员权限)

配额管理页面(管理员)

管理员可以:

  • 查看所有用户的导出配额使用情况
  • 配置全局导出配额限制
  • 调整单个用户的配额
  • 查看导出历史统计

常见问题

如何选择合适的导出格式?

选择建议:

  1. 确定训练框架:如果使用 LeRobot,选择 LeRobot 格式;如果使用其他框架,选择 HDF5
  2. 确定数据用途:如果用于数据分析,选择 JSON/CSV;如果用于机器人回放,选择 MCap
  3. 确定标注类型:如果是图像标注,选择对应的图像格式(YOLO/COCO/VOC)
  4. 考虑文件大小:视频格式通常比图像格式文件更小,但处理可能更复杂

导出任务失败怎么办?

可能原因:

  1. 数据量过大:尝试分批导出
  2. 网络问题:检查网络连接,重试导出
  3. 存储空间不足:联系管理员检查存储空间
  4. 格式错误:检查数据格式是否符合导出要求

解决方法:

  1. 查看错误信息,了解失败原因
  2. 根据错误信息修复问题
  3. 重新尝试导出
  4. 如果问题持续,联系技术支持

导出需要多长时间?

时间估算:

导出时间取决于:

  • 数据量:数据越多,导出时间越长
  • 导出格式:某些格式转换需要更多时间
  • 系统负载:系统繁忙时可能较慢

一般情况:

  • 小数据集(10 个以下):1-5 分钟
  • 中等数据集(10-50 个):5-15 分钟
  • 大数据集(50 个以上):15 分钟以上

建议:

  • 导出大量数据时,建议分批导出
  • 可以在导出历史中查看进度
  • 导出完成后会收到通知

如何查看导出历史?

查看方法:

  1. 进入数据导出页面
  2. 在对应格式的标签页中查看导出历史
  3. 可以按时间、状态等条件筛选
  4. 点击历史记录可以查看详细信息

历史记录信息:

  • 导出时间、格式、数据量
  • 导出状态和进度
  • 文件下载链接
  • 错误信息(如失败)

适用角色

管理员

你可以:

  • 对外交付训练数据或下游分析所需数据
  • 管理导出任务,监控导出进度
  • 控制数据导出权限
  • 管理导出配额

项目经理

你可以:

  • 导出项目相关的数据
  • 为项目交付准备数据
  • 监控数据使用情况
  • 协调数据导出工作

训练工程师

你可以:

  • 导出已标注数据用于模型训练
  • 选择适合训练框架的导出格式
  • 配置导出参数以满足训练需求
  • 下载导出的训练数据

相关功能

完成数据导出后,你可能还需要: