跳到主要内容

数据导出

功能概述

数据导出是艾欧数据平台的重要数据交付模块,提供将已标注数据导出为多种标准格式的功能,包括 JSON、CSV、HDF5、LeRobot、MCap 等。通过灵活的筛选条件、批量导出功能和导出历史管理,确保标注数据能够以最适合的格式交付给下游系统,支持模型训练、数据分析等各种应用场景。


主要功能

多格式导出支持

标准数据格式

支持导出为多种标准数据格式,包括 JSON(结构化数据)、CSV(表格数据)、HDF5(科学计算数据)、LeRobot(机器人学习数据)、MCap(多模态数据)等。这些格式覆盖了绝大多数下游应用的需求。

自定义格式

支持根据特定需求自定义导出格式,包括字段选择、数据转换、格式配置等。通过自定义格式,可以满足特殊场景的数据导出需求。

格式转换

提供智能的格式转换功能,可以将数据从一种格式转换为另一种格式,确保数据在不同系统间的兼容性。转换过程支持数据验证和质量检查。

灵活筛选功能

多维度筛选

支持按项目、时间、标注员、质量等级等多个维度进行数据筛选。通过灵活的筛选条件,可以精确选择需要导出的数据。

高级筛选

提供高级筛选功能,支持复杂的筛选条件组合,包括逻辑运算、范围筛选、模糊匹配等。高级筛选让您能够精确控制导出的数据范围。

预览功能

在导出前提供数据预览功能,可以查看筛选结果,确认导出的数据符合预期。预览功能避免了不必要的导出操作。

批量导出管理

批量处理

支持批量导出多个数据集,可以同时处理多个导出任务,大大提高导出效率。批量处理特别适合大量数据的导出场景。

任务队列

提供导出任务队列管理,支持多个导出任务的排队和执行。通过任务队列,可以有序地处理大量导出请求。

进度监控

实时监控导出进度,包括已完成数量、处理速度、预计完成时间等。通过进度监控,可以及时了解导出状态。

导出状态:

  • pending(待处理)- 导出任务已创建,等待执行
  • processing(处理中)- 导出任务正在执行中
  • completed(已完成)- 导出任务成功完成,文件已生成
  • failed(失败)- 导出任务执行失败,可以查看错误信息

进度信息:

  • 实时显示导出进度百分比
  • 显示已处理数据集数量和总数量
  • 显示预计剩余时间
  • 支持自动刷新进度状态

导出历史管理

历史记录

平台完整记录所有导出操作的历史,支持查看和管理所有导出任务:

记录信息:

  • 导出时间 - 创建时间、开始时间、完成时间
  • 导出格式 - 导出数据类型(HDF5、LeRobot、MCAP、JSON、CSV等)
  • 数据量 - 包含的数据集数量和文件大小
  • 操作人 - 执行导出操作的用户信息
  • 导出状态 - 当前导出任务的状态(待处理、处理中、已完成、失败)
  • 文件信息 - 导出文件名称、大小、存储位置

历史记录功能:

  • 支持按时间、格式、状态等条件筛选导出记录
  • 支持搜索特定导出任务
  • 显示导出任务的详细信息,包括包含的数据集列表
  • 支持查看导出任务的错误信息(如失败)

MCAP导出历史与进度

MCAP导出功能提供完整的历史记录和实时进度监控:

导出历史列表:

  • 显示所有MCAP导出任务的列表
  • 每个记录显示导出状态、创建时间、包含的数据集数量等信息
  • 支持展开查看详细信息和包含的数据集列表
  • 支持按状态、时间等条件筛选

实时进度跟踪:

  • 状态监控 - 实时更新导出任务状态(pending → processing → completed/failed)
  • 进度显示 - 对于处理中的任务,显示实时进度条
  • 自动刷新 - 系统自动检测任务状态变化并更新显示
  • 错误处理 - 如果任务失败,显示详细错误信息

导出结果:

  • 文件下载 - 导出完成后,可以直接下载生成的MCAP文件
  • 文件信息 - 显示导出文件的大小、压缩格式等信息
  • 存储位置 - 显示文件在云存储中的位置
  • 训练集成 - 导出的MCAP文件可直接用于模型训练
提示

MCAP导出建议:

  • 导出大量数据时,建议分批导出以提高成功率
  • 可以通过导出历史查看之前的导出记录
  • 如果导出失败,可以查看错误信息并重新导出
  • 导出的MCAP文件会自动压缩为tar.gz格式以节省空间

HDF5导出功能

HDF5是一种高效的数据存储格式,平台提供了专门的HDF5导出功能:

导出配置:

  • 分组数量(chunk_size) - 设置每个HDF5文件包含的原始文件数量

    • 设置为1表示每个原始文件对应一个HDF5文件(一一对应)
    • 设置更大的值可以将多个文件合并到一个HDF5文件中
    • 建议根据数据量和训练需求设置
  • 数据刷新频率(hz) - 控制每秒数据采集次数,影响文件大小

    • 默认30Hz,适用于大多数场景
    • 可以降低频率以减少文件大小
    • 提高频率可以获得更密集的采样

导出统计:

  • 显示已选择的数据集数量
  • 显示导出配额使用情况
  • 显示导出进度和预计完成时间

导出结果:

  • 导出的HDF5文件按原始文件分组命名(如 chunk_001.hdf5
  • 文件自动压缩为tar.gz格式
  • 支持直接下载或保存到云存储
  • 导出的HDF5文件可直接用于模型训练
信息

HDF5导出详细说明:

  • 更多关于HDF5格式和数据结构的信息,请参考:HDF5数据集文档
  • HDF5文件采用分层结构组织数据,支持多模态数据存储
  • 导出后的HDF5文件包含完整的标注信息(任务描述、动作序列等)

版本管理

支持导出数据的版本管理,可以保存不同版本的导出结果,便于数据回溯和比较。版本管理确保数据的可追溯性。

权限控制

提供细粒度的权限控制,可以设置不同用户对不同数据的导出权限。通过权限控制,确保数据安全,防止未授权导出。

导出配额管理:

  • 系统支持导出配额限制,防止资源滥用
  • 显示当前用户的导出配额使用情况
  • 管理员可以配置全局导出配额限制
  • 超出配额时会提示并阻止导出操作

适用角色

管理员

作为平台管理员,您可以对外交付训练数据或下游分析所需数据,管理导出任务,监控导出进度,并控制数据导出权限。这些功能确保平台的数据交付服务安全高效。

项目经理

项目经理可以导出项目相关的数据,为项目交付准备数据,监控数据使用情况,并协调数据导出工作。通过数据导出管理,项目经理能够有效控制项目的数据交付。