数据导出
功能概述
数据导出是艾欧数据平台的重要数据交付模块,提供将已标注数据导出为多种标准格式的功能,包括 JSON、CSV、HDF5、LeRobot、MCap 等。通过灵活的筛选条件、批量导出功能和导出历史管理,确保标注数据能够以最适合的格式交付给下游系统,支持模型训练、数据分析等各种应用场景。

主要功能
多格式导出支持
标准数据格式
支持导出为多种标准数据格式,包括 JSON(结构化数据)、CSV(表格数据)、HDF5(科学计算数据 )、LeRobot(机器人学习数据)、MCap(多模态数据)等。这些格式覆盖了绝大多数下游应用的需求。
自定义格式
支持根据特定需求自定义导出格式,包括字段选择、数据转换、格式配置等。通过自定义格式,可以满足特殊场景的数据导出需求。
格式转换
提供智能的格式转换功能,可以将数据从一种格式转换为另一种格式,确保数据在不同系统间的兼容性。转换过程支持数据验证和质量检查。
灵活筛选功能
多维度筛选
支持按项目、时间、标注员、质量等级等多个维度进行数据筛选。通过灵活的筛选条件,可以精确选择需要导出的数据。
高级筛选
提供高级筛选功能,支持复杂的筛选条件组合,包括逻辑运算、范围筛选、模糊匹配等。高级筛选让您能够精确控制导出的数据范围 。
预览功能
在导出前提供数据预览功能,可以查看筛选结果,确认导出的数据符合预期。预览功能避免了不必要的导出操作。
批量导出管理
批量处理
支持批量导出多个数据集,可以同时处理多个导出任务,大大提高导出效率。批量处理特别适合大量数据的导出场景。
任务队列
提供导出任务队列管理,支持多个导出任务的排队和执行。通过任务队列,可以有序地处理大量导出请求。
进度监控
实时监控导出进度,包括已完成数量、处理速度、预计完成时间等。通过进度监控,可以及时了解导出状态。
导出状态:
- pending(待处理)- 导出任务已创建,等待执行
- processing(处理中)- 导出任务正在执行中
- completed(已完成)- 导出任务成功完成,文件已生成
- failed(失败)- 导出任务执行失败,可以查看错误信息
进度信息:
- 实时显示导出进度百分比
- 显示已处理数据集数量和总数量
- 显示预计剩余时间
- 支持自动刷新进度状态
导出历史管理
历史记录
平台完整记录所有导出操作的历史,支持查看和管理所有导出任务:
记录信息:
- 导出时间 - 创建时间、开始时间、完成时间
- 导出格式 - 导出数据类型(HDF5、LeRobot、MCAP、JSON、CSV等)
- 数据量 - 包含的数据集数量和文件大小
- 操作人 - 执行导出操作的用户信息
- 导出状态 - 当前导出任务的状态(待处理、处理中、已完成、失败)
- 文件信息 - 导出文件名称、大小、存储位置
历史记录功能:
- 支持按时间、格式、状态等条件筛选导出记录
- 支持搜索特定导出任务
- 显示导出任务的详细信息,包括包含的数据集列表
- 支持查看导出任务的错误信息(如失败)
MCAP导出历史与进度
MCAP导出功能提供完整的历史记录和实时进度监控:
导出历史列表:
- 显示所有MCAP导出任务的列表
- 每个记录显示导出状态、创建时间、包含的数据集数量等信息
- 支持展开查看详细信息和包含的数据集列表
- 支持按状态、时间等条件筛选
实时进度跟踪:
- 状态监控 - 实时更新导出任务状态(pending → processing → completed/failed)
- 进度显示 - 对于处理中的任务,显示实时进度条
- 自动刷新 - 系统自动检测任务状态变化并更新显示
- 错误处理 - 如果任务失败,显示详细错误信息
导出结果:
- 文件下载 - 导出完成后,可以直接下载生成的MCAP文件
- 文件信息 - 显示导出文件的大小、压缩格式等信息
- 存储位置 - 显示文件在云存储中的位置
- 训练集成 - 导出的MCAP文件可直接用于模型训练
MCAP导出建议:
- 导出大量数据时,建议分批导出以提高成功率
- 可以通过导出历史查看之前的导出记录
- 如果导出失败,可以查看错误信息并重新导出
- 导出的MCAP文件会自动压缩为tar.gz格式以节省空间
HDF5导出功能
HDF5是一种高效的数据存储格式,平台提供了专门的HDF5导出功能:
导出配置:
-
分组数量(chunk_size) - 设置每个HDF5文件包含的原始文件数量
- 设置为1表示每个原始文件对应一个HDF5文件(一一对应)
- 设置更大的值可以将多个文件合并到一个HDF5文件中
- 建议根据数据量和训练需求设置
-
数据刷新频率(hz) - 控制每秒数据采集次数,影响文件大小
- 默认30Hz,适用于大多数场景
- 可以降低频率以减少文件大小
- 提高频率可以获得更密集的采样
导出统计:
- 显示已选择的数据集数量
- 显示导出配额使用情况
- 显示导出进度和预计完成时间
导出结果:
- 导出的HDF5文件按原始文件分组命名(如
chunk_001.hdf5) - 文件自动压缩为tar.gz格式
- 支持直接下载或保存到云存储
- 导出的HDF5文件可直接用于模型训练
HDF5导出详细说明:
- 更多关于HDF5格式和数据结构的信息,请参考:HDF5数据集文档
- HDF5文件采用分层结构组织数据,支持多模态数据存储
- 导出后的HDF5文件包含完整的标注信息(任务描述、动作序列等)
版本管理
支持导出数据的版本管理,可以保存不同版本的导出结果,便于数据回溯和比较。版本管理确保数据的可追溯性。
权限控制
提供细粒度的权限控制,可以设置不同用户对不同数据的导出权限。通过权限控制,确保数据安全,防止未授权导出。
导出配额管理:
- 系统支持导出配额限制,防止资源滥用
- 显示当前用户的导出配额使用情况
- 管理员可以配置全局导出配额限制
- 超出配额时会提示并阻止导出操作
适用角色
管理员
作为平台管理员,您可以对外交付训练数据或下游分析所需数据,管理导出任务,监控导出进度,并控制数据导出权限。这些功能确保平台的数据交付服务安全高效。
项目经理
项目经理可以导出项目相关的数据,为项目交付准备数据,监控数据使用情况,并协调数据导出工作。通过数据导出管理,项目经理能够有效控制项目的数据交付。