跳到主要内容

数据导入

数据导入用于从外部系统批量导入数据到平台。主要支持两种场景:从本地 IO Agent 设备导入 MCap 文件,以及导入 LeRobot 格式的数据集。

典型使用场景:

  • 离线采集数据导入:从本地采集设备批量导入数据
  • 外部数据集导入:导入 LeRobot 格式的数据集
  • 数据迁移:从其他系统迁移数据到平台

数据导入界面

数据接入方式概览

数据可通过 IO Agent、LeRobot 包或本地上传等方式进入平台,经入库或转码后出现在数据管理页面,供后续标注与导出使用。

快速上手:从 IO Agent 导入数据

什么是 IO Agent?

IO Agent 是运行在本地设备上的软件,用于管理采集到的 MCap 文件。通过数据导入功能,可以将这些文件批量导入到平台。

导入步骤

第 1 步:配置 Agent 地址

  1. 在导入页面,输入 IO Agent 的服务地址
  2. 系统会自动检测 Agent 服务状态
  3. 连接成功后,可以浏览 Agent 设备上的文件

第 2 步:选择要导入的文件

  1. 浏览 Agent 设备上的 MCap 文件
  2. 显示文件大小、创建时间等元数据
  3. 支持按名称搜索和筛选文件
  4. 勾选需要导入的文件

第 3 步:选择存储方式

每个文件可以选择两种存储方式:

  • 云端:下载文件并上传到云存储(推荐)

    • 文件会从 Agent 设备下载
    • 然后上传到配置的云存储
    • 适合需要长期保存的数据
  • 本地:只创建数据集记录,文件仍在 Agent 设备

    • 不下载文件,只创建元数据
    • 文件访问依赖 Agent 设备在线
    • 适合临时数据或节省存储空间

第 4 步:开始导入

  1. 点击"云端"或"本地"按钮开始导入
  2. 系统会显示导入进度
  3. 导入完成后,文件会出现在数据管理页面

批量导入

批量操作:

  • 可以勾选多个文件进行批量导入
  • 支持批量选择所有文件
  • 批量导入会按顺序逐个处理

导入队列:

  • 导入任务会加入队列,按顺序执行
  • 可以查看每个文件的导入状态
  • 支持取消正在进行的导入任务

LeRobot 格式导入(3.4.0 新增)

什么是 LeRobot 格式?

LeRobot 是一个流行的机器人学习框架。如果你有 LeRobot 格式的数据集,可以直接导入到平台。

支持格式:

  • LeRobot 标准文件夹结构
  • 包含图像、视频和标注数据
  • 支持压缩包(tar.gz)格式导入

格式要求:

  • 符合 LeRobot 标准文件夹结构
  • 包含必要的元数据文件(meta/info.json)
  • 标注数据格式正确

导入步骤

  1. 选择数据源:选择 LeRobot 格式的文件夹或压缩包
  2. 格式验证:系统自动识别格式并验证数据完整性
  3. 数据解析:提取元数据和标注信息
  4. 创建数据集:自动创建数据集并关联标注
  5. 完成导入:导入完成后可在数据页面查看
提示

LeRobot 导入说明:

  • 导入前请确保文件夹结构符合 LeRobot 标准
  • 支持批量导入多个文件夹
  • 导入过程会自动验证数据完整性

导入管理

如何查看导入进度?

任务状态:

  • 待处理:任务已创建,等待执行
  • 处理中:正在下载或上传文件
  • 已完成:文件已成功导入,数据集已创建
  • 失败:处理过程中出现错误,可查看错误信息

进度信息:

  • 实时显示每个文件的处理状态
  • 显示上传进度百分比
  • 显示已处理文件数量和总数量
  • 显示预计剩余时间

导入任务队列

队列功能:

  • 显示所有导入任务列表
  • 支持按状态筛选(待处理、处理中、已完成、失败)
  • 支持搜索特定任务
  • 显示任务创建时间和处理进度

任务操作:

  • 查看详情:查看任务详情和包含的文件
  • 取消任务:取消正在进行的任务
  • 重试任务:重试失败的任务
  • 删除任务:删除已完成的任务

错误处理

常见错误类型:

  • 网络错误:下载或上传失败,支持重试
  • 格式错误:文件格式不正确,需要检查文件
  • 存储错误:云存储配置问题,需要检查配置
  • 数据错误:数据损坏或格式不兼容

错误恢复:

  • 自动重试:临时错误可自动恢复
  • 手动重试:失败任务可重新执行
  • 错误日志:记录详细错误信息,便于问题排查

常见问题

Agent 连接失败怎么办?

可能原因:

  1. 地址错误:检查 Agent 服务地址是否正确
  2. 网络不通:确认浏览器能否访问 Agent 地址
  3. 服务未启动:确认 IO Agent 软件是否正在运行
  4. 防火墙阻止:检查防火墙设置

解决方法:

  1. 在浏览器中直接访问 Agent 地址,确认能否访问
  2. 检查 Agent 软件是否正常运行
  3. 确认网络连接正常
  4. 如果问题持续,联系技术支持

导入速度很慢怎么办?

可能原因:

  1. 网络带宽:网络带宽不足会影响下载和上传速度
  2. 文件大小:大文件需要更长时间
  3. 系统负载:系统繁忙时可能较慢

优化建议:

  1. 检查网络连接,确保带宽充足
  2. 大文件建议分批导入
  3. 避开系统高峰期导入
  4. 使用"本地"存储方式可以跳过上传步骤

导入失败怎么办?

处理步骤:

  1. 查看错误信息,了解失败原因
  2. 根据错误类型采取相应措施:
    • 网络错误:检查网络连接后重试
    • 格式错误:检查文件格式是否正确
    • 存储错误:检查云存储配置
  3. 点击"重试"按钮重新导入
  4. 如果问题持续,联系技术支持

如何知道文件是否已导入?

检查方法:

  1. 在导入页面,已导入的文件会显示"已完成"状态
  2. 在数据管理页面搜索文件名,确认数据集已创建
  3. 查看导入历史记录,确认导入成功

重复导入:

如果文件已存在,系统会检测到并提示。可以选择:

  • 跳过:不重复导入
  • 覆盖:重新导入并覆盖现有数据

适用角色

管理员

你可以:

  • 集中导入离线采集数据
  • 规范入库流程
  • 监控导入进度
  • 处理导入过程中的问题
  • 配置 Agent 连接和云存储

项目经理

你可以:

  • 为项目导入相关数据
  • 管理导入任务
  • 监控导入进度
  • 确保数据质量

采集员

你可以:

  • 从采集设备导入数据
  • 批量导入采集任务的数据
  • 查看导入状态和进度
  • 处理导入错误

相关功能

完成数据导入后,你可能还需要: