跳到主要内容

数据管理

当平台中积累了成百上千个数据集时,如何快速找到你需要的那一个?

常见场景:

  • 项目经理需要找到某个项目中所有未标注的数据,分配给标注员
  • 标注员想查看自己负责的数据标注进度
  • 管理员需要统计某个机器人在特定时间段采集的数据
  • 训练工程师要导出已标注完成的数据用于模型训练

数据管理页面就是为了解决这些问题而设计的。它提供了强大的搜索、筛选和批量操作能力,让你能在海量数据中快速定位目标。

数据管理界面

快速上手:3 步找到目标数据

第 1 步:选择项目范围

页面顶部的项目选择器让你决定查看哪些数据:

  • 全部项目:查看所有你有权限访问的数据(管理员和项目经理)
  • 特定项目:只查看某个项目的数据,缩小搜索范围
  • 个人空间:查看你个人上传的私有数据

💡 小提示:如果数据量很大,先选择特定项目可以大幅提升加载速度。

第 2 步:使用搜索和筛选

在搜索栏中输入关键词,系统会在数据名称中搜索匹配项。支持模糊匹配,比如输入"抓取"可以找到所有包含"抓取"的数据集。

快速筛选按钮:

  • 已分配/未分配:快速区分哪些数据已经分配给标注任务
  • 已标注/未标注:查看标注完成情况

点击按钮切换筛选状态,再次点击取消筛选。

高级搜索:

点击搜索栏右侧的展开按钮,可以设置更精确的搜索条件:

  • 数据名称:支持模糊匹配和精确搜索
  • 来源机器人:按采集数据的机器人筛选
  • 标签筛选:按数据标签筛选(如"高质量"、"测试数据"等)
  • 上传时间:选择时间范围,如"最近一周"、"上个月"
  • 文件格式:MCAP、BAG、视频、音频、图片等
  • 时长范围:筛选特定时长的数据(秒为单位)

这些条件可以组合使用。比如:找到"机器人A"在"最近一个月"采集的"未标注"的"MCAP格式"数据。

高级搜索界面

第 3 步:预览和选择数据

在数据列表中,每个数据集显示:

  • 缩略图:快速预览数据内容
  • 基本信息:名称、大小、时长、上传时间
  • 状态标识:是否已分配任务、是否已标注
  • 标签:数据分类标签

点击数据集可以查看详情,勾选复选框可以选择多个数据集进行批量操作。

数据列表

进阶使用

如何批量管理数据?

场景:你需要对 50 个数据集重命名,或者给它们统一添加标签。

操作步骤:

  1. 使用搜索和筛选找到目标数据集
  2. 勾选需要操作的数据集(支持全选)
  3. 点击底部操作栏的相应按钮

支持的批量操作:

操作使用场景注意事项
批量重命名统一命名规范会弹出对话框,可以逐个修改名称
查看统计了解数据概况显示总大小、总时长、标注数量等
管理标签批量分类数据可以添加或删除标签
创建标注任务快速分配工作选择数据后一键创建任务
追加到任务补充已有任务将新数据添加到现有标注任务
删除数据清理不需要的数据软删除,可在回收站恢复
关联机器人标记数据来源管理员权限,用于数据溯源
更新元信息修复元数据错误重新提取文件信息

批量操作界面

提示

批量删除操作会进入回收站,可以恢复。但删除标注操作不可恢复,请谨慎使用。

如何查看和播放数据?

在线预览:

点击数据集名称或缩略图,可以查看详细信息:

  • 基本信息:文件大小、时长、格式、上传时间
  • 机器人信息:采集机器人、采集参数
  • 标注统计:标注数量、标注进度
  • 任务关联:关联的标注任务

在线播放:

支持多种格式的在线播放:

  • 视频文件:MP4、AVI、MOV 等,支持暂停、快进、慢放
  • 音频文件:MP3、WAV 等,支持波形显示
  • MCAP 数据:机器人数据可视化播放,支持 3D 场景渲染

播放器提供完整的控制功能,让你无需下载就能查看数据内容。

数据播放界面

如何处理误删的数据?

平台使用软删除机制,删除的数据不会立即消失,而是进入回收站。

恢复数据:

  1. 进入"回收站"页面
  2. 找到误删的数据集
  3. 点击"恢复"按钮

恢复后的数据会保留所有历史信息:

  • ✅ 原有的标注数据
  • ✅ 关联的标注任务
  • ✅ 数据标签和元数据
  • ✅ 访问和操作日志

重新上传同名数据:

如果你重新上传了之前删除的数据集,系统会检测到同名数据:

  • 恢复现有数据集:保留所有历史信息(推荐)
  • 创建新数据集:忽略历史数据,创建全新记录

💡 建议:如果数据曾被误删,选择"恢复现有数据集"可以保留所有标注和任务关联。

如何同步和修复元数据?

什么时候需要同步元数据?

  • 文件信息显示不正确(如时长、大小)
  • 上传后元数据提取失败
  • 文件被外部工具修改过

操作步骤:

  1. 选择需要同步的数据集(支持批量)
  2. 点击底部操作栏的"更新"按钮
  3. 在对话框中选择"更新元信息"
  4. 确认操作,系统开始处理

处理状态:

对话框会实时显示每个数据集的处理状态:

  • 待处理:等待队列处理
  • 处理中:正在读取文件并提取元数据
  • 已完成:元数据更新成功
  • 失败:文件损坏或格式错误

错误处理:

如果文件损坏,系统会标记为错误状态。永久性错误(如文件损坏)不会自动重试,需要先修复文件。

元数据同步界面

如何创建标注任务?

从数据管理页面创建:

  1. 使用搜索和筛选找到需要标注的数据
  2. 勾选目标数据集(可以跨页选择)
  3. 点击底部操作栏的"标注"按钮
  4. 填写任务信息:
    • 任务名称和描述
    • 指定标注员和审核员
    • 选择所属项目
    • 设置完成时间
  5. 确认创建

创建标注任务

追加到现有任务:

如果已有标注任务,可以将新数据追加进去:

  1. 选择要追加的数据集
  2. 点击"追加到任务"
  3. 选择目标任务
  4. 确认操作

💡 小提示:创建任务前,建议先用筛选功能确认数据状态,避免将已标注的数据重复分配。

如何导出数据用于训练?

数据管理页面主要提供数据浏览和管理功能。要导出数据用于模型训练,请使用数据导出功能。

在数据管理页面,你可以:

  • 查看标注进度:了解哪些数据已经标注完成
  • 筛选已标注数据:使用"已标注"筛选按钮
  • 批量选择:选择多个已标注的数据集

然后进入数据导出页面,选择这些数据集进行导出。

数据质量监控

查看统计信息

选择数据集后,点击"统计"按钮可以查看:

  • 数据概况:总大小、总时长、数据集数量
  • 标注统计:已标注数量、标注完成率
  • 质量指标:标注通过率、审核状态分布

这些信息帮助你了解数据的整体状况。

质量筛选

使用"已标注"筛选按钮可以快速区分:

  • 已标注数据:标注完成,可以用于训练
  • 未标注数据:需要分配标注任务

结合项目筛选,可以查看特定项目的标注完成情况。

常见问题

为什么搜索不到数据?

可能的原因:

  1. 项目筛选:检查是否选择了正确的项目范围
  2. 权限限制:确认你有访问该数据的权限
  3. 搜索关键词:尝试使用更宽泛的关键词,或使用高级搜索
  4. 数据已删除:检查回收站,数据可能被误删

批量操作失败怎么办?

如果批量操作中部分数据集失败:

  1. 查看操作对话框中的错误信息
  2. 对于元数据同步失败,检查文件是否损坏
  3. 对于删除标注失败,确认数据集确实有标注数据
  4. 可以单独对失败的数据集重试操作

如何提高搜索效率?

建议:

  1. 先选项目再搜索:缩小搜索范围
  2. 使用标签:给数据添加标签,便于后续筛选
  3. 组合筛选条件:使用多个筛选条件精确匹配
  4. 保存常用搜索:将常用搜索条件记录下来,下次直接使用

数据列表加载很慢怎么办?

优化建议:

  1. 选择特定项目:不要查看"全部项目"
  2. 使用筛选条件:减少返回的数据量
  3. 调整每页显示数量:减少单次加载的数据集数量
  4. 检查网络连接:确保网络稳定

如果问题持续,联系管理员检查系统性能。

适用角色

管理员

你可以查看和管理所有项目的数据,包括:

  • 跨项目数据统计和监控
  • 数据分配和项目关联
  • 系统维护和数据清理
  • 权限管理和访问控制

项目经理

你可以管理负责项目的数据,包括:

  • 查看项目数据概况
  • 创建和分配标注任务
  • 监控标注进度和质量
  • 导出数据用于训练

标注员和审核员

你可以查看和检索数据(权限受限):

  • 查看分配给自己的任务数据
  • 检索需要处理的数据集
  • 查看数据详情和标注结果

相关功能

完成数据管理后,你可能还需要: