跳到主要内容

常见问题

1. 标注质量如何保障?

质量往往与效率存在矛盾,平台如何确保高效交付的同时维持高准确性?

艾欧已经运营数据业务长达一年多,累计标注处理的数据超过300TB,积累了宝贵的运营经验。

  1. 效率提升:对于相似的数据,平台会结合以往的正确标注历史,给出下一个标注的选择建议,大幅提高大批量数据的标注效率。
  2. 质量提升:对于错误标注,会有算法对比是否和大多数相似,如果是异类会有相应提示重点检查。

是否有自动化预标注或AI辅助标注技术(如主动学习)的应用?

我们支持利用大语言模型来检查校验上下文标注语义(通过调用腾讯云提供的Deepseek API接入)。 未来计划接入图像识别引擎来追踪检测目标物体,实现更加自动化的标注。

2. 标注团队如何管理?

如何量化标注员效率与质量(如错误率统计)?

审核员发现的问题都会记录在数据库,在项目详情可以统计每个人的错误/正确数量统计。


是否采用动态任务分配(如将复杂任务分配给高经验标注员)?

项目经理可以调整和分发数据标注与审核任务,后期可引入任务池让高效率标注员自行领取任务。


​针对主观性较强的标注任务(如动作意图识别),如何通过审核机制减少歧义?

可以通过每天review标注审核的情况,以会议或消息的形式通知标注员,对齐大家的标准。


复杂场景的标注标准如何制定?

  1. 每个项目的标注规则库可以独立,且支持按项目去区别定制(默认是共享的)
  2. 另外项目经理或有经验可以提前标注一两条数据作为模板,供后续自动化算法提示和标注员参考。

3. 数据质量如何保障?

如何解决多模态数据时间对齐和一致性校验?

  1. 在预处理打包阶段完成对齐的,对艾欧的数据采集设备来说,已经无缝打通,无需二次开发。如果是客户自定义的数据,还需要做一些适配工作,因为时间戳对齐依赖采集设备的参数信息。
  2. 一致性校验也是在进入平台前的预处理环节完成,比如掉帧率检测,时间差异检测等,并且会可视化查看。

​4. 数据安全合规如何保障?

平台强调数据仅存储访问链接,依赖第三方云存储(如腾讯云)。若客户需要处理敏感数据,如何通过“IP白名单+权限控制+加密密钥”实现端到端数据隔离?

数据访问保护:

  1. 所有的云存储厂商都支持IP白名单+服务端加密,客户可以指定能够访问数据的IP或者设备。
  2. 艾欧数据平台支持项目权限控制,角色权限控制,访问审计等多重权限隔离。

数据传输加密: 除了基本的HTTPS传输加密,还可以在预处理时将数据用公钥加密后再上传云端,从云端每次读取时,都使用浏览器本地保存的私钥解密。(这个私钥不上传云端,只在客户本地保存,实现只有特定的客户能访问真实数据)

​5. 定制化能力?

平台有服务过哪些客户的经验?

我们主要交付给客户私有化离线环境下部署,已经能满足客户的标注需求。已有的交付案例包括国内大厂、高校的机器人研究团队、人形机器人公司模型团队等。


平台有二次开发的接口和文档吗?

有的,我们提供完善的API文档和二次开发文档教程。 目前平台的数据都是通过API接口,使用登录密钥来读写访问,客户可以自行开发第三方插件,也可以将需求交给艾欧定制开发。


平台能支持大规模数据吗?

支持,平台从一开始的设计目标就是将数据存储在专业的对象存储服务上。

我们内部运营使用的私有化对象存储(MinIO+NAS)已经存储了300TB以上的数据,并且存储空间可以不受限制的扩展。

而平台只需要存储数据的访问链接和访问密钥即可,大大降低了数据存储的难度,同时平台支持分布式集群的部署模式。在一些成熟的云厂商例如腾讯云上,可以根据请求负载量动态调整服务器资源。