常见问题
1. 标注质量如何保障?
质量往往与效率存在矛盾,平台如何确保高效交付的同时维持高准确性?
艾欧已经运营数据业务长达一年多,累计标注处理的数据超过300TB,积累了宝贵的运营经验。
- 效率提升:对于相似的数据,平台会结合以往的正确标注历史,给出下一个标注的选择建议,大幅提高大批量数据的标注效率。
- 质量提升:对于错误标注,会有算法对比是否和大多数相似,如果是异类会有相应提示重点检查。
是否有自动化预标注或AI辅助标注技术(如主动学习)的应用?
我们支持利用大语言模型来检查校验上下文标注语义(通过调用腾讯云提供的Deepseek API接入)。 未来计划接入图像识别引擎来追踪检测目标物体,实现更加自动化的标注。
2. 标注团队如何管理?
如何量化标注员效率与质量(如错误率统计)?
审核员发现的问题都会记录在数据库,在项目详情可以统计每个人的错误/正确数量统计。
是否采用动态任务分配(如将复杂任务分配给高经验标注员)?
项目经理可以调整和分发数据标注与审核任务,后期可引入任务池让高效率标注员自行领取任务。
针对主观性较强的标注任务(如动作意图识别),如何通过审核机制减少歧义?
可以通过每天review标注审核的情况,以会议或消息的形式通知标注员,对齐大家的标准。
复杂场景的标注标准如何制定?
- 每个项目的标注规则库可以独立,且支持按项目去区别定制(默认是共享的)
- 另外项目经理或有经验可以提前标注一两条数据作为模板,供后续自动化算法提示和标注员参考。
3. 数据质量如何保障?
如何解决多模态数据时间对齐和一致性校验?
- 在预处理打包阶段完成对齐的,对艾欧的数据采集设备来说,已经无缝打通,无需二次开发。如果是客户自定义的数据,还需要做一些适配工作,因为时间戳对齐依赖采集设备的参数信息。
- 一致性校验也是在进入平台前的预 处理环节完成,比如掉帧率检测,时间差异检测等,并且会可视化查看。
4. 数据安全合规如何保障?
平台强调数据仅存储访问链接,依赖第三方云存储(如腾讯云)。若客户需要处理敏感数据,如何通过“IP白名单+权限控制+加密密钥”实现端到端数据隔离?
数据访问保护:
- 所有的云存储厂商都支持IP白名单+服务端加密,客户可以指定能够访问数据的IP或者设备。
- 艾欧数据平台支持项目权限控制,角色权限控制,访问审计等多重权限隔离。
数据传输加密: 除了基本的HTTPS传输加密,还可以在预处理时将数据用公钥加密后再上传云端,从云端每次读取时,都使用浏览器本地保存的私钥解密。(这个私钥不上传云端,只在客户本地保存,实现只有特定的客户能访问真实数据)
5. 定制化能力?
平台有服务过哪些客户的经验?
我们主要交付给客户私有化离线环境下部署,已经能满足客户的标注需求。已有的交付案例包括国内大厂、高校的机器人研究团队、人形机器人公司模型团队等。
平台有二次开发的接口和文档吗?
有的,我们提供完善的API文档和二次开发文档教程。 目前平台的数据都是通过API接口,使用登录密钥来读写访问,客户可以自行开发第三方插件,也可以将需求交给艾欧定制开发。
平台能支持大规模数据吗?
支持,平台从一开始的设计目标就是将数据存储在专业的对象存储服务上。
我们内部运营使用的私有化对象存储(MinIO+NAS)已经存储了300TB以上的数据,并且存储空间可以不受限制的扩展。
而平台只需要存储数据的访问链接和访问密钥即可,大大降低了数据存储的难度,同时平台支持分布式集群的部署模式。在一些成熟的云厂商例如腾讯云上,可以根据请求负载量动态调整服务器资源。