常见问题

1. 标注质量如何保障？

质量往往与效率存在矛盾，平台如何确保高效交付的同时维持高准确性？

艾欧已经运营数据业务长达一年多，累计标注处理的数据超过300TB，积累了宝贵的运营经验。

是否有自动化预标注或AI辅助标注技术（如主动学习）的应用？

我们支持利用大语言模型来检查校验上下文标注语义（通过调用腾讯云提供的Deepseek API接入）。未来计划接入图像识别引擎来追踪检测目标物体，实现更加自动化的标注。

如何量化标注员效率与质量（如错误率统计）？

审核员发现的问题都会记录在数据库，在项目详情可以统计每个人的错误/正确数量统计。

是否采用动态任务分配（如将复杂任务分配给高经验标注员）？

项目经理可以调整和分发数据标注与审核任务，后期可引入任务池让高效率标注员自行领取任务。

针对主观性较强的标注任务（如动作意图识别），如何通过审核机制减少歧义？

可以通过每天review标注审核的情况，以会议或消息的形式通知标注员，对齐大家的标准。

复杂场景的标注标准如何制定？

如何解决多模态数据时间对齐和一致性校验？

在预处理打包阶段完成对齐的，对艾欧的数据采集设备来说，已经无缝打通，无需二次开发。如果是客户自定义的数据，还需要做一些适配工作，因为时间戳对齐依赖采集设备的参数信息。
一致性校验也是在进入平台前的预处理环节完成，比如掉帧率检测，时间差异检测等，并且会可视化查看。

平台强调数据仅存储访问链接，依赖第三方云存储（如腾讯云）。若客户需要处理敏感数据，如何通过“IP白名单+权限控制+加密密钥”实现端到端数据隔离？

数据访问保护：

数据传输加密：除了基本的HTTPS传输加密，还可以在预处理时将数据用公钥加密后再上传云端，从云端每次读取时，都使用浏览器本地保存的私钥解密。（这个私钥不上传云端，只在客户本地保存，实现只有特定的客户能访问真实数据）

平台有服务过哪些客户的经验？

我们主要交付给客户私有化离线环境下部署，已经能满足客户的标注需求。已有的交付案例包括国内大厂、高校的机器人研究团队、人形机器人公司模型团队等。

平台有二次开发的接口和文档吗？

有的，我们提供完善的API文档和二次开发文档教程。目前平台的数据都是通过API接口，使用登录密钥来读写访问，客户可以自行开发第三方插件，也可以将需求交给艾欧定制开发。

平台能支持大规模数据吗？

支持，平台从一开始的设计目标就是将数据存储在专业的对象存储服务上。

我们内部运营使用的私有化对象存储（MinIO+NAS）已经存储了300TB以上的数据，并且存储空间可以不受限制的扩展。

而平台只需要存储数据的访问链接和访问密钥即可，大大降低了数据存储的难度，同时平台支持分布式集群的部署模式。在一些成熟的云厂商例如腾讯云上，可以根据请求负载量动态调整服务器资源。