Перейти к основному содержимому

Часто задаваемые вопросы

1. Как обеспечивается качество аннотации?

Качество часто противоречит эффективности, как платформа обеспечивает высокую точность при эффективной доставке?

IO работает в сфере данных более года, обработав и аннотировав более 300 ТБ данных, накопив ценный операционный опыт.

  1. Повышение эффективности: Для похожих данных платформа использует историю правильных аннотаций для предложения вариантов следующей аннотации, значительно повышая эффективность аннотации больших объемов данных.
  2. Повышение качества: Для ошибочных аннотаций алгоритм сравнивает с большинством похожих, если это отклонение, дается соответствующее предупреждение для особой проверки.

Есть ли применение автоматизированной предварительной аннотации или технологий ИИ-ассистированной аннотации (таких как активное обучение)?

Мы поддерживаем использование больших языковых моделей для проверки семантики контекстной аннотации (через подключение к API Deepseek от Tencent Cloud). В будущем планируется подключение движка распознавания изображений для отслеживания целевых объектов, что обеспечит более автоматизированную аннотацию.

2. Как управляется команда аннотаторов?

Как количественно оценить эффективность и качество аннотаторов (например, статистика ошибок)?

Все проблемы, обнаруженные рецензентами, записываются в базу данных, в деталях проекта можно статистически отслеживать количество ошибок/правильных ответов каждого человека.


Применяется ли динамическое распределение задач (например, назначение сложных задач опытным аннотаторам)?

Менеджер проекта может настраивать и распределять задачи аннотации и проверки данных, в дальнейшем можно внедрить пул задач, позволяющий эффективным аннотаторам самостоятельно выбирать задачи.


Для субъективных задач аннотации (таких как распознавание намерений действий), как механизм проверки уменьшает неоднозначность?

Можно ежедневно просматривать ситуацию проверки аннотаций, уведомляя аннотаторов через встречи или сообщения для согласования стандартов.


Как устанавливаются стандарты аннотации для сложных сценариев?

  1. Библиотека правил аннотации каждого проекта может быть независимой и поддерживает настройку по проектам (по умолчанию общая).
  2. Кроме того, менеджер проекта или опытный специалист может заранее аннотировать несколько данных в качестве шаблона для последующих автоматизированных алгоритмических подсказок и справки аннотаторов.

3. Как обеспечивается качество данных?

Как решается проблема временного выравнивания и проверки согласованности многомодальных данных?

  1. Выравнивание завершается на этапе предварительной обработки и упаковки, для оборудования сбора данных IO это уже бесшовно интегрировано, не требует дополнительной разработки. Если это пользовательские данные клиента, требуется дополнительная адаптация, поскольку временное выравнивание зависит от параметрической информации оборудования сбора.
  2. Проверка согласованности также завершается на этапе предварительной обработки перед входом в платформу, например, обнаружение потери кадров, обнаружение временных различий и т.д., с визуальным просмотром.

4. Как обеспечивается безопасность и соответствие данных?

Платформа подчеркивает, что данные хранятся только как ссылки доступа, полагаясь на сторонние облачные хранилища (такие как Tencent Cloud). Если клиенту нужно обрабатывать конфиденциальные данные, как реализовать сквозную изоляцию данных через "IP-белые списки + контроль доступа + ключи шифрования"?

Защита доступа к данным:

  1. Все поставщики облачных хранилищ поддерживают IP-белые списки + серверное шифрование, клиенты могут указать IP или устройства, которые могут получить доступ к данным.
  2. Платформа данных IO поддерживает контроль разрешений проекта, контроль ролевых разрешений, аудит доступа и множественную изоляцию разрешений.

Шифрование передачи данных: Помимо базового HTTPS шифрования передачи, можно также шифровать данные публичным ключом при предварительной обработке перед загрузкой в облако, при каждом чтении из облака использовать приватный ключ, сохраненный локально в браузере, для расшифровки. (Этот приватный ключ не загружается в облако, сохраняется только локально у клиента, обеспечивая доступ к реальным данным только определенным клиентам)

5. Возможности настройки?

Каким клиентам уже обслуживала платформа?

Мы в основном поставляем для приватного офлайн развертывания клиентов, что уже удовлетворяет потребности аннотации клиентов. Существующие случаи поставки включают крупные китайские компании, исследовательские команды роботов университетов, команды моделей компаний человекоподобных роботов и т.д.


Есть ли у платформы интерфейсы и документация для вторичной разработки?

Да, мы предоставляем полную документацию API и учебные пособия по вторичной разработке. В настоящее время все данные платформы доступны через API интерфейсы с использованием ключей входа для чтения и записи, клиенты могут самостоятельно разрабатывать сторонние плагины или передать требования IO для пользовательской разработки.


Может ли платформа поддерживать крупномасштабные данные?

Да, с самого начала целью дизайна платформы было хранение данных в профессиональных сервисах объектного хранения.

Наше внутреннее приватное объектное хранилище (MinIO+NAS) уже хранит более 300 ТБ данных, и пространство хранения может неограниченно расширяться.

Платформе нужно хранить только ссылки доступа к данным и ключи доступа, что значительно снижает сложность хранения данных, при этом платформа поддерживает режим развертывания распределенного кластера. На зрелых облачных платформах, таких как Tencent Cloud, можно динамически настраивать серверные ресурсы в соответствии с нагрузкой запросов.