Обучение моделей
Платформа данных Embodiflow предоставляет комплексные возможности обучения моделей роботизированного обучения, поддерживая сквозные рабочие процессы от предварительной обработки данных до развертывания моделей. Платформа интегрирует различные основные алгоритмы роботизированного обучения, предоставляя исследователям и разработчикам эффективную среду обучения моделей.
Особенности продукта
Гибкая архитектура
Продукт принимает многослойную архитектурную конструкцию для обеспечения масштабируемости системы. Вычислительная мощность для обучения поддерживает множественный выбор:
- Частное облако: использование GPU-серверов локального дата-центра (поддержка параллельного обучения на нескольких GPU)
- Публичное облако: аренда вычислительных ресурсов поставщиков облачных услуг по требованию (оплата по фактической продолжительности обучения)

От данных к модели
Платформа охватывает полный конвейер данных от сбора данных, аннотации, экспорта, тонкой настройки обучения до развертывания модели.
Поддерживаемые типы моделей
Платформа поддерживает основные модели обучения в области робототехники, охватывающие технические подходы, такие как слияние зрения-языка-действия, имитационное обучение, обучение с подкреплением:
Модели зрение-язык-действие
- SmolVLA - Легкая мультимодальная модель, выполняющая сквозное обучение инструкций естественного языка, визуального восприятия и действий робота
- OpenVLA - Крупномасштаб ная предобученная модель зрение-язык-действие, поддерживающая понимание сложных сцен и планирование операций
Модели имитационного обучения
- ACT (Action Chunking Transformer) - Модель разбиения действий на основе Transformer, которая декомпозирует непрерывные последовательности действий на дискретные блоки для обучения
- PI0 - Алгоритм оптимизации политики нулевого порядка, который быстро изучает начальные политики через данные экспертных демонстраций
- PI0Fast - Оптимизированная версия алгоритма PI0 с улучшенными стратегиями обучения для более быстрой сходимости
Модели обучения политике
- Diffusion Policy - Обучение политике на основе диффузионных процессов, генерирующее непрерывные траектории действий робота через шумоподавление
- VQBET - Векторно-квантованный поведенческий трансформер, который дискретизирует непрерывные пространства действий и моделирует их с помощью Transformers
Модели обучения с подкреплением
- SAC (Soft Actor-Critic) - Алгоритм обучения с подкреплением максимальной энтропии, который балансирует исследование и эксплуатацию в непрерывных пространствах действий
- TDMPC - Временная разность модельного предиктивного управления, объединяющая преимущества планирования на основе модели и обучения без модели
Вышеуказанные модели охватывают основные технические подходы и могут применяться к различным роботизированным задачам, например:
| Сценарий применения | Используемая модель | Описание |
|---|---|---|
| Организация рабочего стола | SmolVLA, PI0 | Роботы могут понимать инструкции естественного языка, такие как "пожалуйста, организуйте предметы на столе" и выполнять действия захвата, перемещения и размещения |
| Сортировка предметов | ACT | Изучая экспертные демонстрации сортировки, роботы могут идентифицировать различные предметы и сортировать их по категориям |
| Сложные операционные задачи | Diffusion Policy | Роботы могут изучать выполнение сложных операционных последовательностей, требующих точного управления, таких как сборка и приготовление пищи |
| Адаптивное управление | SAC и другие алгоритмы RL | Роботы могут изучать оптимальные стратегии управления в динамических средах и адаптироваться к изменениям среды |
Рабоч ий процесс обучения
Платформа предоставляет продуктизированный процесс обучения, реализующий полную операционную цепочку от подготовки данных до развертывания модели через веб-страницы без требования навыков программирования:
1. Подготовка данных

Платформа поддерживает множественные источники данных, включая:
- Экспорт данных платформы - Использование демонстрационных данных робота, аннотированных и экспортированных платформой

- Внешние наборы данных - Импорт публичных н аборов данных через URL-ссылки
- Загрузка локальных данных - Поддержка стандартных форматов, таких как HDF5, LeRobot
- Наборы данных HuggingFace - Прямое получение публичных данных из HuggingFace Hub
2. Настройка обучения
Выбор вычислительных ресурсов
- Частные облачные вычисления - Использование выделенных GPU-серверов, подходящих для долгосрочных задач обучения
- Публичные облачные ресурсы - Поддержка различных облачных сервисов, таких как RunPod, AWS, Tencent Cloud, Alibaba Cloud
- Выбор GPU - Отображение состояния GPU в реальном времени, включая использование памяти, температуру, утилизацию