Обучение моделей
Платформа данных Embodiflow предоставляет комплексные возможности обучения моделей роботизированного обучения, поддерживая сквозные рабочие процессы от предварительной обработки данных до развертывания моделей. Платформа интегрирует различные основные алгоритмы роботизированного обучения, предоставляя исследователям и разработчикам эффективную среду обучения моделей.
Особенности продукта
Гибкая архитектура
Продукт принимает многослойную архитектурную конструкцию для обеспечения масштабируемости системы. Вычислительная мощность для обучения поддерживает множественный выбор:
- Частное облако: использование GPU-серверов локального дата-центра (поддержка параллельного обучения на нескольких GPU)
- Публичное облако: аренда вычислительных ресурсов поставщиков облачных услуг по требованию (оплата по фактической продолжительности обучения)
От данных к модели
Платформа охватывает полный конвейер данных от сбора данных, аннотации, экспорта, тонкой настройки обучения до развертывания модели.
Поддерживаемые типы моделей
Платформа поддерживает основные модели обучения в области робототехники, охватывающие технические подходы, такие как слияние зрения-языка-действия, имитационное обучение, обучение с подкреплением:
Модели зрение-язык-действие
- SmolVLA - Легкая мультимодальная модель, выполняющая сквозное обучение инструкций естественного языка, визуального восприятия и действий робота
- OpenVLA - Крупномасштабная предобученная модель зрение-язык-действие, поддерживающая понимание сложных сцен и планирование операций
Модели имитационного обучения
- ACT (Action Chunking Transformer) - Модель разбиения действий на основе Transformer, которая декомпозирует непрерывные последовательности действий на дискретные блоки для обучения
- PI0 - Алгоритм оптимизации политики нулевого порядка, который быстро изучает начальные политики через данные экспертных демонстраций
- PI0Fast - Оптимизированная версия алгоритма PI0 с улучшенными стратегиями обучения для более быстрой сходимости
Модели обучения политике
- Diffusion Policy - Обучение политике на основе диффузионных процессов, генерирующее непрерывные траектории действий робота через шумоподавление
- VQBET - Векторно-квантованный поведенческий трансформер, который дискретизирует непрерывные пространства действий и моделирует их с помощью Transformers
Модели обучения с подкреплением
- SAC (Soft Actor-Critic) - Алгоритм обучения с подкреплением максимальной энтропии, который балансирует исследование и эксплуатацию в непрерывных пространствах действий
- TDMPC - Временная разность модельного предиктивного управления, объединяющая преимущества планирования на основе модели и обучения без модели
Вышеуказанные модели охватывают основные технические подходы и могут применяться к различным роботизированным задачам, например:
Сценарий применения | Используемая модель | Описание |
---|---|---|
Организация рабочего ст ола | SmolVLA, PI0 | Роботы могут понимать инструкции естественного языка, такие как "пожалуйста, организуйте предметы на столе" и выполнять действия захвата, перемещения и размещения |
Сортировка предметов | ACT | Изучая экспертные демонстрации сортировки, роботы могут идентифицировать различные предметы и сортировать их по категориям |
Сложные операционные задачи | Diffusion Policy | Роботы могут изучать выполнение сложных операционных последовательностей, требующих точного управления, таких как сборка и приготовление пищи |
Адаптивное управление | SAC и другие алгоритмы RL | Роботы могут изучать оптимальные стратегии управления в динамических средах и адаптироваться к изменениям среды |
Рабочий процесс обучения
Платформа предоставляет продуктизированный процесс обучения, реализующий полную операционную цепочку от подготовки данных до разв ертывания модели через веб-страницы без требования навыков программирования:
1. Подготовка данных
Платформа поддерживает множественные источники данных, включая:
- Экспорт данных платформы - Использование демонстрационных данных робота, аннотированных и экспортированных платформой
- Внешние наборы данных - Импорт публичных наборов данных через URL-ссылки
- Загрузка локальных данных - Поддержка стандартных форматов, таких как HDF5, LeRobot
- Наборы данных HuggingFace - Прямое получение публичных данных из HuggingFace Hub
2. Настройка обучения
Выбор вычислительных ресурсов
- Частные облачные вычисления - Использование выделенных GPU-серверов, подходящих для долгосрочных задач обучения
- Публичные облачные ресурсы - Поддержка различных облачных сервисов, таких как RunPod, AWS, Tencent Cloud, Alibaba Cloud
- Выбор GPU - Отображение состояния GPU в реальном времени, включая использование памяти, температуру, утилизацию
Выбор архитектуры модели
Выберите подходящие модели на основе конкретных требований задачи:
- Для задач, требующих понимания инструкций естественного языка, выберите SmolVLA или OpenVLA
- Для задач имитационного обучения с данными экспертных демонстраций выберите ACT, PI0 или PI0Fast
- Для задач, требующих онлайн-обучения, выберите SAC или TDMPC
Настройка параметров обучения
- Основные параметры - batch_size, шаги обучения, случайное семя и т.д.
- Параметры оптимизации - скорость обучения, тип оптимизатора, стратегия планирования скорости обучения
- Параметры модели - специфичные для модели параметры, такие как chunk_size ACT, шаги наблюдения
- Параметры мониторинга - частота оценки, частота журналирования, стратегия сохранения контрольных точек
После начала обучения платформа предоставляет полные функции мониторинга и управления:
Мониторинг в реальном в ремени
- Метрики обучения - Визуализация ключевых показателей в реальном времени, таких как функция потерь, точность валидации, скорость обучения
- Выход модели - Образцы предсказаний во время обучения для наблюдения за прогрессом обучения модели
- Системные журналы - Подробные журналы обучения и информация об ошибках для устранения неполадок
Управление обучением
- Управление процессом - Поддержка приостановки, возобновления, остановки задач обучения
- Управление контрольными точками - Автоматическое сохранение контрольных точек модели, поддержка возобновления обучения и отката версий
- Настройка параметров - Онлайн-настройка ключевых параметров, таких как скорость обучения
- Репликация задач - Быстрое создание новых задач на основе успешных конфигураций обучения
4. Оценка и экспорт модели
После завершения обучения платформа предоставляет экспорт модели и функцию развертывания вывода одним кликом:
Таким образом, вы можете удобно и быстро обучить свои специализированные модели, используя платформу данных Embodiflow, и завершить развертывание модели и вывод на реальной машине в следующей главе.