Набор данных LeRobot
LeRobot — это открытая платформа для стандартизации данных обучения роботов от Hugging Face, специально разработанная для сценариев обучения роботов и обучения с подкреплением. Она предоставляет единую спецификацию формата данных, позволяя исследователям легче обмениваться, сравнивать и воспроизводить эксперименты по обучению роботов, значительно снижая затраты на преобразование форматов данных между различными исследовательскими проектами.
Экспорт данных
Платформа EmbodyFlow полностью поддерживает экспорт данных в стандартном формате LeRobot, которые можно напрямую использовать в процессе обучения моделей VLA (Vision-Language-Action). Экспортируемые данные содержат полную мультимодальную информацию об операциях робота: данные визуального восприятия, инструкции на естественном языке и соответствующие последовательности действий, формируя полный цикл отображения данных «восприятие-понимание-исполнение».
Экспорт данных в формате LeRobot требует высоких вычислительных ресурсов. Бесплатная версия платформы данных EmbodyFlow имеет разумные ограничения на количество экспортов для каждого пользователя, в то время как платная версия предлагает неограниченные услуги экспорта и оснащена ускорением GPU, что может значительно повысить скорость обработки экспорта.
1. Выбор данных для экспорта
Перед экспортом данных необходимо завершить работу по разметке. Процесс разметки устанавливает точное соответствие между последовательностями действий робота и соответствующими инструкциями на естественном языке, что является необходимым условием для обучения моделей VLA. Благодаря этому сопоставлению модель учится понимать языковые команды и преобразовывать их в точные управляющие действия робота.
Подробный процесс разметки данных и советы по пакетной разметке см. в: Руководство по разметке данных
После завершения разметки вы можете просмотреть все размеченные наборы данных в интерфейсе экспорта. Система поддерживает гибкий выбор подмножеств данных, позволяя выбирать конкретные данные для экспорта в соответствии с вашими потребностями.

Поддерживается пользовательская настройка именования наборов данных. Если вы планируете опубликовать набор данных на платформе Hugging Face, рекомендуется использовать стандартный формат именования репозитория (например, myproject/myrepo1), что облегчит последующий обмен моделями и совместную работу.
Параметры конфигурации экспорта
На панели конфигурации в правой части интерфейса экспорта можно задать следующие параметры экспорта:

Частота дискретизации данных: Управляет частотой дискретизации данных (рекомендуется 10-30 Гц). Чем ниже частота, тем меньше объем создаваемого набора данных, но часть детальной информации может быть потеряна.
Формат изображения:
- MP4 (рекомендуется): Формат сжатого изображения, позволяющий сэкономить около 80% дискового пространства, подходит для экспорта крупномасштабных наборов данных.
- JPG: Исходный формат изображения, сохраняющий полное качество изображения, но имеющий большой объем файла.
Строгое соответствие входу и выходу модели: При включении система автоматически обрезает значения наблюдений и инструкций, обеспечивая соответствие «один к одному», что помогает уменьшить шумовые помехи и повысить качество обучающих данных.
Автоматическое размытие лиц: При включении система автоматически идентифицирует лица в кадрах и выполняет их размытие. Эта функция помогает:
- Защитить личную конфиденциальность и соответствовать требованиям нормативного соответствия данных.
- Подходит для наборов данных, содержащих кадры с операторами.
- Автоматически обрабатывать информацию о лицах во всех экспортируемых изображениях.
Чем больше объем данных, тем больше времени занимает экспорт. Рекомендуется выполнять экспорт по типам задач, избегая одновременной обработки всех данных. Пакетный экспорт не только повышает скорость обработки, но и облегчает последующее управление данными, контроль версий и целевое обучение моделей.
2. Скачивание и распаковка файлов экспорта
Время, затрачиваемое на процесс экспорта, зависит от масштаба данных и текущей нагрузки системы, обычно оно составляет несколько десятков минут. Страница будет автомати чески обновлять статус прогресса, вы можете вернуться позже, чтобы проверить результаты обработки.
После завершения экспорта в области История экспорта в правой части страницы появится кнопка Скачать данные. При нажатии вы получите пакет сжатых файлов в формате .tar.gz.
Рекомендуется создать локально специальный каталог (например, ~/Downloads/mylerobot3) для распаковки файлов, чтобы избежать путаницы с другими данными:
Распакованные файлы строго следуют спецификации стандартного формата наборов данных LeRobot, содержат полные мультимодальные данные: данные визуального восприятия, информацию о состоянии робота, метки действий и т. д.:
3. Пользовательское сопоставление топиков (Topic)
При экспорте набора данных LeRobot системе необходимо сопоставить топики (Topic) ROS/ROS2 с полями наблюдений (observation.state) и действий (action) в стандартном формате LeRobot. Понимание правил сопоставления топиков имеет решающее значение для правильного экспорта пользовательских наборов данных.
Правила сопоставления топиков по умолчанию
Платформа EmbodyFlow использует механизм автоматического распознавания на основе суффиксов имен топиков:
Правила сопоставления наблюден ий (observation.state):
- Если имя топика заканчивается на
/joint_stateили/joint_states, система автоматически распознает значения его полейpositionкак наблюдения и сопоставит их с полемobservation.state. - Например: топики
io_teleop/joint_states,/arm/joint_stateи т. д. будут распознаны как наблюдения.
Правила сопоставления действий (action):
- Если имя топика заканчивается на
/joint_cmdили/joint_command, система автоматически распознает значения его полейpositionкак инструкции действий и сопоставит их с полемaction. - Например: топики
io_teleop/joint_cmd,/arm/joint_commandи т. д. будут распознаны как значения действий.
Чтобы обеспечить корректный экспорт данных, рекомендуется следовать вышеуказанным правилам именования при записи данных. Если в вашей робототехнической системе используется другой стиль именования, вы можете связаться с командой технической поддержки для адаптации.
Поддержка пользовательских топиков
Если вы создали пользовательские топики, имена которых не соответствуют вышеуказанным правилам по умолчанию, вы можете обработать их следующими способами:
-
Переименование топиков: На этапе записи данных переименуйте пользовательские топики в имена, соответствующие правилам по умолчанию (например,
/joint_statesили/joint_command). -
Связь с технической поддержкой: Если изменить имена топиков невозможно, вы можете связаться с командой технической поддержки платформы EmbodyFlow. Мы выполним адаптацию в соответствии с вашим конкретным стилем именования, чтобы обеспечить корректное сопоставление данных с форматом LeRobot.
Текущая версия временно не поддерживает прямое указание пользовательского сопоставления топиков в интерфейсе экспорта. Если у вас есть особые потребности, рекомендуется заранее связаться с командой технической поддержки, и мы выполним соответствующую адаптацию конфигурации перед экспортом.