Тонкая настройка модели SmolVLA
Обзор
SmolVLA (Small Vision-Language-Action) - это легкая модель визуального-языкового-действия, разработанная HuggingFace и специально предназначенная для задач обучения роботов. Эта модель имеет всего 450M параметров, подходит для работы на потребительском оборудовании и является идеальным выбором для исследований и разработки в области обучения роботов.
Предварительные требования
Системные требования
- Операционная система: Linux (рекомендуется Ubuntu 20.04+) или macOS
- Версия Python: 3.8+
- GPU: NVIDIA GPU (рекомендуется RTX 3080 или выше), минимум 8GB видеопамяти
- Память: Минимум 16GB RAM
- Дисковое пространство: Минимум 50GB свободного места
Подготовка среды
1. Установка LeRobot
# Клонировать репозиторий LeRobot
git clone https://github.com/huggingface/lerobot.git
cd lerobot
# Создать виртуальную среду
conda create -n lerobot python=3.10
conda activate lerobot
# Установить зависимости
pip install -e .
2. Установка дополнительных зависимостей
# Установить Flash Attention (опционально, для ускорения обучения)
pip install flash-attn --no-build-isolation
# Установить Weights & Biases (для отслеживания экспериментов)
pip install wandb
wandb login
Подготовка данных
Данные формата LeRobot
SmolVLA требует использования наборов данных формата LeRobot. Убедитесь, что ваш набор данных содержит следующую структуру:
your_dataset/
├── data/
│ ├── chunk-001/
│ │ ├── observation.images.cam_high.png
│ │ ├── observation.images.cam_low.png
│ │ └── ...
│ └── chunk-002/
│ └── ...
├── meta.json
├── stats.safetensors
└── videos/
├── episode_000000.mp4
└── ...