Тонкая настройка модели SmolVLA

Обзор

SmolVLA (Small Vision-Language-Action) - это легкая модель визуального-языкового-действия, разработанная HuggingFace и специально предназначенная для задач обучения роботов. Эта модель имеет всего 450M параметров, подходит для работы на потребительском оборудовании и является идеальным выбором для исследований и разработки в области обучения роботов.

Предварительные требования

Системные требования

Операционная система: Linux (рекомендуется Ubuntu 20.04+) или macOS
Версия Python: 3.8+
GPU: NVIDIA GPU (рекомендуется RTX 3080 или выше), минимум 8GB видеопамяти
Память: Минимум 16GB RAM
Дисковое пространство: Минимум 50GB свободного места

Подготовка среды

1. Установка LeRobot

# Клонировать репозиторий LeRobot
git clone https://github.com/huggingface/lerobot.git
cd lerobot

# Создать виртуальную среду
conda create -n lerobot python=3.10
conda activate lerobot

# Установить зависимости
pip install -e .

2. Установка дополнительных зависимостей

# Установить Flash Attention (опционально, для ускорения обучения)
pip install flash-attn --no-build-isolation

# Установить Weights & Biases (для отслеживания экспериментов)
pip install wandb
wandb login

Подготовка данных

Данные формата LeRobot

SmolVLA требует использования наборов данных формата LeRobot. Убедитесь, что ваш набор данных содержит следующую структуру:

your_dataset/
├── data/
│   ├── chunk-001/
│   │   ├── observation.images.cam_high.png
│   │   ├── observation.images.cam_low.png
│   │   └── ...
│   └── chunk-002/
│       └── ...
├── meta.json
├── stats.safetensors
└── videos/
    ├── episode_000000.mp4
    └── ...

Требования к качеству данных

Согласно рекомендациям HuggingFace, SmolVLA требует:

Минимум 25 высококачественных эпизодов для достижения хорошей производительности
Рекомендуется 100+ эпизодов для оптимальных результатов
Каждый эпизод должен содержать полный процесс выполнения задачи
Рекомендуемое разрешение изображения 224x224 или 256x256

Тонкая настройка обучения

Базовая команда обучения

# Установить переменные среды
export HF_USER="io-ai-data"
export CUDA_VISIBLE_DEVICES=0

# Запустить тонкую настройку SmolVLA
lerobot-train \
  --policy.type smolvla \
  --policy.pretrained_path lerobot/smolvla_base \
  --dataset.repo_id ${HF_USER}/my_dataset \
  --dataset.root /data/lerobot_dataset \
  --batch_size 64 \
  --steps 20000 \
  --output_dir outputs/train/smolvla_finetuned \
  --job_name smolvla_finetuning \
  --policy.device cuda \
  --policy.optimizer_lr 1e-4 \
  --policy.scheduler_warmup_steps 1000 \
  --policy.push_to_hub false \
  --save_checkpoint true \
  --save_freq 5000 \
  --wandb.enable true \
  --wandb.project smolvla_finetuning

Расширенная конфигурация обучения

Обучение на нескольких GPU

# Обучение на нескольких GPU с использованием torchrun
torchrun --nproc_per_node=2 --master_port=29500 \
  $(which lerobot-train) \
  --policy.type smolvla \
  --policy.pretrained_path lerobot/smolvla_base \
  --dataset.repo_id ${HF_USER}/my_dataset \
  --dataset.root /data/my_dataset \
  --batch_size 32 \
  --steps 20000 \
  --output_dir outputs/train/smolvla_finetuned \
  --job_name smolvla_multi_gpu \
  --policy.device cuda \
  --policy.optimizer_lr 1e-4 \
  --policy.push_to_hub false \
  --save_checkpoint true \
  --wandb.enable true

Конфигурация оптимизации памяти

# Для GPU с меньшей видеопамятью
lerobot-train \
  --policy.type smolvla \
  --policy.pretrained_path lerobot/smolvla_base \
  --dataset.repo_id ${HF_USER}/my_dataset \
  --batch_size 16 \
  --steps 30000 \
  --output_dir outputs/train/smolvla_finetuned \
  --job_name smolvla_memory_optimized \
  --policy.device cuda \
  --policy.optimizer_lr 5e-5 \
  --policy.use_amp true \
  --num_workers 2 \
  --policy.push_to_hub false \
  --save_checkpoint true \
  --wandb.enable true

Подробное описание параметров

Основные параметры

Параметр	Значение	Рекомендуемое значение	Описание
`--policy.type`	Тип политики	`smolvla`	Тип модели SmolVLA
`--policy.pretrained_path`	Путь к предобученной модели	`lerobot/smolvla_base`	Официальная предобученная модель на HuggingFace
`--dataset.repo_id`	ID репозитория набора данных	`${HF_USER}/my_dataset`	Ваш набор данных HuggingFace
`--dataset.root`	Местоположение хранения набора данных	`/data/my_dataset`	Указать чтение из локального каталога (опционально)
`--batch_size`	Размер пакета	`64`	Настроить в соответствии с видеопамятью, RTX 3080 рекомендуется 32-64
`--steps`	Шаги обучения	`20000`	Можно уменьшить до 10000 для небольших наборов данных
`--output_dir`	Выходной каталог	`outputs/train/smolvla_finetuned`	Путь сохранения модели
`--job_name`	Имя задачи	`smolvla_finetuning`	Для логирования и отслеживания экспериментов (опционально)

Параметры обучения

Параметр	Значение	Рекомендуемое значение	Описание
`--policy.optimizer_lr`	Скорость обучения	`1e-4`	Можно соответственно снизить при тонкой настройке
`--policy.scheduler_warmup_steps`	Шаги прогрева	`1000`	Прогрев скорости обучения, стабилизирует обучение
`--policy.use_amp`	Смешанная точность	`true`	Экономит видеопамять, ускоряет обучение
`--policy.optimizer_grad_clip_norm`	Обрезка градиента	`1.0`	Предотвращает взрыв градиента
`--num_workers`	Потоки загрузки данных	`4`	Настроить в соответствии с количеством ядер CPU
`--policy.push_to_hub`	Отправить в Hub	`false`	Загружать ли модель в HuggingFace (требуется repo_id)
`--save_checkpoint`	Сохранить контрольные точки	`true`	Сохранять ли контрольные точки обучения
`--save_freq`	Частота сохранения	`5000`	Интервал шагов сохранения контрольных точек

Специфичные для модели параметры

Параметр	Значение	Рекомендуемое значение	Описание
`--policy.vlm_model_name`	Модель VLM backbone	`HuggingFaceTB/SmolVLM2-500M-Video-Instruct`	Визуально-языковая модель, используемая SmolVLA
`--policy.chunk_size`	Размер блока действий	`50`	Длина предсказанной последовательности действий
`--policy.n_action_steps`	Шаги выполнения действий	`50`	Количество фактически выполняемых действий
`--policy.n_obs_steps`	Шаги истории наблюдений	`1`	Количество используемых кадров исторических наблюдений

Мониторинг обучения

Интеграция с Weights & Biases

SmolVLA поддерживает W&B для отслеживания экспериментов:

# Включить логирование W&B
lerobot-train \
  --policy.type smolvla \
  --dataset.repo_id your-name/your-repo \
  --batch_size 64 \
  --steps 20000 \
  --policy.push_to_hub false \
  --wandb.enable true \
  --wandb.project smolvla_experiments \
  --wandb.notes "SmolVLA finetuning on custom dataset" \
  # ... другие параметры

Мониторинг ключевых метрик

Метрики для отслеживания во время обучения:

Loss: Общая потеря, должна стабильно уменьшаться
Action Loss: Потеря предсказания действий
Vision Loss: Потеря визуальных признаков
Language Loss: Потеря понимания языка
Learning Rate: Изменения скорости обучения
GPU Memory: Использование видеопамяти

Оценка модели

Сохранение и загрузка моделей

# Загрузить модель после тонкой настройки
from lerobot.policies.smolvla.modeling_smolvla import SmolVLAPolicy

policy = SmolVLAPolicy.from_pretrained(
    "outputs/train/smolvla_finetuned/checkpoints/last",
    device="cuda"
)

# Выполнить вывод
observation = {
    "observation.images.cam_high": image_tensor,
    "observation.state": state_tensor
}

action = policy.select_action(observation)

Скрипт оценки производительности

# evaluation.py
import torch
from lerobot.policies.smolvla.modeling_smolvla import SmolVLAPolicy
from lerobot.datasets.lerobot_dataset import LeRobotDataset

def evaluate_model(model_path, dataset_path):
    # Загрузить модель
    policy = SmolVLAPolicy.from_pretrained(model_path, device="cuda")
    
    # Загрузить тестовый набор данных
    dataset = LeRobotDataset(dataset_path, split="test")
    
    total_loss = 0
    num_samples = 0
    
    with torch.no_grad():
        for batch in dataset:
            prediction = policy(batch)
            loss = policy.compute_loss(prediction, batch)
            total_loss += loss.item()
            num_samples += 1
    
    avg_loss = total_loss / num_samples
    print(f"Average test loss: {avg_loss:.4f}")
    
    return avg_loss

if __name__ == "__main__":
    model_path = "outputs/train/smolvla_finetuned/checkpoints/last"
    dataset_path = "path/to/your/test/dataset"
    evaluate_model(model_path, dataset_path)

Развертывание и вывод

Пример вывода в реальном времени

# inference.py
import torch
import numpy as np
from PIL import Image
from lerobot.policies.smolvla.modeling_smolvla import SmolVLAPolicy

class SmolVLAInference:
    def __init__(self, model_path):
        self.policy = SmolVLAPolicy.from_pretrained(
            model_path, 
            device="cuda"
        )
        self.policy.eval()
    
    def predict_action(self, image, state, instruction=""):
        # Предобработка изображения
        if isinstance(image, np.ndarray):
            image = Image.fromarray(image)
        
        # Построить наблюдение
        observation = {
            "observation.images.cam_high": self.preprocess_image(image),
            "observation.state": torch.tensor(state, dtype=torch.float32).unsqueeze(0),
            "task.language_instruction": instruction
        }
        
        # Предсказать действие
        with torch.no_grad():
            action = self.policy.select_action(observation)
        
        return action.cpu().numpy()
    
    def preprocess_image(self, image):
        # Логика предобработки изображения
        image = image.resize((224, 224))
        image_tensor = torch.tensor(np.array(image)).permute(2, 0, 1).float() / 255.0
        return image_tensor.unsqueeze(0)

# Пример использования
if __name__ == "__main__":
    inference = SmolVLAInference("outputs/train/smolvla_finetuned/checkpoints/last")
    
    # Симуляция входных данных
    image = np.random.randint(0, 255, (480, 640, 3), dtype=np.uint8)
    state = np.random.randn(7)  # Состояние робота с 7 степенями свободы
    instruction = "pick up the red cube"
    
    action = inference.predict_action(image, state, instruction)
    print(f"Predicted action: {action}")

Лучшие практики

Часто задаваемые вопросы (FAQ)

Q: Какие преимущества имеет SmolVLA по сравнению с другими моделями VLA?

A: Основные преимущества SmolVLA включают:

Легковесность: Всего 450M параметров, подходит для потребительского оборудования
Эффективное обучение: Относительно короткое время обучения
Хорошая производительность: Отличная производительность на множестве задач робототехники
Легкое развертывание: Умеренный размер модели, удобен для практического развертывания

Q: Сколько времени занимает обучение?

A: Время обучения зависит от нескольких факторов:

Размер набора данных: 100 эпизодов занимают примерно 2-4 часа (RTX 3080)
Размер пакета: Большие пакеты могут ускорить обучение
Конфигурация оборудования: Лучшие GPU могут значительно сократить время обучения
Шаги обучения: 20000 шагов обычно достаточно для получения хороших результатов

Q: Как определить, сошлась ли модель?

A: Наблюдайте следующие метрики:

Кривые потерь: Общая потеря должна стабильно уменьшаться и выходить на плато
Производительность валидации: Производительность на валидационном наборе больше не улучшается
Предсказания действий: Действия, предсказанные моделью, должны быть разумными
Фактическое тестирование: Тестируйте производительность модели в реальной среде

Q: Что делать, если недостаточно видеопамяти?

A: Вы можете попробовать следующие методы:

Уменьшить размер пакета (например, с 64 до 32 или 16): --batch_size 16
Включить обучение со смешанной точностью: --policy.use_amp true
Уменьшить потоки загрузки данных: --num_workers 2
Использовать меньшее разрешение изображения: --policy.resize_imgs_with_padding 224 224
Уменьшить шаги наблюдения: --policy.n_obs_steps 1

Q: Как улучшить производительность модели?

A: Методы улучшения производительности:

Увеличить объем данных: Собрать больше высококачественных демонстрационных данных
Аугментация данных: Использовать методы аугментации изображений для увеличения разнообразия данных
Настройка гиперпараметров: Настроить скорость обучения, размер пакета и другие параметры
Ансамбль моделей: Обучить несколько моделей и создать ансамбль
Адаптация к домену: Дополнительная тонкая настройка для конкретных задач

Связанные ресурсы

Журнал изменений

2024-01: Релиз начальной версии
2024-02: Добавлена поддержка обучения на нескольких GPU
2024-03: Оптимизировано использование памяти и эффективность обучения
2024-04: Добавлены дополнительные примеры оценки и развертывания

Тонкая настройка модели SmolVLA

Обзор

Предварительные требования

Системные требования

Подготовка среды

1. Установка LeRobot

2. Установка дополнительных зависимостей

Подготовка данных

Данные формата LeRobot

Требования к качеству данных

Тонкая настройка обучения

Базовая команда обучения

Расширенная конфигурация обучения

Обучение на нескольких GPU

Конфигурация оптимизации памяти

Подробное описание параметров

Основные параметры

Параметры обучения

Специфичные для модели параметры

Мониторинг обучения

Интеграция с Weights & Biases

Мониторинг ключевых метрик

Оценка модели

Сохранение и загрузка моделей

Скрипт оценки производительности

Развертывание и вывод

Пример вывода в реальном времени

Лучшие практики

Рекомендации по подготовке данных

Рекомендации по оптимизации обучения

Рекомендации по оптимизации оборудования

Часто задаваемые вопросы (FAQ)

Q: Какие преимущества имеет SmolVLA по сравнению с другими моделями VLA?

Q: Сколько времени занимает обучение?

Q: Как определить, сошлась ли модель?

Q: Что делать, если недостаточно видеопамяти?

Q: Как улучшить производительность модели?

Связанные ресурсы

Журнал изменений

Обзор​

Предварительные требования​

Системные требования​

Подготовка среды​

1. Установка LeRobot​

2. Установка дополнительных зависимостей​

Подготовка данных​

Данные формата LeRobot​

Требования к качеству данных​

Тонкая настройка обучения​

Базовая команда обучения​

Расширенная конфигурация обучения​

Обучение на нескольких GPU​

Конфигурация оптимизации памяти​

Подробное описание параметров​

Основные параметры​

Параметры обучения​

Специфичные для модели параметры​

Мониторинг обучения​

Интеграция с Weights & Biases​

Мониторинг ключевых метрик​

Оценка модели​

Сохранение и загрузка моделей​

Скрипт оценки производительности​

Развертывание и вывод​

Пример вывода в реальном времени​

Лучшие практики​

Рекомендации по подготовке данных​

Рекомендации по оптимизации обучения​

Рекомендации по оптимизации оборудования​

Часто задаваемые вопросы (FAQ)​

Q: Какие преимущества имеет SmolVLA по сравнению с другими моделями VLA?​

Q: Сколько времени занимает обучение?​

Q: Как определить, сошлась ли модель?​

Q: Что делать, если недостаточно видеопамяти?​

Q: Как улучшить производительность модели?​

Связанные ресурсы​

Журнал изменений​

Обзор

Предварительные требования

Системные требования

Подготовка среды

1. Установка LeRobot

2. Установка дополнительных зависимостей

Подготовка данных

Данные формата LeRobot

Требования к качеству данных

Тонкая настройка обучения

Базовая команда обучения

Расширенная конфигурация обучения

Обучение на нескольких GPU

Конфигурация оптимизации памяти

Подробное описание параметров

Основные параметры

Параметры обучения

Специфичные для модели параметры

Мониторинг обучения

Интеграция с Weights & Biases

Мониторинг ключевых метрик

Оценка модели

Сохранение и загрузка моделей

Скрипт оценки производительности

Развертывание и вывод

Пример вывода в реальном времени

Лучшие практики

Рекомендации по подготовке данных

Рекомендации по оптимизации обучения

Рекомендации по оптимизации оборудования

Часто задаваемые вопросы (FAQ)

Q: Какие преимущества имеет SmolVLA по сравнению с другими моделями VLA?

Q: Сколько времени занимает обучение?

Q: Как определить, сошлась ли модель?

Q: Что делать, если недостаточно видеопамяти?

Q: Как улучшить производительность модели?

Связанные ресурсы

Журнал изменений