SmolVLA 模型微调
概述
SmolVLA(Small Vision-Language-Action)是由 HuggingFace 开发的轻量级视觉-语言-动作模型,专为机器人学习任务设计。该模型仅有 450M 参数,适合在消费级硬件上运行,是进行机器人学习研究和开发的理想选择。
先决条件
系统要求
- 操作系统:Linux(推荐 Ubuntu 20.04+)或 macOS
- Python 版本:3.8+
- GPU:NVIDIA GPU(推荐 RTX 3080 或更高),至少 8GB 显存
- 内存:至少 16GB RAM
- 存储空间:至少 50GB 可用空间
环境准备
1. 安装 LeRobot
# 克隆 LeRobot 仓库
git clone https://github.com/huggingface/lerobot.git
cd lerobot
# 创建虚拟环境
conda create -n lerobot python=3.10
conda activate lerobot
# 安装依赖
pip install -e .
2. 安装额外依赖
# 安装 Flash Attention(可选,用于加速训练)
pip install flash-attn --no-build-isolation
# 安装 Weights & Biases(用于实验跟踪)
pip install wandb
wandb login