模型训练
训练机器人学习模型通常需要处理数据、配置环境、编写训练脚本、监控训练过程等多个步骤。对于非技术人员来说,这个过程既复杂又容易出错。
平台提供了产品化的训练流程,无需编写代码,通过网页界面就能完成从数据准备到模型部署的完整操作。你只需要选择数据、选择模型、配置参数,然后点击开始训练。
快速上手:3 步开始训练
第 1 步:准备训练数据
训练数据可以来自多个来源。对平台内已入库的 ROS 录制数据(如 MCAP,后续亦支持 bag、db3 等),建议在导出或发起训练前完成 质量检测 中的规则配置与结果确认(预处理完成后自动执行,支持全局与项目范围),以降低劣质数据进入训练的概率。
平台导出数据(推荐):
- 在数据导出页面,选择已标注的数据集
- 选择 LeRobot 或 HDF5 格式导 出
- 导出完成后,在训练页面选择"平台导出数据"
- 从导出历史中选择对应的导出记录

其他数据来源:
- 外部数据集:通过 URL 链接导入公开数据集
- 本地数据上传:支持 HDF5、LeRobot 等标准格式
- HuggingFace 数据集:直接从 HuggingFace Hub 获取公开数据
第 2 步:选择模型和计算资源
选择模型类型:
根据你的任务需求选择合适的模型:
| 任务类型 | 推荐模型 | 说明 |
|---|---|---|
| 理解自然语言指令 | SmolVLA、OpenVLA、Pi0 | 机器人可理解"请整理桌面"等指令并执行 |
| 模仿专家演示 | ACT、Pi0、Pi0.5 | 通过学习专家演示学习操作技能 |
| 复杂操作序列 | Diffusion Policy | 学习如组装、烹饪等需要精确控制的任务 |
| 动态环境适应 | SAC、TDMPC | 在动态环境中学习最优控制策略 |
选择计算资源:
-
本地 GPU:使用本地机房的 GPU 服务器
- 支持多 GPU 并行训练
- 实时显示 GPU 状态(显 存使用、温度、利用率)
- 适合大规模数据集和长时间训练
-
公有云资源:按需租赁云服务商的算力
- RunPod、AWS EC2/SageMaker、腾讯云、阿里云等
- 按实际训练时长计费
- 适合临时性训练任务或资源扩展需求

第 3 步:配置参数并开始训练
基础参数:
- batch_size(批次大小):建议范围 1-32,根据 GPU 显存调整
- steps(训练步数):建议从 10000 开始,根据验证结果调整
- eval_freq(评估频率):每多少步进行一次评估,建议为总步数的 10%
学习率设置:
- optimizer_lr(学习率):建议范围 1e-4 到 1e-5
- 过大导致训练不稳定,过小收敛慢
- 对于预训练模型微调,建议降低学习率(1e-5)
模型特定参数:
不同模型有各自的特定参数,系统会根据选择的模型显示对应的参数配置项。
配置完成后,点击"开始训练"即可。

支持的模型类型
平台支持机器人领域的主流学习模型,涵盖多种技术路线:
视觉-语言-动作模型
SmolVLA:轻量级多模态模型,将自然语言指令、视觉感知和机器人动作进行端到端学习。适合资源受限的场景,实时响应,资源友好。
OpenVLA:大规模预训练的视觉-语言-动作模型,支持复杂的场景理解和操作规划。适合需要强大理解能力的任务。
GR00T:多模态 GR00T 策略,支持视觉与语言联合规划,具备强大的通用操作能力。
模仿学习模型
ACT (Action Chunking Transformer):基于 Transformer 架构的动作分块模型,将连续动作序列分解为离散块进行学习。适合有专家演示数据的任务。
Pi0:Physical Intelligence 开源的旗舰 VLA 模型,通过 OpenPI 框架进行微调,具备极强的通用操作能力。详见:Pi0 微调指南
Pi0.5:增强版 Pi 模型,具有更好的泛化能力和开放世界适应性,支持更复杂的操作任务。
策略学习 模型
Diffusion Policy:基于扩散过程的策略学习,通过去噪过程生成连续的机器人动作轨迹。生成的动作平滑自然。
VQBET:向量量化行为变换器,将连续动作空间离散化后使用 Transformer 进行建模。
强化学习模型
SAC (Soft Actor-Critic):最大熵强化学习算法,在连续动作空间中平衡探索与利用。
TDMPC:时间差分模型预测控制,结合基于模型的规划和无模型的学习优势。
奖励学习模型
Reward Classifier:奖励函数学习模型,从标注数据学习奖励信号,用于强化学习训练。
训练工作流程
平台覆盖了从数据采集到模型部署的完整流程: