モデル訓練
Embodiflowデータプラットフォームは、データ前処理からモデル展開まで、エンドツーエンドのワークフローをサポートする包括的なロボット学習モデル訓練機能を提供します。プラットフォームは様々な主流のロボット学習アルゴリズムを統合し、研究者と開発者に効率的なモデル訓練環境を提供します。
製品の特徴
柔軟なアーキテクチャ
製品は階層化アーキテクチャ設計を採用し、システムの拡張性を確保します。訓練の計算力は複数の選択肢をサポートします:
- プライベートクラウド:ローカルデータセンターのGPUサーバーを使用(マルチGPU並列訓練をサポート)
- パブリッククラウド:クラウドサービスプロバイダーの計算リソースをオンデマンドでレンタル(実際の訓練時間で課金)
データからモデルまで
プラットフォームは、データ収集、アノテーション、エクスポート、訓練ファインチューニング、モデル展開の完全なデータパイプラインをカバーしています。
サポートされるモデルタイプ
プラットフォームは、視覚-言語-行動融合、模倣学習、強化学習などの技術的アプローチをカバーする、ロボット分野の主流学習モデルをサポートします:
視覚-言語-行動モデル
- SmolVLA - 自然言語指示、視覚知覚、ロボット行動のエンドツーエンド学習を行う軽量マルチモーダルモデル
- OpenVLA - 複雑なシーン理解と操作計画をサポートする大規模事前訓練視覚-言語-行動モデル
模倣学習モデル
- ACT (Action Chunking Transformer) - 連続行動シーケンスを離散チャンクに分解して学習するTransformerベースの行動チャンクモデル
- PI0 - 専門家デモデータを通じて初期ポリシーを迅速に学習するゼロ次ポリシー最適化アルゴリズム
- PI0Fast - 収束速度を向上させる改良された訓練戦略を持つPI0アルゴリズムの最適化版
ポリシー学習モデル
- Diffusion Policy - ノイズ除去プロセスを通じて連続的なロボット行動軌道を生成する拡散プロセスベースのポリシー学習
- VQBET - 連続行動空間を離散化してTransformerでモデリングするベクトル量子化行動変換器
強化学習モデル
- SAC (Soft Actor-Critic) - 連続行動空間で探索と活用のバランスを取る最大エントロピー強化学習アルゴリズム
- TDMPC - モデルベース計画とモ デルフリー学習の利点を組み合わせた時間差分モデル予測制御
備考
上記のモデルは主流の技術的アプローチをカバーし、様々なロボットタスクに応用できます。例えば:
応用シナリオ | 使用モデル | 説明 |
---|---|---|
デスク整理タスク | SmolVLA, PI0 | ロボットは「デスク上のアイテムを整理してください」などの自然言語指示を理解し、把握、移動、配置動作を実行できます |
アイテム分類タスク | ACT | 専門家の分類デモを学習することで、ロボットは異なるアイテムを識別してカテゴリ別に分類できます |
複雑操作タスク | Diffusion Policy | ロボットは組み立て、料理など精密制御が必要な複雑操作シーケンスの実行を学習できます |
適応制御 | SACなどの強化学習アルゴリズム | ロボットは動的環境で最適制御戦略を学習し、環境変化に適応できます |
訓練ワークフロー
プラットフォームは製品化された訓練プロセスを提供し、コーディング 能力を必要とせず、ウェブページを通じてデータ準備からモデル展開まで完全な操作チェーンを実現します:
1. データ準備
プラットフォームは複数のデータソースをサポートします:
- プラットフォームエクスポートデータ - プラットフォームでアノテーションされエクスポートされたロボットデモデータを使用
- 外部データセット - URLリンクを通じてパブリックデータセットをインポート
- ローカルデータアップロード - HDF5、LeRobotなどの標準フォーマットをサポート
- HuggingFaceデータセット - HuggingFace Hubから直接パブリックデータを取得
2. 訓練設定
計算リソース選択
- プライベートクラウド計算力 - 専用GPUサーバーを使用、長期訓練タスクに適している
- パブリッククラウドリソース - RunPod、AWS、Tencent Cloud、Alibaba Cloudなど様々なクラウドサービスをサポート
- GPU選択 - メモリ使用量、温度、利用率などGPU状態をリアルタイム表示
モデルアーキテクチャ選択
具体的なタスク要件に基づいて適切なモデルを選択:
- 自然言語指示理解が必要なタスクには、SmolVLAまたはOpenVLAを選択
- 専門家デモデータがある模倣学習タスクには、ACT、PI0、またはPI0Fastを選択
- オンライン学習が必要なタスクには、SACまたはTDMPCを選択
訓練パラメータ設定
- 基本パラメータ - batch_size、訓練ステップ数、ランダムシードなど
- 最適化パラメータ - 学習率、オプティマイザタイプ、学習率スケジューリング戦略
- モデルパラメータ - ACTのchunk_size、観測ステップ数などモデル固有パラメータ
- 監視パラメータ - 評価頻度、ログ記録頻度、チェックポイント保存戦略
訓練開始後、プラットフォームは完全な監視と管理機能を提供:
リアルタイム監視
- 訓練指標 - 損失関数、検証精度、学習率などの主要指標のリアルタイム可視化
- モデル出力 - 訓練中の予測サンプル、モデル学習進捗の観察に便利
- システムログ - 詳細な訓練ログとエラー情報、問題のトラブルシューティングをサポート
訓練管理
- プロセス制御 - 訓練タスクの一時停止、再開、停止をサポート
- チェックポイント管理 - モデルチェックポイントを自動保存、訓練再開とバージョンロールバックをサポート
- パラメータ調整 - 学習率などの主要パラメータのオンライン調整
- タスク複製 - 成功した訓練設定に基づいて新しいタスクを迅速に作成
4. モデル評価とエク スポート
訓練完了後、プラットフォームはモデルエクスポートとワンクリック推論展開機能を提供:
これで、Embodiflowデータプラットフォームを使用して専用モデルを便利かつ迅速に訓練し、次の章でモデル展開と実機推論を完了できます。