LeRobotデータセット
LeRobotは、HuggingFaceが提供するロボット学習と強化学習シナリオ向けのオープンソース標準化データセットソリューションです。研究者がロボット学習実験を共有、比較、再現しやすくする統一フォーマットを提供します。
データのエクスポート
IOデータプラットフォームは、VLA(Vision-Language-Action)モデルの訓練に直接使用できるLeRobotフォーマットでのデータエクスポートをサポートしています。このフォーマットには、ロボット操作の視覚情報、言語指示、動作データの完全なマッピングが含まれています。
エクスポートには高い計算リソースが必要なため、IOデータオープンプラットフォームの無料版では、ユーザーごとのエクスポート数が制限されています。有料版ではこの制限がなく、GPU加速によりエクスポート速度を向上させることができます。
1. エクスポートするデータの選択
まずデータにアノテーションを行う必要があります。アノテーションは動作と自然言語指示を関連付けるもので、VLAモデルの訓練に不可欠です。このプロセスにより、モデルが言語コマンドを理解し、対応するロボット動作に変換できるようになります。
アノテーションの方法や迅速なバッチアノテーションについては、ドキュメントを参照してください:データアノテーション
アノテーション完了後、エクスポート画面で関連するアノテーション済みデータを確認し、特定のデータサブセットを選択してエクスポートできます。
データセット名はカスタマイズできます。Hugging Faceにデータをアップロードする予定の場合は、myproject/myrepo1
のような標準的なリポジトリ名形式を使用することをお勧めします。これにより、後続の公開プロセスが簡素化されます。
選択するデータ量が多いほど、エクスポート速度は遅くなります。一度にすべてをエクスポートするのではなく、タスクタイプ別に選択することをお勧めします。これにより、エクスポート速度が向上し、後続のデータ管理とモデル訓練も容易になります。