LeRobotデータセット
LeRobotはHuggingFaceがオープンソースで提供する、ロボット学習や強化学習向けの標準化データセットソリューションです。統一されたフォーマットを提供することで、研究者がロボット学習実験の共有・比較・再現をより簡単に行えるようにします。
データのエクスポート
AIOデータプラットフォームは、データをLeRobotフォーマットでエクスポートすることをサポートしており、VLA(Vision-Language-Action)モデルのトレーニングに直接利用できます。このフォーマットには、ロボット操作の視覚情報、言語指示、アクションデータの完全なマッピングが含まれています。
エクスポートには高い計算リソースが必要なため、AIOデータオープンプラットフォームの無料版ではユーザーごとのエクスポート数に制限があります。有料版では制限がなく、GPU加速によってエクスポート速度も向上します。
1. エクスポートするデータの選択
まずデータのアノテーションが必要です。アノテーションはアクションと自然言語指示を対応させるために行い、VLAモデルのトレーニングに不可欠です。このプロセスにより、モデルが言語コマンドを理解し、それをロボットの動作に変換できるようになります。
アノテーションの方法や高速バッチアノテーションについては、ドキュメントをご参照ください:データアノテーション
アノテーションが完了すると、エクスポート画面で該当データが表示され、特定のサブセット を選択してエクスポートできます。
データセット名は自由に設定できます。Hugging Faceにアップロードする場合は、myproject/myrepo1
のような標準的なリポジトリ名にすることを推奨します。これにより公開プロセスが簡単になります。
選択するデータ量が多いほどエクスポートに時間がかかります。タスクごとに分けて選択し、一度に全てをエクスポートしないことを推奨します。これによりエクスポートが速くなり、データ管理やモデル学習も容易になります。