LeRobotデータセット
LeRobotはHuggingFaceがオープ ンソースで提供する、ロボット学習や強化学習向けの標準化データセットソリューションです。統一されたフォーマットを提供することで、研究者がロボット学習実験の共有・比較・再現をより簡単に行えるようにします。
データのエクスポート
AIOデータプラットフォームは、データをLeRobotフォーマットでエクスポートすることをサポートしており、VLA(Vision-Language-Action)モデルのトレーニングに直接利用できます。このフォーマットには、ロボット操作の視覚情報、言語指示、アクションデータの完全なマッピングが含まれています。
エクスポートには高い計算リソースが必要なため、AIOデータオープンプラットフォームの無料版ではユーザーごとのエクスポート数に制限があります。有料版では制限がなく、GPU加速によってエクスポート速度も向 上します。
1. エクスポートするデータの選択
まずデータのアノテーションが必要です。アノテーションはアクションと自然言語指示を対応させるために行い、VLAモデルのトレーニングに不可欠です。このプロセスにより、モデルが言語コマンドを理解し、それをロボットの動作に変換できるようになります。
アノテーションが完了すると、エクスポート画面で該当データが表示され、特定のサブセットを選択してエクスポートできます。
データセット名は自由に設定できます。Hugging Faceにアップロードする場合は、myproject/myrepo1
のような標準的なリポジトリ名にすることを推奨します。これにより公開プロセスが簡単になります。
選択するデータ量が多いほどエクスポートに時間がかかります。タスクごとに分けて選択し、一度に全てをエクスポートしないことを推奨します。これによりエクスポートが速くなり、データ管理やモデル学習も容易になります。
2. エクスポートファイルのダウンロードと解凍
エクスポートにはデータ量やシステム負荷によって数十分かかる場合があります。進捗は自動で更新されるので、後でエクスポートページに戻って結果を確認できます。
エクスポートが成功すると、画面右側の エクスポート履歴 に データをダウンロード ボタンが表示され、クリックすると .tar.gz 形式の圧縮ファイルがダウンロードされます。
ファイルの混乱を避けるため、例として~/Downloads/mylerobot3
のような空のディレクトリを作成し、そこで解凍することを推奨します。
解凍後のファイル構成は標準的なLeRobotデータセットフォーマットに準拠しており、視覚データ・状態情報・アクションラベルが含まれます。
データの閲覧
データ内容を素早く閲覧・理解・デバッグするための代表的な可視化方法は2つあります。用途に応じて使い分けてください。
シーン | 方法 | メリット |
---|---|---|
ローカル開発・デバッグ | Rerun SDKでローカル閲覧 | 機能が豊富・高いインタラクティブ性・ネットワーク不要 |
クイックプレビュー・デモ | Hugging Faceでオンライン閲覧 | インストール不要・共有しやすい・いつでもアクセス可能 |
1. Rerun SDKによるローカル閲覧
ローカルでlerobot
リポジトリをダウンロード・インストールし、lerobot/scripts/visualize_dataset.py
を使ってRerun SDKで時系列のインタラクティブなマルチモーダルデータ(画像・状態・アクション等)を閲覧できます。最も多機能でカスタマイズ性も高い方法です。
Rerun SDKのインストール
Python 3.10以上を使用し、以下のコマンドで必要な依存関係をインストールしてください。
python3 -m pip install rerun-sdk==0.23.1
git clone https://github.com/lerobot-ai/lerobot.git # リポジトリをクローン
cd lerobot
pip install -e . # 開発モードでインストール
可視化スクリプトの起動
python3 lerobot/scripts/visualize_dataset.py \
--repo-id io-ai-data/lerobot_dataset \
--root ~/Downloads/mylerobot3 \
--episode-index 0
パラメータ説明:
--repo-id
:Hugging Faceデータセット名(例:io-ai-data/lerobot_dataset
)--root
: LeRobotデータのローカルパス(解凍ディレクトリを指定)--episode-index
:閲覧したいエピソードのインデックス(0から開始)
.rrdファイルとして保存
可視化結果をRerun形式で保存し、オフライン閲覧やチーム共有が可能です。
python3 lerobot/scripts/visualize_dataset.py \
--repo-id io-ai-data/lerobot_dataset \
--root ~/Downloads/mylerobot3 \
--episode-index 0 \
--save 1 \
--output-dir ./rrd_out
# 後でオフライン閲覧
rerun ./rrd_out/lerobot_pusht_episode_0.rrd
リモートWebSocketモード
サーバー上のデータをローカルで閲覧したい場合は、WebSocketモードを利用できます。
# サーバー側
python3 lerobot/scripts/visualize_dataset.py \
--repo-id io-ai-data/lerobot_dataset \
--root ~/Downloads/mylerobot3 \
--episode-index 0 \
--mode distant \
--ws-port 9091
# ローカル側
rerun ws://サーバーIP:9091
2. Hugging Face Spacesによるオンライン閲覧
ローカル環境のインストール不要で、LeRobotはHugging Face Spacesベースのオンライン可視化ツールも提供しています。素早いプレビューやチームとの共有に最適です。
オンライン可視化には、データをHugging Faceのリポジトリにアップロードする必要があります。無料アカウ ントでは公開リポジトリのみ可視化可能です。プライバシーを保ちたい場合は有料プランやローカル可視化を検討してください。
操作手順
- ページを開く:https://huggingface.co/spaces/lerobot/visualize_dataset
- Dataset Repo IDに
io-ai-data/lerobot_dataset
などを入力 - Episode Indexに
0
などを入力 - データセット分割(デフォルトは"train")を選択
- 「ロード」ボタンをクリックし、データの読み込みと表示を待つ
主な機能
- 複数チャンネルの動画(RGB・Depth等)の同期再生
- 状態・制御データのリアルタイム折れ線グラフ表示
- 言語指示とタイムスタンプの対応表示
- Gradioベースの直感的なUI、プログラミング不要
- 再生速度調整やフレーム単位再生に対応
関連リンク
- LeRobot GitHub:https://github.com/huggingface/lerobot
- LeRobot Datasets:https://huggingface.co/lerobot
- Hugging Faceオンライン可視化ツール:https://huggingface.co/spaces/lerobot/visualize_dataset
- Rerun公式サイト:https://www.rerun.io/