メインコンテンツまでスキップ

LeRobotデータセット

LeRobotはHuggingFaceがオープンソースで提供する、ロボット学習や強化学習向けの標準化データセットソリューションです。統一されたフォーマットを提供することで、研究者がロボット学習実験の共有・比較・再現をより簡単に行えるようにします。

データのエクスポート

AIOデータプラットフォームは、データをLeRobotフォーマットでエクスポートすることをサポートしており、VLA(Vision-Language-Action)モデルのトレーニングに直接利用できます。このフォーマットには、ロボット操作の視覚情報、言語指示、アクションデータの完全なマッピングが含まれています。

ヒント

エクスポートには高い計算リソースが必要なため、AIOデータオープンプラットフォームの無料版ではユーザーごとのエクスポート数に制限があります。有料版では制限がなく、GPU加速によってエクスポート速度も向上します。

1. エクスポートするデータの選択

まずデータのアノテーションが必要です。アノテーションはアクションと自然言語指示を対応させるために行い、VLAモデルのトレーニングに不可欠です。このプロセスにより、モデルが言語コマンドを理解し、それをロボットの動作に変換できるようになります。

アノテーションが完了すると、エクスポート画面で該当データが表示され、特定のサブセットを選択してエクスポートできます。

エクスポートするデータの選択

データセット名は自由に設定できます。Hugging Faceにアップロードする場合は、myproject/myrepo1のような標準的なリポジトリ名にすることを推奨します。これにより公開プロセスが簡単になります。

ヒント

選択するデータ量が多いほどエクスポートに時間がかかります。タスクごとに分けて選択し、一度に全てをエクスポートしないことを推奨します。これによりエクスポートが速くなり、データ管理やモデル学習も容易になります。

2. エクスポートファイルのダウンロードと解凍

エクスポートにはデータ量やシステム負荷によって数十分かかる場合があります。進捗は自動で更新されるので、後でエクスポートページに戻って結果を確認できます。

エクスポートが成功すると、画面右側の エクスポート履歴データをダウンロード ボタンが表示され、クリックすると .tar.gz 形式の圧縮ファイルがダウンロードされます。

エクスポート結果

ファイルの混乱を避けるため、例として~/Downloads/mylerobot3のような空のディレクトリを作成し、そこで解凍することを推奨します。

新しいディレクトリの作成

解凍後のファイル構成は標準的なLeRobotデータセットフォーマットに準拠しており、視覚データ・状態情報・アクションラベルが含まれます。

データの解凍

データの閲覧

データ内容を素早く閲覧・理解・デバッグするための代表的な可視化方法は2つあります。用途に応じて使い分けてください。

シーン方法メリット
ローカル開発・デバッグRerun SDKでローカル閲覧機能が豊富・高いインタラクティブ性・ネットワーク不要
クイックプレビュー・デモHugging Faceでオンライン閲覧インストール不要・共有しやすい・いつでもアクセス可能

1. Rerun SDKによるローカル閲覧

ローカルでlerobotリポジトリをダウンロード・インストールし、lerobot/scripts/visualize_dataset.pyを使ってRerun SDKで時系列のインタラクティブなマルチモーダルデータ(画像・状態・アクション等)を閲覧できます。最も多機能でカスタマイズ性も高い方法です。

Rerun SDKのインストール

Python 3.10以上を使用し、以下のコマンドで必要な依存関係をインストールしてください。

python3 -m pip install rerun-sdk==0.23.1
git clone https://github.com/lerobot-ai/lerobot.git # リポジトリをクローン
cd lerobot
pip install -e . # 開発モードでインストール

可視化スクリプトの起動

python3 lerobot/scripts/visualize_dataset.py \
--repo-id io-ai-data/lerobot_dataset \
--root ~/Downloads/mylerobot3 \
--episode-index 0

パラメータ説明:

  • --repo-id:Hugging Faceデータセット名(例:io-ai-data/lerobot_dataset
  • --root: LeRobotデータのローカルパス(解凍ディレクトリを指定)
  • --episode-index:閲覧したいエピソードのインデックス(0から開始)

.rrdファイルとして保存

可視化結果をRerun形式で保存し、オフライン閲覧やチーム共有が可能です。

python3 lerobot/scripts/visualize_dataset.py \
--repo-id io-ai-data/lerobot_dataset \
--root ~/Downloads/mylerobot3 \
--episode-index 0 \
--save 1 \
--output-dir ./rrd_out

# 後でオフライン閲覧
rerun ./rrd_out/lerobot_pusht_episode_0.rrd

リモートWebSocketモード

サーバー上のデータをローカルで閲覧したい場合は、WebSocketモードを利用できます。

# サーバー側
python3 lerobot/scripts/visualize_dataset.py \
--repo-id io-ai-data/lerobot_dataset \
--root ~/Downloads/mylerobot3 \
--episode-index 0 \
--mode distant \
--ws-port 9091

# ローカル側
rerun ws://サーバーIP:9091

2. Hugging Face Spacesによるオンライン閲覧

ローカル環境のインストール不要で、LeRobotはHugging Face Spacesベースのオンライン可視化ツールも提供しています。素早いプレビューやチームとの共有に最適です。

ヒント

オンライン可視化には、データをHugging Faceのリポジトリにアップロードする必要があります。無料アカウントでは公開リポジトリのみ可視化可能です。プライバシーを保ちたい場合は有料プランやローカル可視化を検討してください。

操作手順

  1. ページを開く:https://huggingface.co/spaces/lerobot/visualize_dataset
  2. Dataset Repo IDにio-ai-data/lerobot_datasetなどを入力
  3. Episode Indexに0などを入力
  4. データセット分割(デフォルトは"train")を選択
  5. 「ロード」ボタンをクリックし、データの読み込みと表示を待つ

主な機能

  • 複数チャンネルの動画(RGB・Depth等)の同期再生
  • 状態・制御データのリアルタイム折れ線グラフ表示
  • 言語指示とタイムスタンプの対応表示
  • Gradioベースの直感的なUI、プログラミング不要
  • 再生速度調整やフレーム単位再生に対応

関連リンク