メインコンテンツまでスキップ

運用監視

システムが実行中に、問題をタイムリーに発見し、解決するにはどうすればよいでしょうか?

典型的なシナリオ:

  • データエクスポートタスクが失敗し、失敗原因を確認する必要がある
  • システム応答が遅くなり、リソース使用状況を確認する必要がある
  • ユーザーが問題を報告し、操作ログを確認して原因を特定する必要がある
  • システム全体の運用状態と健全性を理解する必要がある

運用監視モジュールは、これらの問題を解決するために設計されています。リアルタイム監視、ログクエリ、タスク管理などの機能を通じて、管理者がシステム運用状態を理解し、迅速に問題を特定し、解決できるようにします。

監視概要

システム全体の状態を確認するには?

主要指標:

監視概要ページはシステム全体の運用状態を表示します:

  • データベースレイテンシ:データベース応答時間、データベースパフォーマンスを反映
  • Redisレイテンシ:Redis応答時間、キャッシュパフォーマンスを反映
  • キュー積み:処理待ちのタスク数、システム負荷を反映

時間範囲選択:

  • 1時間:過去1時間のデータを確認、リアルタイム監視に適している
  • 24時間:過去24時間のデータを確認、日常監視に適している
  • 7日:過去7日のデータを確認、トレンド分析に適している

指標トレンド:

  • 様々な指標の変化をリアルタイムで表示
  • チャート可視化をサポート
  • 異常とピークを識別

即座に収集:

  • 手動でデータ収集をトリガー
  • 最新の監視データを更新
  • リアルタイム問題トラブルシューティングに使用

システム情報

基本システム情報を確認するには?

システム情報:

  • システムバージョンとビルド情報
  • 実行時間と起動時間
  • ホスト名とオペレーティングシステム
  • CPUコア数と総メモリ

サービス状態:

  • データベース接続状態
  • Redis接続状態
  • ストレージサービス状態
  • 各サービスの実行状態

この情報は、システムの基本運用環境を理解するのに役立ちます。

システムログ

アクセスログを確認するには?

使用シーン:ユーザーアクセス記録を確認し、アクセスパターンを分析し、アクセス問題をトラブルシューティングする。

ログ情報:

  • リクエスト時間
  • リクエストパスとメソッド
  • 応答ステータスコード
  • 応答時間
  • ユーザー情報
  • IPアドレス

クエリ機能:

  • 時間範囲でフィルタリング
  • パスで検索
  • ステータスコードでフィルタリング
  • ユーザーでフィルタリング

アクティブユーザーを確認するには?

使用シーン:現在のオンラインユーザーを理解し、ユーザー活動を監視する。

情報表示:

  • ユーザー名とロール
  • 最後のアクティブ時間
  • セッション継続時間
  • アクセスパス
  • IPアドレス

統計機能:

  • 現在のオンラインユーザー数
  • 今日のアクティブユーザー数
  • ユーザーアクセス統計

ログインログを確認するには?

使用シーン:ユーザーログイン状況を監視し、異常ログイン行為を発見する。

ログ情報:

  • ログイン時間
  • ユーザー名
  • ログインIPアドレス
  • ログイン状態(成功/失敗)
  • 失敗原因(ログイン失敗の場合)

クエリ機能:

  • ユーザーでフィルタリング
  • IPアドレスでフィルタリング
  • 時間範囲でフィルタリング
  • ログイン状態でフィルタリング

操作ログを確認するには?(3.3.0で新規追加)

使用シーン:ユーザー操作を監査し、データ変更を追跡し、問題をトラブルシューティングする。

記録される操作:

  • データの作成、修正、削除
  • タスクの作成と割り当て
  • 訓練タスクの作成と起動
  • 推論サービスのデプロイ
  • システム設定の修正
  • ユーザー管理操作

ログ情報:

  • 操作時間
  • 操作ユーザー
  • 操作タイプ
  • 操作オブジェクト
  • 操作結果
  • IPアドレス

クエリ機能:

  • ユーザーでフィルタリング
  • 操作タイプでフィルタリング
  • 時間範囲でフィルタリング
  • IPアドレスでフィルタリング

ワークフローログを確認するには?

使用シーン:ワークフロー実行状況を確認し、ワークフロー問題をトラブルシューティングする。

ログ情報:

  • ワークフロー実行時間
  • ワークフロー名とID
  • 実行状態
  • マッチングルールとアクションルール
  • 実行結果

クエリ機能:

  • ワークフローでフィルタリング
  • 時間範囲でフィルタリング
  • 実行状態でフィルタリング

バックグラウンドタスク

タスクキューを管理するには?

タスクキュータイプ:

  • システムキュー:システムレベルのタスクを処理(メタデータ同期、前処理など)
  • エクスポートキュー:データエクスポートタスクを処理

キュー管理:

  • タスク数を確認:待機中、進行中、完了、失敗
  • キューを一時停止/再開:キュー処理を一時的に一時停止または再開
  • 待機キューをクリア:すべての待機中のタスクをクリア
  • バッチリトライ:すべての失敗タスクをバッチリトライ
  • 履歴をクリーンアップ:24時間以上前に完了または失敗したタスクをクリーンアップ

タスク詳細:

  • タスク名とタイプ
  • タスク状態と進捗
  • 作成時間と完了時間
  • エラー情報(失敗の場合)
  • タスクパラメータと結果

タスク操作:

  • タスク詳細を確認
  • 失敗タスクをリトライ
  • 待機中のタスクをキャンセル
  • 完了したタスクを削除

⚠️ 注意:キューを一時停止すると新規タスクの実行に影響し、キューをクリアすると待機中のタスクが削除されるため、慎重に操作してください。

エクスポート記録

エクスポート履歴を確認するには?

使用シーン:すべてのデータエクスポートタスクの記録を確認し、エクスポート状況を理解する。

記録情報:

  • エクスポート時間
  • エクスポート形式(HDF5、LeRobot、MCAPなど)
  • エクスポート状態(待機中、処理中、完了、失敗)
  • 含まれるデータセット
  • ファイルサイズとダウンロードリンク
  • 操作者情報

クエリ機能:

  • エクスポート形式でフィルタリング
  • 状態でフィルタリング
  • 時間範囲でフィルタリング
  • ユーザーでフィルタリング
  • 特定のエクスポートタスクを検索

操作機能:

  • エクスポート詳細を確認
  • エクスポートファイルをダウンロード
  • エクスポート進捗を確認
  • 失敗したエクスポートをリトライ

よくある質問

システム問題を迅速に特定するには?

トラブルシューティング手順:

  1. 監視概要を確認し、システム全体の状態を把握
  2. 主要指標が異常かどうかを確認
  3. システムログを確認し、具体的な問題を特定
  4. バックグラウンドタスクを確認し、タスク実行状況を確認
  5. ログ情報に基づいて対応措置を講じる

キュー積みはどうすればよいか?

処理方法:

  1. キュー内のタスク数とタイプを確認
  2. 積みの原因を識別(タスクが多すぎる、処理速度が遅いなど)
  3. 対応措置を講じる:
    • 処理リソースを増やす
    • 新規タスクを一時停止
    • 不要なタスクをクリーンアップ
    • タスク処理速度を最適化

ユーザー操作履歴を確認するには?

確認方法:

  1. 「システムログ」>「操作ログ」に入る
  2. ユーザーでフィルタリング
  3. そのユーザーのすべての操作記録を確認
  4. 時間範囲でさらにフィルタリング可能

適用ロール

管理者

あなたは以下を行うことができます:

  • システム運用状態をリアルタイムで監視
  • システムログを確認し、分析
  • バックグラウンドタスクキューを管理
  • システム障害をトラブルシューティング
  • システムパフォーマンスを最適化
  • セキュリティ監査を実施

運用担当者

あなたは以下を行うことができます:

  • システムリソース使用状況を監視
  • サービス実行状態を確認
  • タスクキューを管理
  • システムアラートを処理
  • システムの安定運用を維持

関連機能

運用監視を完了した後、以下も必要になる場合があります: