跳到主要内容

运维监控

系统运行时,如何及时发现和解决问题?

典型场景:

  • 数据导出任务失败,需要查看失败原因
  • 系统响应变慢,需要检查资源使用情况
  • 用户报告问题,需要查看操作日志定位原因
  • 需要了解系统整体运行状态和健康情况

运维监控模块就是为了解决这些问题而设计的。通过实时监控、日志查询、任务管理等功能,帮助管理员了解系统运行状态,快速定位和解决问题。

监控概览

如何查看系统整体状态?

关键指标:

监控概览页面显示系统整体运行状态:

  • 数据库延迟:数据库响应时间,反映数据库性能
  • Redis 延迟:Redis 响应时间,反映缓存性能
  • 队列积压:等待处理的任务数量,反映系统负载

时间范围选择:

  • 1 小时:查看最近 1 小时的数据,适合实时监控
  • 24 小时:查看最近 24 小时的数据,适合日常监控
  • 7 天:查看最近 7 天的数据,适合趋势分析

指标趋势:

  • 实时显示各项指标的变化趋势
  • 支持图表可视化展示
  • 识别异常和峰值

立即采集:

  • 手动触发数据采集
  • 更新最新监控数据
  • 用于实时问题排查

系统信息

如何查看系统基本信息?

系统信息:

  • 系统版本和构建信息
  • 运行时间和启动时间
  • 主机名和操作系统
  • CPU 核心数和总内存

服务状态:

  • 数据库连接状态
  • Redis 连接状态
  • 存储服务状态
  • 各服务的运行状态

这些信息帮助了解系统的基本运行环境。

系统日志

如何查看访问日志?

使用场景:查看用户访问记录,分析访问模式,排查访问问题。

日志信息:

  • 请求时间
  • 请求路径和方法
  • 响应状态码
  • 响应时间
  • 用户信息
  • IP 地址

查询功能:

  • 按时间范围筛选
  • 按路径搜索
  • 按状态码筛选
  • 按用户筛选

如何查看活跃用户?

使用场景:了解当前在线用户,监控用户活动。

信息显示:

  • 用户名称和角色
  • 最后活跃时间
  • 会话持续时间
  • 访问路径
  • IP 地址

统计功能:

  • 当前在线用户数
  • 今日活跃用户数
  • 用户访问统计

如何查看登录日志?

使用场景:监控用户登录情况,发现异常登录行为。

日志信息:

  • 登录时间
  • 用户名称
  • 登录 IP 地址
  • 登录状态(成功/失败)
  • 失败原因(如登录失败)

查询功能:

  • 按用户筛选
  • 按 IP 地址筛选
  • 按时间范围筛选
  • 按登录状态筛选

如何查看操作日志?(3.3.0 新增)

使用场景:审计用户操作,追踪数据变更,排查问题。

记录的操作:

  • 数据创建、修改、删除
  • 任务创建和分配
  • 训练任务创建和启动
  • 推理服务部署
  • 系统配置修改
  • 用户管理操作

日志信息:

  • 操作时间
  • 操作用户
  • 操作类型
  • 操作对象
  • 操作结果
  • IP 地址

查询功能:

  • 按用户筛选
  • 按操作类型筛选
  • 按时间范围筛选
  • 按 IP 地址筛选

如何查看流程日志?

使用场景:查看工作流执行情况,排查工作流问题。

日志信息:

  • 流程执行时间
  • 流程名称和 ID
  • 执行状态
  • 匹配规则和动作规则
  • 执行结果

查询功能:

  • 按流程筛选
  • 按时间范围筛选
  • 按执行状态筛选

后台任务

如何管理任务队列?

任务队列类型:

  • 系统队列:处理系统级任务(元数据同步、预处理等)
  • 导出队列:处理数据导出任务

队列管理:

  • 查看任务数量:等待、进行中、已完成、失败
  • 暂停/恢复队列:临时暂停或恢复队列处理
  • 清空等待队列:清空所有等待中的任务
  • 批量重试:批量重试所有失败的任务
  • 清理历史:清理 24 小时之前已完成或失败的任务

任务详情:

  • 任务名称和类型
  • 任务状态和进度
  • 创建时间和完成时间
  • 错误信息(如失败)
  • 任务参数和结果

任务操作:

  • 查看任务详情
  • 重试失败任务
  • 取消等待中的任务
  • 删除已完成的任务
提示

暂停队列会影响新任务的执行,清空队列会删除等待中的任务,请谨慎操作。

导出记录

如何查看导出历史?

使用场景:查看所有数据导出任务的记录,了解导出情况。

记录信息:

  • 导出时间
  • 导出格式(HDF5、LeRobot、MCAP 等)
  • 导出状态(待处理、处理中、已完成、失败)
  • 包含的数据集
  • 文件大小和下载链接
  • 操作人信息

查询功能:

  • 按导出格式筛选
  • 按状态筛选
  • 按时间范围筛选
  • 按用户筛选
  • 搜索特定导出任务

操作功能:

  • 查看导出详情
  • 下载导出文件
  • 查看导出进度
  • 重试失败的导出

常见问题

如何快速定位系统问题?

排查步骤:

  1. 查看监控概览,了解系统整体状态
  2. 检查关键指标是否异常
  3. 查看系统日志,定位具体问题
  4. 检查后台任务,确认任务执行情况
  5. 根据日志信息采取相应措施

队列积压怎么办?

处理方法:

  1. 查看队列中的任务数量和类型
  2. 识别积压原因(任务过多、处理速度慢等)
  3. 采取相应措施:
    • 增加处理资源
    • 暂停新任务
    • 清理不需要的任务
    • 优化任务处理速度

如何查看用户操作历史?

查看方法:

  1. 进入"系统日志" > "操作日志"
  2. 按用户筛选
  3. 查看该用户的所有操作记录
  4. 可以按时间范围进一步筛选

适用角色

管理员

你可以:

  • 实时监控系统运行状态
  • 查看和分析系统日志
  • 管理后台任务队列
  • 排查系统故障
  • 优化系统性能
  • 进行安全审计

运维人员

你可以:

  • 监控系统资源使用情况
  • 查看服务运行状态
  • 管理任务队列
  • 处理系统告警
  • 维护系统稳定运行

相关功能

完成运维监控后,你可能还需要: