运维监控
系统运行时,如何及时发现和解决问题?
典型场景:
- 数据导出任务失败,需要查看失败原因
- 系统响应变慢,需要检查资源使用情况
- 用户报告问题,需要查看操作日志定位原因
- 需要了解系统整体运行状态和健康情况
运维监控模块就是为了解决这些问题而设计的。通过实时监控、日志查询、任务管理等功能,帮助管理员了解系统运行状态,快速定位和解决问题。
监控概览
如何查看系统整体状态?
关键指标:
监控概览页面显示系统整体运行状态:
- 数据库延迟:数据库响应时间,反映数据库性能
- Redis 延迟:Redis 响应时间,反映缓存性能
- 队列积压:等待处理的任务数量,反映系统负载
时间范围选择:
- 1 小时:查看最近 1 小时的数据,适合实时监控
- 24 小时:查看最近 24 小时的数据,适合日常监控
- 7 天:查看最近 7 天的数据,适合趋势分析
指标趋势:
- 实时显示各项指标的变化趋势
- 支持图表可视化展示
- 识别异常和峰值
立即采集:
- 手动触发数据采集
- 更新最新监控数据
- 用于实时问题 排查
系统信息
如何查看系统基本信息?
系统信息:
- 系统版本和构建信息
- 运行时间和启动时间
- 主机名和操作系统
- CPU 核心数和总内存
服务状态:
- 数据库连接状态
- Redis 连接状态
- 存储服务状态
- 各服务的运行状态
这些信息帮助了解系统的基本运行环境。
系统日志
如何查看访问日志?
使用场景:查看用户访问记录,分析访问模式,排查访问问题。
日志信息:
- 请求时间
- 请求路径和方法
- 响应状态码
- 响应时间
- 用户信息
- IP 地址
查询功能:
- 按时间范围筛选
- 按路径搜索
- 按状态码筛选
- 按用户筛选
如何查看活跃用户?
使用场景:了解当前在线用户,监控用户活动。
信息显示:
- 用户名称和角色
- 最后活跃时间
- 会话持续时间
- 访问路径
- IP 地址
统计功能:
- 当前在线用户数
- 今日活跃用户数
- 用户访问统计
如何查看登录日志?
使用场景:监控用户登录情况,发现异常登录行为。
日志信息:
- 登录时间
- 用户名称
- 登录 IP 地址
- 登录状态(成功/失败)
- 失败原因(如登录失败)
查询功能:
- 按用户筛选
- 按 IP 地址筛选
- 按时间范围筛选
- 按登录状态筛选
如何查看操作日志?(3.3.0 新增)
使用场景:审计 用户操作,追踪数据变更,排查问题。
记录的操作:
- 数据创建、修改、删除
- 任务创建和分配
- 训练任务创建和启动
- 推理服务部署
- 系统配置修改
- 用户管理操作
日志信息:
- 操作时间
- 操作用户
- 操作类型
- 操作对象
- 操作结果
- IP 地址
查询功能:
- 按用户筛选
- 按操作类型筛选
- 按时间范围筛选
- 按 IP 地址筛选
如何查看流程日志?
使用场景:查看工作流执行情况,排查工作流问题。
日志信息:
- 流程执行时间
- 流程名称和 ID
- 执行状态
- 匹配规则和动作规则
- 执行结果
查询功能:
- 按流程筛选
- 按时间范围筛选
- 按执行状态筛选
后台任务
如何管理任务队列?
任务队列类型:
- 系统队列:处理系统级任务(元数据同步、预处理等)
- 导出队列:处理数据导出任务
队列管理:
- 查看任务数量:等待、进行中、已完成、失败
- 暂停/恢复队列:临时暂停或恢复队列处理
- 清空等待队列:清空所有等待中的任务
- 批量重试:批量重试所有失败的任务
- 清理历史:清理 24 小时之前已完成或失败的任务
任务详情:
- 任务名称和类型
- 任务状态和进度
- 创建时间和完成时间
- 错误信息(如失败)
- 任务参数和结果
任务操作:
- 查看任务详情
- 重试失败任务
- 取消等待中的任务
- 删除已完成的任务
提示
暂停队列会影响新任务的执行,清空队列会删除等待中的任务,请谨 慎操作。
导出记录
如何查看导出历史?
使用场景:查看所有数据导出任务的记录,了解导出情况。
记录信息:
- 导出时间
- 导出格式(HDF5、LeRobot、MCAP 等)
- 导出状态(待处理、处理中、已完成、失败)
- 包含的数据集
- 文件大小和下载链接
- 操作人信息
查询功能:
- 按导出格式筛选
- 按状态筛选
- 按时间范围筛选
- 按用户筛选
- 搜索特定导出任务
操作功能:
- 查看导出详情
- 下载导出文件
- 查看导出进度
- 重试失败的导出
常见问题
如何快速定位系统问题?
排查步骤:
- 查看监控概览,了解系 统整体状态
- 检查关键指标是否异常
- 查看系统日志,定位具体问题
- 检查后台任务,确认任务执行情况
- 根据日志信息采取相应措施
队列积压怎么办?
处理方法:
- 查看队列中的任务数量和类型
- 识别积压原因(任务过多、处理速度慢等)
- 采取相应措施:
- 增加处理资源
- 暂停新任务
- 清理不需要的任务
- 优化任务处理速度
如何查看用户操作历史?
查看方法:
- 进入"系统日志" > "操作日志"
- 按用户筛选
- 查看该用户的所有操作记录
- 可以按时间范围进一步筛选
适用角色
管理员
你可以:
- 实时监控系统运行状态
- 查看和分 析系统日志
- 管理后台任务队列
- 排查系统故障
- 优化系统性能
- 进行安全审计
运维人员
你可以:
- 监控系统资源使用情况
- 查看服务运行状态
- 管理任务队列
- 处理系统告警
- 维护系统稳定运行
相关功能
完成运维监控后,你可能还需要: