运维监控
系统运行时,如何及时发现和解决问题?
典型场景:
- 数据导出任务失败,需要查看失败原因
- 系统响应变慢,需要检查资源使用情况
- 用户报告问题,需要查看操作日志定位原因
- 需要了解系统整体运行状态和健康情况
运维监控模块就是为了解决这些问题而设计的。通过实时监控、日志查询、任务管理等功能,帮助管理员了解系统运行状态,快速定位和解决问题。
监控概览
如何查看系统整体状态?
关键指标:
监控概览页面显示系统整体运行状态:
- 数据库延迟:数据库响应时间,反映数据库性能
- Redis 延迟:Redis 响应时间,反映缓存性能
- 队列积压:等待处理的任务数量,反映系统负载
时间范围选择:
- 1 小时:查看最近 1 小时的数据,适合实时监控
- 24 小时:查看最近 24 小时的数据,适合日常监控
- 7 天:查看最近 7 天的数据,适合趋势分析
指标趋势:
- 实时显示各项指标的变化趋势
- 支持图表可视化展示
- 识别异常和峰值
立即采集:
- 手动触发数据采集
- 更新最新监控数据
- 用于实时问 题排查
系统信息
如何查看系统基本信息?
系统信息:
- 系统版本和构建信息
- 运行时间和启动时间
- 主机名和操作系统
- CPU 核心数和总内存
服务状态:
- 数据库连接状态
- Redis 连接状态
- 存储服务状态
- 各服务的运行状态
这些信息帮助了解系统的基本运行环境。
系统日志
如何查看访问日志?
使用场景:查看用户访问记录,分析访问模式,排查访问问题。
日志信息:
- 请求时间
- 请求路径和方法
- 响应状态码
- 响应时间
- 用户信息
- IP 地址
查询功能:
- 按时间范围筛选
- 按路径搜索
- 按状态码筛选
- 按用户筛选
如何查看活跃用户?
使用场景:了解当前在线用户,监控用户活动。
信息显示:
- 用户名称和角色
- 最后活跃时间
- 会话持续时间
- 访问路径
- IP 地址
统计功能:
- 当前在线用户数
- 今日活跃用户数
- 用户访问统计
如何查看登录日志?
使用场景:监控用户登录情况,发现异常登录行为。
日志信息:
- 登录时间
- 用户名称
- 登录 IP 地址
- 登录状态(成功/失败)
- 失败原因(如登录失败)
查询功能:
- 按用户筛选
- 按 IP 地址筛选
- 按时间范围筛选
- 按登录状态筛选
如何查看操作日志?(3.3.0 新增)
使用场景:审 计用户操作,追踪数据变更,排查问题。
记录的操作:
- 数据创建、修改、删除
- 任务创建和分配
- 训练任务创建和启动
- 推理服务部署
- 系统配置修改
- 用户管理操作
日志信息:
- 操作时间
- 操作用户
- 操作类型
- 操作对象
- 操作结果
- IP 地址
查询功能:
- 按用户筛选
- 按操作类型筛选
- 按时间范围筛选
- 按 IP 地址筛选
如何查看流程日志?
使用场景:查看工作流执行情况,排查工作流问题。
日志信息:
- 流程执行时间
- 流程名称和 ID
- 执行状态
- 匹配规则和动作规则
- 执行结果
查询功能:
- 按流程筛选
- 按时间范围筛选
- 按执行状态筛选