MatrixUI 健康监测

健康监测是 YMatrix 提供的核心运维管理功能,旨在通过预定义的检测规则,主动监控数据库集群的运行状态,及时发现并通知潜在问题,确保系统稳定运行。该功能主要面向数据库管理员和开发人员,提供 集群可用性监控、查询事务超时检测、锁等待超时告警 等多维度的健康检查能力。 健康监测功能的核心价值在于:

  • 主动预警 :替代被动等待问题发生,提前识别风险
  • 自动化通知 :通过电子邮件等渠道实时推送告警信息
  • 历史追溯 :记录所有触发事件,便于事后分析和问题定位
  • 灵活配置 :支持用户根据业务需求调整检查项参数和监控策略

页面访问

入口路径

  1. 登录 MatrixUI 管理界面
    在浏览器里输入机器的 IP(默认是 Master 的 IP)、端口号,登陆图形化界面。
     http://<IP>:8240
  2. 在左侧导航栏中找到并点击 健康监测 选项
  3. 系统默认显示 检查项配置 Tab 页

页面布局

健康监测页面主要包含以下区域:

  • 检查项列表区 :展示所有预定义的健康检查项
  • 配置操作区 :提供启用 / 禁用、编辑检查项的功能按钮
  • 事件历史区 :记录所有触发的告警事件

预定义检查项管理

检查项分类

检查项分类 具体检查项 检查维度 默认状态
磁盘监控 磁盘剩余空间将在 7 天内用尽 磁盘空间 启用
磁盘监控 磁盘空间不足 20% 磁盘空间 启用
磁盘监控 磁盘空间不足 1 天内异常增长 磁盘空间 启用
磁盘监控 磁盘已满 磁盘空间 启用
磁盘监控 磁盘使用率到达阈值,数据库只读 磁盘空间 禁用
集群监控 集群不可用 集群状态 启用
事务监控 长事务不提交 事务状态 启用
锁监控 锁等待超时 锁状态 启用

检查项配置步骤

启用 / 禁用检查项

  1. 在检查项列表中找到目标检查项
  2. 点击检查项右侧的启用开关按钮 (绿色表示启用,灰色表示禁用)
  3. 系统会立即应用状态变更

图片1

编辑检查项参数

  1. 在检查项列表中找到目标检查项
  2. 点击检查项右侧的 编辑 按钮
  3. 在弹出的配置弹窗中调整以下参数:
  • 告警等级 :控制事件的重要程度
  • 参数配置 :控制检查项的判断条件(如磁盘空间阈值)
  • 检查周期 :控制检查项的自动运行时间间隔(如 1 小时)
  1. 点击保存按钮,配置将立即生效

图片2

检查周期设置说明

  • 检查周期 以小时为单位,例如 "1h" 表示每 1 小时运行一次
  • 部分检查项没有检查周期配置,表示该检查项会根据依赖数据源的更新事件被动触发
  • 更改检查周期并保存后,系统会取消之前的等待任务,立即运行一次检查,然后开始新的检查周期

图片3

磁盘监控检查项详解(6.7.1 新增功能)

磁盘空间不足自动只读规则

功能说明 :MatrixUI 在 6.7.1 版本新增了健康监测规则,当磁盘使用量低于一定阈值时,系统会自动将数据库设置为只读模式,防止数据写入导致磁盘空间耗尽。 默认状态 :该规则默认情况下不启用,需要用户手动配置。

磁盘只读规则配置步骤

  1. 进入健康监测页面的 检查项配置 Tab 页
  2. 在 磁盘 分类下找到相关检查项
  3. 点击 编辑 按钮,配置以下参数:
  • 参数配置 :设置磁盘空间阈值(如 90% 使用率)
  1. 启用该检查项并保存配置

图片4 图片5

告警通知配置

邮箱通知设置

  1. 在健康监测页面找到 通知配置 区域
  2. 点击 配置邮箱 按钮,弹出邮箱配置弹窗
  3. 输入以下信息:
  • SMTP 服务器地址
  • SMTP 端口号
  • 发件人邮箱地址
  • 发件人邮箱密码
  • 收件人邮箱地址(可添加多个)
  1. 点击 测试发送 按钮,验证配置是否正确
  2. 点击 保存 按钮,完成邮箱配置

告警通知样式

当健康监测规则被触发时,系统会发送包含以下信息的告警邮件:

  • 告警事件描述
  • 触发时间
  • 影响范围
  • 建议处理措施

图片6

事件历史查看与分析

事件列表查看

  1. 在健康监测页面切换到 事件历史 Tab 页
  2. 系统默认按照 最新一次发生时间倒序排序 显示事件
  3. 支持按以下条件筛选事件:
  • 事件类型
  • 发生时间范围
  • 告警等级

    事件详情查看

  1. 在事件列表中找到目标事件
  2. 点击事件右侧的 详情 按钮
  3. 在弹出的详情弹窗中查看:
  • 事件 ID
  • 触发时间
  • 事件描述
  • 影响对象
  • 处理状态

常见问题与解决方案

  1. 磁盘只读规则触发后如何恢复?
    当磁盘只读规则被触发后,用户可以通过以下方式恢复:
    a.清理磁盘空间 :删除不必要的日志文件、临时文件等
    b.手动屏蔽规则 :在告警 banner 中点击 禁用规则并恢复 按钮,临时禁用该规则

图片7

  1. 如何测试健康监测功能是否正常工作?
    可以通过以下方法测试:
    a. 模拟磁盘空间不足 :创建大文件填充磁盘空间至阈值
    b. 模拟长事务 :执行长时间未提交的事务
    c. 检查告警通知 :确认是否收到相应的告警邮件

最佳实践建议

检查项配置建议

  • 磁盘监控 :建议至少启用 "磁盘空间不足 20%" 和 "磁盘剩余空间将在 7 天内用尽" 两个检查项
  • 事务监控 :根据业务特点设置长事务阈值,建议不超过 30 分钟
  • 锁监控 :根据并发情况设置锁等待超时阈值,建议不超过 5 分钟

    告警通知配置建议

  • 收件人设置 :建议配置至少 2 个收件人邮箱,确保告警不被遗漏
  • 通知频率 :对于频繁触发的告警,建议设置通知间隔(如每小时一次)
  • 测试验证 :新配置后务必进行测试发送,确保通知渠道畅通

    日常运维建议

  • 定期检查 :建议每周检查一次健康监测事件历史,分析潜在问题
  • 参数调优 :根据业务发展和系统负载变化,定期调整检查项参数