MatrixUI 健康监测
健康监测是 YMatrix 提供的核心运维管理功能,旨在通过预定义的检测规则,主动监控数据库集群的运行状态,及时发现并通知潜在问题,确保系统稳定运行。该功能主要面向数据库管理员和开发人员,提供 集群可用性监控、查询事务超时检测、锁等待超时告警 等多维度的健康检查能力。
健康监测功能的核心价值在于:
- 主动预警 :替代被动等待问题发生,提前识别风险
- 自动化通知 :通过电子邮件等渠道实时推送告警信息
- 历史追溯 :记录所有触发事件,便于事后分析和问题定位
- 灵活配置 :支持用户根据业务需求调整检查项参数和监控策略
页面访问
入口路径
- 登录 MatrixUI 管理界面
在浏览器里输入机器的 IP(默认是 Master 的 IP)、端口号,登陆图形化界面。 http://<IP>:8240
- 在左侧导航栏中找到并点击 健康监测 选项
- 系统默认显示 检查项配置 Tab 页
页面布局
健康监测页面主要包含以下区域:
- 检查项列表区 :展示所有预定义的健康检查项
- 配置操作区 :提供启用 / 禁用、编辑检查项的功能按钮
- 事件历史区 :记录所有触发的告警事件
预定义检查项管理
检查项分类
| 检查项分类 |
具体检查项 |
检查维度 |
默认状态 |
| 磁盘监控 |
磁盘剩余空间将在 7 天内用尽 |
磁盘空间 |
启用 |
| 磁盘监控 |
磁盘空间不足 20% |
磁盘空间 |
启用 |
| 磁盘监控 |
磁盘空间不足 1 天内异常增长 |
磁盘空间 |
启用 |
| 磁盘监控 |
磁盘已满 |
磁盘空间 |
启用 |
| 磁盘监控 |
磁盘使用率到达阈值,数据库只读 |
磁盘空间 |
禁用 |
| 集群监控 |
集群不可用 |
集群状态 |
启用 |
| 事务监控 |
长事务不提交 |
事务状态 |
启用 |
| 锁监控 |
锁等待超时 |
锁状态 |
启用 |
检查项配置步骤
启用 / 禁用检查项
- 在检查项列表中找到目标检查项
- 点击检查项右侧的启用开关按钮 (绿色表示启用,灰色表示禁用)
- 系统会立即应用状态变更

编辑检查项参数
- 在检查项列表中找到目标检查项
- 点击检查项右侧的 编辑 按钮
- 在弹出的配置弹窗中调整以下参数:
- 告警等级 :控制事件的重要程度
- 参数配置 :控制检查项的判断条件(如磁盘空间阈值)
- 检查周期 :控制检查项的自动运行时间间隔(如 1 小时)
- 点击保存按钮,配置将立即生效

检查周期设置说明
- 检查周期 以小时为单位,例如 "1h" 表示每 1 小时运行一次
- 部分检查项没有检查周期配置,表示该检查项会根据依赖数据源的更新事件被动触发
- 更改检查周期并保存后,系统会取消之前的等待任务,立即运行一次检查,然后开始新的检查周期

磁盘监控检查项详解(6.7.1 新增功能)
磁盘空间不足自动只读规则
功能说明 :MatrixUI 在 6.7.1 版本新增了健康监测规则,当磁盘使用量低于一定阈值时,系统会自动将数据库设置为只读模式,防止数据写入导致磁盘空间耗尽。
默认状态 :该规则默认情况下不启用,需要用户手动配置。
磁盘只读规则配置步骤
- 进入健康监测页面的 检查项配置 Tab 页
- 在 磁盘 分类下找到相关检查项
- 点击 编辑 按钮,配置以下参数:
- 参数配置 :设置磁盘空间阈值(如 90% 使用率)
- 启用该检查项并保存配置

告警通知配置
邮箱通知设置
- 在健康监测页面找到 通知配置 区域
- 点击 配置邮箱 按钮,弹出邮箱配置弹窗
- 输入以下信息:
- SMTP 服务器地址
- SMTP 端口号
- 发件人邮箱地址
- 发件人邮箱密码
- 收件人邮箱地址(可添加多个)
- 点击 测试发送 按钮,验证配置是否正确
- 点击 保存 按钮,完成邮箱配置
告警通知样式
当健康监测规则被触发时,系统会发送包含以下信息的告警邮件:

事件历史查看与分析
事件列表查看
- 在健康监测页面切换到 事件历史 Tab 页
- 系统默认按照 最新一次发生时间倒序排序 显示事件
- 支持按以下条件筛选事件:
- 在事件列表中找到目标事件
- 点击事件右侧的 详情 按钮
- 在弹出的详情弹窗中查看:
- 事件 ID
- 触发时间
- 事件描述
- 影响对象
- 处理状态
常见问题与解决方案
- 磁盘只读规则触发后如何恢复?
当磁盘只读规则被触发后,用户可以通过以下方式恢复:
a.清理磁盘空间 :删除不必要的日志文件、临时文件等
b.手动屏蔽规则 :在告警 banner 中点击 禁用规则并恢复 按钮,临时禁用该规则

- 如何测试健康监测功能是否正常工作?
可以通过以下方法测试:
a. 模拟磁盘空间不足 :创建大文件填充磁盘空间至阈值
b. 模拟长事务 :执行长时间未提交的事务
c. 检查告警通知 :确认是否收到相应的告警邮件
最佳实践建议
检查项配置建议
- 磁盘监控 :建议至少启用 "磁盘空间不足 20%" 和 "磁盘剩余空间将在 7 天内用尽" 两个检查项
- 事务监控 :根据业务特点设置长事务阈值,建议不超过 30 分钟
- 锁监控 :根据并发情况设置锁等待超时阈值,建议不超过 5 分钟
告警通知配置建议
- 收件人设置 :建议配置至少 2 个收件人邮箱,确保告警不被遗漏
- 通知频率 :对于频繁触发的告警,建议设置通知间隔(如每小时一次)
- 测试验证 :新配置后务必进行测试发送,确保通知渠道畅通
日常运维建议
- 定期检查 :建议每周检查一次健康监测事件历史,分析潜在问题
- 参数调优 :根据业务发展和系统负载变化,定期调整检查项参数