Мониторинг состояния в MatrixUI

Мониторинг состояния — это ключевая функция эксплуатации и обслуживания, предоставляемая YMatrix.
Она выполняет проактивный контроль работоспособности кластера базы данных с помощью предопределённых проверок.
Система заранее выявляет потенциальные проблемы и своевременно уведомляет администраторов для обеспечения стабильности.
Эта функция предназначена в первую очередь для администраторов баз данных и разработчиков.
Она поддерживает многомерные проверки, включая мониторинг доступности кластера, обнаружение тайм-аутов запросов и транзакций и оповещения о превышении времени ожидания блокировок.

Ключевые преимущества мониторинга состояния:

  • Проактивные оповещения: выявление рисков до возникновения сбоев вместо реактивного устранения последствий.
  • Автоматизированные уведомления: отправка оповещений в реальном времени по электронной почте или другим каналам.
  • История событий: ведение журнала всех сработавших правил для последующего анализа инцидентов и выявления первопричин.
  • Гибкая настройка: возможность адаптировать параметры проверок и политики мониторинга под требования бизнеса.

Доступ к странице

Путь навигации

  1. Войдите в интерфейс управления MatrixUI
    Откройте в браузере следующий адрес (IP-адрес по умолчанию — это IP-адрес управляющего узла Master):
    http://<IP>:8240
  2. В левой панели навигации выберите Health Monitoring.
  3. По умолчанию открывается вкладка Check Configuration.

Структура страницы

Страница мониторинга состояния состоит из следующих разделов:

  • Check List Area: отображает все предопределённые проверки состояния.
  • Configuration Action Area: содержит кнопки для включения/отключения или редактирования проверок.
  • Event History Area: сохраняет журнал всех сработавших оповещений.

Управление предопределёнными проверками

Категории проверок

Check Category Specific Check Item Monitoring Dimension Default Status
Disk Monitoring Disk space will be exhausted within 7 days Disk Space Enabled
Disk Monitoring Disk space below 20% Disk Space Enabled
Disk Monitoring Abnormal disk growth detected within 1 day Disk Space Enabled
Disk Monitoring Disk full Disk Space Enabled
Disk Monitoring Database set to read-only when disk usage exceeds threshold Disk Space Disabled
Cluster Monitoring Cluster unavailable Cluster Status Enabled
Transaction Monitoring Long-running uncommitted transaction Transaction Status Enabled
Lock Monitoring Lock wait timeout Lock Status Enabled

Настройка проверок

Включение или отключение проверки

  1. Найдите нужную проверку в списке.
  2. Щёлкните переключатель справа от элемента (зелёный — включено, серый — отключено).
  3. Система немедленно применяет изменение статуса.

Image 1

Редактирование параметров проверки

  1. Найдите нужную проверку в списке.
  2. Нажмите кнопку Edit справа.
  3. В диалоговом окне настройте следующие параметры:
    • Alert Level: задаёт серьёзность события.
    • Parameter Configuration: определяет условие срабатывания проверки (например, порог использования дискового пространства).
    • Check Interval: задаёт частоту автоматического запуска проверки (например, раз в 1 час).
  4. Нажмите Save, чтобы немедленно применить изменения.

Image 2

Настройка интервалов проверок

  • Интервалы указываются в часах (например, «1h» означает один раз в час).
  • У некоторых проверок отсутствует настройка интервала: они срабатывают реактивно при обновлении зависимых данных.
  • После изменения и сохранения интервала система отменяет предыдущую запланированную задачу, немедленно выполняет проверку и запускает новый цикл согласно новому интервалу.

Image 3

Подробное описание проверок дискового пространства (нововведение в v6.7.1)

Автоматический режим «только для чтения» при нехватке места на диске

Описание функции: начиная с MatrixUI v6.7.1, новое правило автоматически переводит базу данных в режим «только для чтения», если использование диска превышает заданный порог. Это предотвращает дальнейшие операции записи, которые могут полностью исчерпать дисковое пространство.
Статус по умолчанию: правило отключено и требует ручного включения.

Настройка правила «только для чтения»

  1. Перейдите на вкладку Check Configuration в разделе Health Monitoring.
  2. В категории Disk найдите соответствующую проверку.
  3. Нажмите Edit и настройте следующее:
    • Parameter Configuration: укажите порог использования диска (например, 90%).
  4. Включите проверку и сохраните конфигурацию.

Image 4
Image 5

Настройка оповещений

Настройка email-уведомлений

  1. На странице Health Monitoring найдите раздел Notification Configuration.
  2. Нажмите Configure Email, чтобы открыть диалог настройки email.
  3. Укажите следующие данные:
    • Адрес SMTP-сервера
    • Номер порта SMTP
    • Адрес отправителя
    • Пароль отправителя
    • Адреса получателей (можно указать несколько)
  4. Нажмите Test Send, чтобы проверить конфигурацию.
  5. Нажмите Save, чтобы завершить настройку.

Формат оповещения

При срабатывании правила система отправляет email-оповещение, содержащее:

  • Описание события
  • Время срабатывания
  • Затронутую область
  • Рекомендуемые действия

Image 6

Просмотр и анализ истории событий

Просмотр истории

  1. Перейдите на вкладку Event History в разделе Health Monitoring.
  2. События отображаются в обратном хронологическом порядке по умолчанию.
  3. Можно фильтровать события по:
    • Типу события
    • Временному диапазону
    • Уровню оповещения

Просмотр деталей события

  1. Найдите нужное событие в списке.
  2. Нажмите кнопку Details справа.
  3. В диалоговом окне отображаются:
    • ID события
    • Время срабатывания
    • Описание события
    • Затронутые объекты
    • Статус решения

Распространённые вопросы и решения

  1. Как восстановить работу после срабатывания правила «только для чтения»?
    После активации правила выполните следующие действия:
    a. Освободите место на диске: удалите ненужные файлы журналов, временные файлы и т.п.
    b. Временно отключите правило: нажмите Disable Rule and Restore в баннере оповещения, чтобы временно обойти правило.

    Image 7

  2. Как проверить корректность работы мониторинга состояния?
    Проверьте функциональность следующим образом:
    a. Имитируйте нехватку места на диске: создайте большие файлы, чтобы достичь порогового значения.
    b. Имитируйте долгую транзакцию: запустите транзакцию и не завершайте её в течение длительного времени.
    c. Проверьте оповещения: убедитесь, что соответствующие email-уведомления получены.

Рекомендации

Рекомендации по настройке проверок

  • Мониторинг диска: обязательно включите проверки «Disk space below 20%» и «Disk space will be exhausted within 7 days».
  • Мониторинг транзакций: устанавливайте порог длительных транзакций в соответствии с бизнес-требованиями; рекомендуется ≤ 30 минут.
  • Мониторинг блокировок: настраивайте тайм-аут ожидания блокировки с учётом уровня параллелизма; рекомендуется ≤ 5 минут.

Рекомендации по настройке уведомлений

  • Получатели: укажите как минимум два email-адреса, чтобы избежать пропуска оповещений.
  • Частота уведомлений: для часто срабатывающих правил установите период охлаждения (например, один раз в час).
  • Тестирование: всегда выполняйте тестовую отправку после первоначальной настройки, чтобы убедиться в доставке.

Рекомендации по регулярному обслуживанию

  • Регулярный обзор: проверяйте историю событий еженедельно для выявления и устранения скрытых проблем.
  • Настройка параметров: периодически корректируйте параметры проверок с учётом роста бизнеса и изменений нагрузки на систему.