Монторинг и визуализация данных в Grafana

Grafana — это система визуализации данных, которая позволяет создавать дашборды для мониторинга метрик из различных источников.

Вход в Grafana осуществляется по сконфигурированному заранее логину и паролю. По умолчанию открывается стартовое окно приложения с левой вертикальной панелью, где отображаются инструменты.

Левую вертикальную панель можно зафиксировать кнопкой .

Preview

Стартовая страница Grafana

Основной инструмент, который используется для мониторинга ESB – это дашборды (Dashboards) каталога Grafana.

Preview

Каталог дашбордов Grafana

Ниже приведены некоторые типы визуализаций, которые могут использоваться в дашбордах:

Графики временных рядов (Time Series) — показывают изменение метрик во времени (например, загрузка CPU).

Круговые диаграммы (Pie Charts) — могут использоваться для отображения распределения ресурсов.

Таблицы — используются для детального просмотра числовых данных.

Можно настраивать панели: менять названия, диапазоны времени, фильтры, цвета и другие параметры. Например, можно добавить аннотации (специальные отметки на графиках) для обозначения событий, которые повлияли на метрики.

Дашборд можно кастомизировать под свои нужды: добавлять или удалять панели, менять их расположение, настраивать запросы к метрикам.

В Grafana представлены дашборды для мониторинга Bercut ESB, описанные в таблице ниже.

Дашборд	Описание
Apache Camel - Context view	Мониторинг и анализ работы по среде исполнения интеграционных потоков Camel. Дашборд обеспечивает возможность мониторинга ключевых показателей работы контекстов Apache Camel на уровне производительности. Он собирает и визуализирует метрики, которые помогают оценить нагрузку, успешность обработки сообщений и время выполнения.
Application Logs View	Просмотр логов.
ESB Components Monitoring	Информация об состоянии компонентов ESB.
ESB Processing Time Copy	Общая информация по процессам ESB.
ESB System Monitoring Overview	Общая информация о состоянии среды исполнения (Runtime).
JVM (Micrometer)	Низкоуровневая информация о состоянии виртуальной машины Java на каждом сервисе.
KeyCloak Metrics	ESB IAM (Identity and Access Management) - информация о процессах управления идентификацией и доступом.
Kong (official)	Детальная информация по входящим и исходящим запросам по API Gateway.
Node Exporter Full	Комплексный обзор состояния виртуальных машин, на которых развернута платформа Bercut ESB, включая данные о CPU, памяти, дисках, сети и других параметрах.
Spring Boot Observability	Информация о внутреннем состоянии сервисов с разным уровнем детализации (пересекается с Spring Boot Statistics & Endpoint Metrics).
Spring Boot Statistics & Endpoint Metrics	Информация о внутреннем состоянии сервисов с разным уровнем детализации (пересекается с Spring Boot Observability).

Дашборд Node Exporter Full

Node Exporter Full предназначен для отображения метрик, собираемых с виртуальных машин, на которых развернуто решение Bercut ESB. Метриками могут быть, например, потребление CPU, памяти, заполнение дискового пространства и другие параметры.

Вы можете:

быстро оценивать состояние системы по ключевым метрикам;
детализировать данные через зумирование и фильтры;
настраивать отображение под свои задачи;
диагностировать проблемы с помощью аннотаций и оповещений.

Дашборд Node Exporter Full включает набор панелей с логически сгруппированными графиками по определенным аспектам работы ESB. Панели можно разворачивать и сворачивать.

Preview

Список панелей Node Exporter Full

При открытии дашборда первая панель Multi-Host Overview отображается в развернутом виде. Multi-Host Overview позволяет получить обзор состояния множества хостов или ресурсов в одном дашборде.

Preview

Интерфейс Node Explorer Full

В верхней части экрана Node Exporter Full расположены элементы управления:

Временной диапазон (Time range) — например, Last 6 hours, Last 24 hours. Можно задать кастомный период.
Автообновление (Refresh) — интервал обновления данных (например, каждые 30 секунд или 1 минуту).

Просмотр данных

Наведите курсор на график — появится всплывающая подсказка с точными значениями метрики в выбранной точке времени.
Используйте зумирование (Zoom): выделите область на графике левой кнопкой мыши — масштаб изменится, чтобы показать выбранный период подробнее. Чтобы уменьшить график, кликните два раза на графике левой кнопкой мыши.

Для детального просмотра графиков и управления ими пользуйтесь контекстным меню в правом верхнем углу любого виджета с графиком.

Preview

Контекстное меню графика

Анализ и диагностика

Используйте дашборд для поиска следующих проблем:

Для просмотра потребления CPU — проверьте графики CPU и Load.
Для проверки RAM — смотрите Memory и Swap. Рост Swap usage указывает на дефицит RAM.
Для проверки диска — смотрите показатели I/O или рост ошибок в Network. Высокий показатель I/O или рост ошибок Network могут сигнализировать о сбоях.
При резких скачках метрик используйте зумирование, чтобы найти точное время события.

В следующих подразделах приведено описание примеров панелей и графиков данного дашборда, которые вы можете использовать для мониторинга и анализа состояния системы.

Панель Quick CPU / Mem / Disk

Панель Quick CPU / Mem / Disk - это компактная обзорная панель, которая отображает ключевые метрики состояния виртуальных машин в виде диаграмм с процентом загрузки.

Preview

Панель Quick CPU / Mem / Disk

Pressure – сколько времени задачи на сервере простаивают из-за нехватки ресурсов — CPU, памяти или I/O.
CPU Busy – общий процент загрузки процессора (в среднем по всем ядрам)
Sys Load – системная нагрузка на все ядра процессора
RAM used – реальное использование оперативной памяти без учета кэша и освобождаемой памяти
SWAP Used – процент пространства подкачки, используемого системой в данный момент
Root FS Used – загрузка корневой файловой системы

Эти параметры должны находиться в зеленой зоне. Если параметры системы перешли в красную зону, то это является поводом обратиться к администратору системы с целью выявления причин поведения системы.

Также, на панели Quick CPU / Mem / Disk вы можете видеть такие характеристики системы, как количество ядер, объем корневой файловой системы, RAM, SWAP, время бесперебойной работы и т.д.

График загрузки CPU – CPU Basic

В системе ESB критически важно отслеживать пользовательские процессы. Такой анализ производится в первую очередь на основании показателей графика состояния CPU, где можно отследить прохождение потоков ESB. При высокой загрузке процессора этот график позволяет определить какие именно процессы дают повышенную нагрузку.

График CPU Basic можно просмотреть на панели Basic CPU / Mem / Net / Disk.

Если на графике CPU Basic виден выраженный всплеск, то необходимо выяснить его причины.

Preview

Всплеск загрузки CPU

Пример:

На графике на рисунке наблюдается высокий уровень Iowait, что означает, что процессор значительную часть времени находится в состоянии ожидания данных. Простой CPU может быть вызван следующими причинами:

Узкое место в дисковой подсистеме,
Проблемы с сетевым хранилищем,
Нехватка оперативной памяти (RAM),
Неоптимизированные процессы,
и т.д.

На графике CPU Basic отслеживаются следующие метрики:

Busy system – системная загрузка (CPU, память, диск, сеть)
Busy User – загрузка CPU пользовательскими процессами
Busy Iowait – оценка времени, которое CPU проводит в ожидании завершения операций ввода-вывода (I/O)
BusyIRQs – оценка времени, в течение которого процессор находится в состоянии прерываний (IRQs)
Busy Other – прочие задачи процессора
Idle – время бездействия процессора.

Все эти показатели важны для последующего исправления ошибок в случае снижения производительности системы.

График загрузки RAM - Memory Basic

Для оценки потребления RAM предназначен график Memory Basic на этой же панели Basic CPU / Mem / Net / Disk.

Preview

График потребления памяти Memory Basic

На графике Memory Basic отслеживаются следующие метрики:

Total – общий объем используемой памяти
Used – объём оперативной памяти (RAM), который в данный момент занят процессами и данными. Метрика показывает, сколько памяти фактически используется, за вычетом буферов и кэша, которые потенциально могут быть освобождены.
Cache + Buffer – объем памяти, занятый кэшем (может быть оперативно освобождена) и буфером (временные данные).
Free – объем свободной памяти
Swap used – объем памяти, занятый Swap (подкачка). Активно используемые файлы подкачки могут сигнализировать о нехватке RAM.

Наиболее важным критерием для системы является объем использованной памяти, поэтому оценивается в первую очередь параметр Free. Его запас должен было достаточным для нормальной производительности системы – не меньше 20 %. Соответственно, показатель RAM used на панели Quick CPU / Mem / Disk должен быть не более 80 %.

Preview

RAM used и Memory Basic

Дашборд Node Exporter Full​

Просмотр данных​

Анализ и диагностика​

Панель Quick CPU / Mem / Disk​

График загрузки CPU – CPU Basic​

График загрузки RAM - Memory Basic​

Дашборд Node Exporter Full

Просмотр данных

Анализ и диагностика

Панель Quick CPU / Mem / Disk

График загрузки CPU – CPU Basic

График загрузки RAM - Memory Basic