Монторинг и визуализация данных в Grafana
Grafana — это система визуализации данных, которая позволяет создавать дашборды для мониторинга метрик из различных источников.
Вход в Grafana осуществляется по сконфигурированному заранее логину и паролю. По умолчанию открывается стартовое окно приложения с левой вертикальной панелью, где отображаются инструменты.
Левую вертикальную панель можно зафиксировать кнопкой .

Стартовая страница Grafana
Основной инструмент, который используется для мониторинга ESB – это дашборды (Dashboards) каталога Grafana.

Каталог дашбордов Grafana
Ниже приведены некоторые типы визуализаций, которые могут использоваться в дашбордах:
Графики временных рядов (Time Series) — показывают изменение метрик во времени (например, загрузка CPU).
Круговые диаграммы (Pie Charts) — могут использоваться для отображения распределения ресурсов.
Таблицы — используются для детального просмотра числовых данных.
Можно настраивать панели: менять названия, диапазоны времени, фильтры, цвета и другие параметры. Например, можно добавить аннотации (специальные отметки на графиках) для обозначения событий, которые повлияли на метрики.
Дашборд можно кастомизировать под свои нужды: добавлять или удалять панели, менять их расположение, настраивать запросы к метрикам.
В Grafana представлены дашборды для мониторинга Bercut ESB, описанные в таблице ниже.
| Дашборд | Описание |
|---|---|
| Apache Camel - Context view | Мониторинг и анализ работы по среде исполнения интеграционных потоков Camel. Дашборд обеспечивает возможность мониторинга ключевых показателей работы контекстов Apache Camel на уровне производительности. Он собирает и визуализирует метрики, которые помогают оценить нагрузку, успешность обработки сообщений и время выполнения. |
| Application Logs View | Просмотр логов. |
| ESB Components Monitoring | Информация об состоянии компонентов ESB. |
| ESB Processing Time Copy | Общая информация по процессам ESB. |
| ESB System Monitoring Overview | Общая информация о состоянии среды исполнения (Runtime). |
| JVM (Micrometer) | Низкоуровневая информация о состоянии виртуальной машины Java на каждом сервисе. |
| KeyCloak Metrics | ESB IAM (Identity and Access Management) - информация о процессах управления идентификацией и доступом. |
| Kong (official) | Детальная информация по входящим и исходящим запросам по API Gateway. |
| Node Exporter Full | Комплексный обзор состояния виртуальных машин, на которых развернута платформа Bercut ESB, включая данные о CPU, памяти, дисках, сети и других параметрах. |
| Spring Boot Observability | Информация о внутреннем состоянии сервисов с разным уровнем детализации (пересекается с Spring Boot Statistics & Endpoint Metrics). |
| Spring Boot Statistics & Endpoint Metrics | Информация о внутреннем состоянии сервисов с разным уровнем детализации (пересекается с Spring Boot Observability). |
Дашборд Node Exporter Full
Node Exporter Full предназначен для отображения метрик, собираемых с виртуальных машин, на которых развернуто решение Bercut ESB. Метриками могут быть, например, потребление CPU, памяти, заполнение дискового пространства и другие параметры.
Вы можете:
- быстро оценивать состояние системы по ключевым метрикам;
- детализировать данные через зумирование и фильтры;
- настраивать отображение под свои задачи;
- диагностировать проблемы с помощью аннотаций и оповещений.
Дашборд Node Exporter Full включает набор панелей с логически сгруппированными графиками по определенным аспектам работы ESB. Панели можно разворачивать и сворачивать.

Список панелей Node Exporter Full
При открытии дашборда первая панель Multi-Host Overview отображается в развернутом виде. Multi-Host Overview позволяет получить обзор состояния множества хостов или ресурсов в одном дашборде.

Интерфейс Node Explorer Full
В верхней части экрана Node Exporter Full расположены элементы управления:
- Временной диапазон (Time range) — например, Last 6 hours, Last 24 hours. Можно задать кастомный период.
- Автообновление (Refresh) — интервал обновления данных (например, каждые 30 секунд или 1 минуту).
Просмотр данных
- Наведите курсор на график — появится всплывающая подсказка с точными значениями метрики в выбранной точке времени.
- Используйте зумирование (Zoom): выделите область на графике левой кнопкой мыши — масштаб изменится, чтобы показать выбранный период подробнее. Чтобы уменьшить график, кликните два раза на графике левой кнопкой мыши.
Для детального просмотра графиков и управления ими пользуйтесь контекстным меню в правом верхнем углу любого виджета с графиком.

Контекстное меню графика
Анализ и диагностика
Используйте дашборд для поиска следующих проблем:
- Для просмотра потребления CPU — проверьте графики CPU и Load.
- Для проверки RAM — смотрите Memory и Swap. Рост Swap usage указывает на дефицит RAM.
- Для проверки диска — смотрите показатели I/O или рост ошибок в Network. Высокий показатель I/O или рост ошибок Network могут сигнализировать о сбоях.
- При резких скачках метрик используйте зумирование, чтобы найти точное время события.
В следующих подразделах приведено описание примеров панелей и графиков данного дашборда, которые вы можете использовать для мониторинга и анализа состояния системы.
Панель Quick CPU / Mem / Disk
Панель Quick CPU / Mem / Disk - это компактная обзорная панель, которая отображает ключевые метрики состояния виртуальных машин в виде диаграмм с процентом загрузки.

Панель Quick CPU / Mem / Disk
- Pressure – сколько времени задачи на сервере простаивают из-за нехватки ресурсов — CPU, памяти или I/O.
- CPU Busy – общий процент загрузки процессора (в среднем по всем ядрам)
- Sys Load – системная нагрузка на все ядра процессора
- RAM used – реальное использование оперативной памяти без учета кэша и освобождаемой памяти
- SWAP Used – процент пространства подкачки, используемого системой в данный момент
- Root FS Used – загрузка корневой файловой системы
Эти параметры должны находиться в зеленой зоне. Если параметры системы перешли в красную зону, то это является поводом обратиться к администратору системы с целью выявления причин поведения системы.
Также, на панели Quick CPU / Mem / Disk вы можете видеть такие характеристики системы, как количество ядер, объем корневой файловой системы, RAM, SWAP, время бесперебойной работы и т.д.
График загрузки CPU – CPU Basic
В системе ESB критически важно отслеживать пользовательские процессы. Такой анализ производится в первую очередь на основании показателей графика состояния CPU, где можно отследить прохождение потоков ESB. При высокой загрузке процессора этот график позволяет определить какие именно процессы дают повышенную нагрузку.
График CPU Basic можно просмотреть на панели Basic CPU / Mem / Net / Disk.
Если на графике CPU Basic виден выраженный всплеск, то необходимо выяснить его причины.

Всплеск загрузки CPU
Пример:
На графике на рисунке наблюдается высокий уровень Iowait, что означает, что процессор значительную часть времени находится в состоянии ожидания данных. Простой CPU может быть вызван следующими причинами:
- Узкое место в дисковой подсистеме,
- Проблемы с сетевым хранилищем,
- Нехватка оперативной памяти (RAM),
- Неоптимизированные процессы,
- и т.д.
На графике CPU Basic отслеживаются следующие метрики:
- Busy system – системная загрузка (CPU, память, диск, сеть)
- Busy User – загрузка CPU пользовательскими процессами
- Busy Iowait – оценка времени, которое CPU проводит в ожидании завершения операций ввода-вывода (I/O)
- BusyIRQs – оценка времени, в течение которого процессор находится в состоянии прерываний (IRQs)
- Busy Other – прочие задачи процессора
- Idle – время бездействия процессора.
Все эти показатели важны для последующего исправления ошибок в случае снижения производительности системы.
График загрузки RAM - Memory Basic
Для оценки потребления RAM предназначен график Memory Basic на этой же панели Basic CPU / Mem / Net / Disk.

График потребления памяти Memory Basic
На графике Memory Basic отслеживаются следующие метрики:
- Total – общий объем используемой памяти
- Used – объём оперативной памяти (RAM), который в данный момент занят процессами и данными. Метрика показывает, сколько памяти фактически используется, за вычетом буферов и кэша, которые потенциально могут быть освобождены.
- Cache + Buffer – объем памяти, занятый кэшем (может быть оперативно освобождена) и буфером (временные данные).
- Free – объем свободной памяти
- Swap used – объем памяти, занятый Swap (подкачка). Активно используемые файлы подкачки могут сигнализировать о нехватке RAM.
Наиболее важным критерием для системы является объем использованной памяти, поэтому оценивается в первую очередь параметр Free. Его запас должен было достаточным для нормальной производительности системы – не меньше 20 %. Соответственно, показатель RAM used на панели Quick CPU / Mem / Disk должен быть не более 80 %.

RAM used и Memory Basic