Главное Авторские колонки Вакансии Вопросы
Выбор редакции:
Выбор
редакции
373 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Как быстро найти причины сбоев и предотвратить отказ сервисов? Рассказала команда GMonit

На онлайн-встрече обсудили, как с помощью observability платформы можно оперативно реагировать на возникающие ошибки и свести к минимуму время простоя ПО.
Мнение автора может не совпадать с мнением редакции

17 апреля мы провели технический вебинар «Как расследовать ИТ-инциденты с GMonit — метрики сами подскажут ответ», в ходе которого обсудили, как определить источник и масштаб сбоев, выстроить непрерывное наблюдение за состоянием систем и минимизировать время простоя программ.


Юрий Махоткин, тимлид разработки GMonit, в рамках live demo разобрал кейс устранения инцидента в инфраструктуре с помощью observability платформы. Зрители трансляции получили практические рекомендации по оптимизации процессов и повышению устойчивости ПО. В рамках этой темы обсудили структуры «бабочки» и «рыбы» — визуальные и логические модели, которые помогают упорядочивать информацию о сбоях, выявлять корневые причины ошибок и выстраивать систему защиты от повторных нарушений.


Спикер показал методику расследования инцидентов — от автоматического детектирования проблем через алерты до глубокого мониторинга с использованием данных телеметрии. Участники узнали, как эффективно идентифицировать источник ошибок. Также специалист продемонстрировал ключевые графики и метрики, отражающие поведение программ:

  • время недоступности (downtime);
  • график количества ошибок (error rate);
  • среднее время отклика приложения (response time) на уровне транзакций и вызовов сервисов;
  • метрики производительности (performance metrics);
  • нагрузка на базу данных со стороны приложения (DB query rate/latency);
  • пример трассировки (tracing) обработки конкретного запроса — для анализа цепочки вызовов и выявления узких мест.

В заключение Юрий рассказал про настройку полезного алертинга и детектирование аномалий с ИИ в GMonit. Благодаря методам Machine Learning бизнес может предсказывать потенциальные риски и заранее принимать меры для защиты критичных сервисов. После — спикер провел сессию вопросов и ответов.

Предлагаем к просмотру видеозапись выступления:


Источник.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.