Главное Авторские колонки Вакансии Вопросы
😼
Выбор
редакции
1 312 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Мониторинг и метрики. Как правильно настроить мониторинг инфраструктуры интернет-магазина

Нельзя управлять тем, что нельзя измерить. В электронной коммерции измерять приходится все части проекта от загрузки сервера и отказоустойчивости веб-сайта до охвата аудитории, показов баннеров на веб-сайте, просмотра карточек товаров и количества оплаченных заказов.
Мнение автора может не совпадать с мнением редакции

Как настроен мониторинг интернет-магазинов на управляемом хостинге ASAP Lab

Для стабильной работы вашего проекта необходимо собирать и систематизировать метрики, а также визуализировать их на дашбордах. Хорошо настроенная система мониторинга постоянно проверяет инфраструктуру вашего бизнеса, чтобы работать с инцидентами до того, как они превратятся в настоящие катастрофы. Поэтому вы можете быть уверены, что все процессы стабильны и оптимизированы. Что должен включать в себя мониторинг:

✔️Проверку корректной работы базы данных SQL

✔️Оценку количества свободного места для хранения данных

✔️Проверку ответов сервере Nginx на запросы

✔️Оценка состояния сервера

Система должна быть «адекватной» и не слишком дорогой и сложной, чтобы удовлетворять основным принципам мониторинга:

1) отслеживать метрики, необходимые для принятия решений и

2) не превращать алертинг в спам.

Концепция оповещения

Очевидно, что вам не нужно контролировать абсолютно все параметры систем 24/7. Лишь несколько показателей имеют решающее значение для стабильной работы веб-сайта — например, доступность веб-сервера. Другие, такие как количество открытых лог-файлов, вообще не нужно постоянно отслеживать. Время от времени их можно наблюдать во время плановых проверок. Построение автоматического оповещения о достижении метрикой порогового значения основано на концепциях SLI, SLA и SLO.

SLI (Service Level Indicators) — это количественная оценка производительности службы, связанная с удовлетворенностью пользователей производительностью приложения за определенный период времени (месяц, квартал, год). SLI обычно измеряются в процентах, где 0% означает ужасную производительность, а 100% — отличную производительность.

SLA (Соглашение об уровне обслуживания) определяет уровень обслуживания, который вы ожидаете от поставщика, и средства правовой защиты или штрафы, если согласованные уровни обслуживания не будут достигнуты. SLA — это внешнее обязательство перед конечным пользователем.

SLO (Service Level Objectives) — набор целевых, «желаемых» значений SLI, выход за пределы которых может привести к нарушению SLA конкретного сервиса или компонента. Максимально допустимое отклонение от «идеальных» показателей в этой концепции называется Бюджетом ошибок. Например, максимальное количество ошибок за 5 минут, максимальное время недоступности веб-страницы, максимально допустимая нагрузка на процессор и т.д.

Проще говоря, SLO — это порог для установки оповещений. Но SLO является «желаемым» состоянием, а не всё, что отличается от него, обязательно является нештатной ситуацией. Оповещение должно срабатывать не тогда, когда «все уже слишком плохо» и не от каждой помехи, а тогда, когда еще можно исправить.

Для достижения баланса мы рекомендуем ставить внутренние оповещения на значение между SLO и Бюджетом ошибок — поведение системы еще можно назвать нормальным, но если ничего не предпринимать, есть риск выйти за рамки SLA.

Когда оповещения действительно важны?


Как настроен мониторинг интернет-магазинов на управляемом хостинге ASAP Lab

Оповещение о пороговых значениях обычно используется при достижении предельных показателей использования CPU, свободного места на диске, места в ОЗУ и доступности всех узлов. Например, порог низкого приоритета для использования CPU может составлять 85 %, а высокий приоритет для той же метрики будет около 100 % — ваш CPUне должен работать на полную мощность в течение длительного времени.

Или другой пример. Если сервер используется для раздачи контента, резкие колебания нагрузки на канал могут сигнализировать о какой-то аномалии, например, о DDoS-атаке. Попробуйте отслеживать входящую нагрузку >90% от лимита и резкие (и неожиданные) скачки входящего или исходящего трафика.

Нет смысла отслеживать те метрики, с которыми неясно, что делать, и присылать оповещения каждые две секунды, создавая «белый шум алертинга».

Еще по теме: Как выбрать провайдера веб-хостинга для вашего бизнеса электронной коммерции

Как иметь серверы, которые никогда не выходят из строя?


Как настроен мониторинг интернет-магазинов на управляемом хостинге ASAP Lab

Настройка системы мониторинг выглядит как большая работа! Признаемся честно, так и есть. Существует проверенный способ избежать всех этих хлопот, отдав обслуживание ваших серверов на аутсорсинг профессионалам. В ASAP Lab, например, мы решаем весь спектр технических вопросов для наших клиентов от аудита и мониторинга до повышения отказоустойчивости и проектирования инфраструктуры (IaC). Работаем с самыми популярными CMS и фреймворками и используем специальные конфигурации и окружения для серверов в зависимости от конкретной платформы. Это гарантированно повышает производительность и безопасность работы вашего проекта.

Для контроля производительности и безопасности вашего проекта мы используем Zabbix — продвинутый инструмент мониторинга, способный отслеживать динамику серверов и сетевого оборудования, быстро реагировать на внештатные ситуации и предотвращать возможные проблемы с нагрузкой. Специальные конфигурации для интернет-магазинов позволяют нам ежеминутно проверять производительность вашего сервера, целостность безопасности и процедуры резервного копирования.

Система мониторинга постоянно отслеживает 300 показателей сервисов и серверов и 50 показателей оборудования. Это означает 1440 проверок веб-параметров и 250 000 измерений на сервер в день. На основе этих данных наши системы делают прогнозы, которые позволяют нам реагировать на инциденты до того, как ваши клиенты заметят, что что-то идет не так. Другими словами, мы развиваем наш мониторинг, чтобы реагировать на инциденты, которые еще не произошли.

Эффективная автоматизация процессов, проверенная на сотнях серверов наших клиентов, гарантирует 99% аптайм (доступность вашего проекта). В случае возникновения нештатной ситуации дежурный специалист приступит к решению вашей проблемы в течение 15 минут в соответствии с Соглашением об уровне обслуживания (SLA). По статистике в 2022 году время отклика составляет 6 минут 17 секунд.

Хотите попробовать хостинг с преднастроенным мониторингом производительности и безопасности от экспертов в электронной коммерции? Напишите нам для бесплатной консультации и подбора решения с учетом ваших бизнес-задачи концепции развития бизнеса.

Получить бесплатную консультацию по управляемому хостингу и администрированию серверов!

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.