#алерты — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-12 · 14:52 UTC

Как я Zabbix с LLM дружил в свободное время. Архитектурный обзор взаимодействия с нейросетью. Часть 2 «Выбор модели»

Это вторая статья из цикла о том, как я пытался сделать алерты Zabbix в домашней лаборатории чуть умнее, прикрутив к ним локальную LLM и не получить на выходе архитектурного монстра Франкенштейна. В первой части мы разобрались с постановкой задачи и ТЗ, теперь же пришло время выбрать саму модель. В этой части мы формируем критерии к LLM (отдельно от общего ТЗ), сравниваем небольшие open-weight модели для self-hosted сценария и делаем выбор одной из моделей. В процессе написания материал разросся до неимоверных размеров, поэтому пришлось поделить его аж на четыре части. Ссылки буду добавлять по мере выпуска (примерно раз в одну-две недели). Часть 1: Вводная и формирование ТЗ Часть 2: Выбор локальной LLM -> вы здесь Часть 3: Формирование HLD и немного LLD Часть 4: Что из этого вышло

https://habr.com/ru/articles/1033798/

#zabbix #llm #aiops #мониторинг #алерты #itинфраструктура #rca

#rca #itинфраструктура #алерты #мониторинг #aiops #llm

Habr @[email protected] · 2026-05-12 · 14:52 UTC

Как я Zabbix с LLM дружил в свободное время. Архитектурный обзор взаимодействия с нейросетью. Часть 2 «Выбор модели»

Это вторая статья из цикла о том, как я пытался сделать алерты Zabbix в домашней лаборатории чуть умнее, прикрутив к ним локальную LLM и не получить на выходе архитектурного монстра Франкенштейна. В первой части мы разобрались с постановкой задачи и ТЗ, теперь же пришло время выбрать саму модель. В этой части мы формируем критерии к LLM (отдельно от общего ТЗ), сравниваем небольшие open-weight модели для self-hosted сценария и делаем выбор одной из моделей. В процессе написания материал разросся до неимоверных размеров, поэтому пришлось поделить его аж на четыре части. Ссылки буду добавлять по мере выпуска (примерно раз в одну-две недели). Часть 1: Вводная и формирование ТЗ Часть 2: Выбор локальной LLM -> вы здесь Часть 3: Формирование HLD и немного LLD Часть 4: Что из этого вышло

https://habr.com/ru/articles/1033798/

#zabbix #llm #aiops #мониторинг #алерты #itинфраструктура #rca

#rca #itинфраструктура #алерты #мониторинг #aiops #llm

Habr @[email protected] · 2026-05-12 · 14:52 UTC

Как я Zabbix с LLM дружил в свободное время. Архитектурный обзор взаимодействия с нейросетью. Часть 2 «Выбор модели»

Это вторая статья из цикла о том, как я пытался сделать алерты Zabbix в домашней лаборатории чуть умнее, прикрутив к ним локальную LLM и не получить на выходе архитектурного монстра Франкенштейна. В первой части мы разобрались с постановкой задачи и ТЗ, теперь же пришло время выбрать саму модель. В этой части мы формируем критерии к LLM (отдельно от общего ТЗ), сравниваем небольшие open-weight модели для self-hosted сценария и делаем выбор одной из моделей. В процессе написания материал разросся до неимоверных размеров, поэтому пришлось поделить его аж на четыре части. Ссылки буду добавлять по мере выпуска (примерно раз в одну-две недели). Часть 1: Вводная и формирование ТЗ Часть 2: Выбор локальной LLM -> вы здесь Часть 3: Формирование HLD и немного LLD Часть 4: Что из этого вышло

https://habr.com/ru/articles/1033798/

#zabbix #llm #aiops #мониторинг #алерты #itинфраструктура #rca

#rca #itинфраструктура #алерты #мониторинг #aiops #llm

Habr @[email protected] · 2026-05-12 · 14:52 UTC

Как я Zabbix с LLM дружил в свободное время. Архитектурный обзор взаимодействия с нейросетью. Часть 2 «Выбор модели»

Это вторая статья из цикла о том, как я пытался сделать алерты Zabbix в домашней лаборатории чуть умнее, прикрутив к ним локальную LLM и не получить на выходе архитектурного монстра Франкенштейна. В первой части мы разобрались с постановкой задачи и ТЗ, теперь же пришло время выбрать саму модель. В этой части мы формируем критерии к LLM (отдельно от общего ТЗ), сравниваем небольшие open-weight модели для self-hosted сценария и делаем выбор одной из моделей. В процессе написания материал разросся до неимоверных размеров, поэтому пришлось поделить его аж на четыре части. Ссылки буду добавлять по мере выпуска (примерно раз в одну-две недели). Часть 1: Вводная и формирование ТЗ Часть 2: Выбор локальной LLM -> вы здесь Часть 3: Формирование HLD и немного LLD Часть 4: Что из этого вышло

https://habr.com/ru/articles/1033798/

#zabbix #llm #aiops #мониторинг #алерты #itинфраструктура #rca

#zabbix #llm #aiops #мониторинг #алерты #itинфраструктура

Habr @[email protected] · 2026-05-04 · 10:32 UTC

Как я Zabbix с LLM дружил в свободное время. Архитектурный обзор взаимодействия с нейросетью. Часть 1 «При чем тут ТЗ»

Это первая статья из цикла о том, как я пытался сделать алерты Zabbix в домашней лаборатории чуть умнее, прикрутив к ним локальную LLM и не получить на выходе архитектурного монстра Франкенштейна. В теории хотелось простого: система принимает события мониторинга, понимает их контекст, не дергает лишний раз по пустякам и подсказывает, куда смотреть в первую очередь. Но на практике необходимо начинать не с модели, не с кода и даже не с Docker Compose, а с нормального ТЗ. В процессе написания материал разросся до неимоверных размеров, поэтому пришлось поделить его аж на четыре части. Ссылки буду добавлять по мере выпуска (примерно раз в одну-две недели). Часть 1: Вводная и формирование ТЗ -> вы здесь Часть 2: Выбор локальной LLM Часть 3: Формирование HLD и немного LLD Часть 4: Что из этого вышло

https://habr.com/ru/articles/1031140/

#zabbix #llm #aiops #мониторинг #алерты #тз #itинфраструктура #rca

#rca #itинфраструктура #тз #алерты #мониторинг #aiops

Habr @[email protected] · 2026-05-04 · 10:32 UTC

Как я Zabbix с LLM дружил в свободное время. Архитектурный обзор взаимодействия с нейросетью. Часть 1 «При чем тут ТЗ»

Это первая статья из цикла о том, как я пытался сделать алерты Zabbix в домашней лаборатории чуть умнее, прикрутив к ним локальную LLM и не получить на выходе архитектурного монстра Франкенштейна. В теории хотелось простого: система принимает события мониторинга, понимает их контекст, не дергает лишний раз по пустякам и подсказывает, куда смотреть в первую очередь. Но на практике необходимо начинать не с модели, не с кода и даже не с Docker Compose, а с нормального ТЗ. В процессе написания материал разросся до неимоверных размеров, поэтому пришлось поделить его аж на четыре части. Ссылки буду добавлять по мере выпуска (примерно раз в одну-две недели). Часть 1: Вводная и формирование ТЗ -> вы здесь Часть 2: Выбор локальной LLM Часть 3: Формирование HLD и немного LLD Часть 4: Что из этого вышло

https://habr.com/ru/articles/1031140/

#zabbix #llm #aiops #мониторинг #алерты #тз #itинфраструктура #rca

#rca #itинфраструктура #тз #алерты #мониторинг #aiops

Habr @[email protected] · 2026-05-04 · 10:32 UTC

Как я Zabbix с LLM дружил в свободное время. Архитектурный обзор взаимодействия с нейросетью. Часть 1 «При чем тут ТЗ»

Это первая статья из цикла о том, как я пытался сделать алерты Zabbix в домашней лаборатории чуть умнее, прикрутив к ним локальную LLM и не получить на выходе архитектурного монстра Франкенштейна. В теории хотелось простого: система принимает события мониторинга, понимает их контекст, не дергает лишний раз по пустякам и подсказывает, куда смотреть в первую очередь. Но на практике необходимо начинать не с модели, не с кода и даже не с Docker Compose, а с нормального ТЗ. В процессе написания материал разросся до неимоверных размеров, поэтому пришлось поделить его аж на четыре части. Ссылки буду добавлять по мере выпуска (примерно раз в одну-две недели). Часть 1: Вводная и формирование ТЗ -> вы здесь Часть 2: Выбор локальной LLM Часть 3: Формирование HLD и немного LLD Часть 4: Что из этого вышло

https://habr.com/ru/articles/1031140/

#zabbix #llm #aiops #мониторинг #алерты #тз #itинфраструктура #rca

#rca #itинфраструктура #тз #алерты #мониторинг #aiops

Habr @[email protected] · 2026-05-04 · 10:32 UTC

Как я Zabbix с LLM дружил в свободное время. Архитектурный обзор взаимодействия с нейросетью. Часть 1 «При чем тут ТЗ»

Это первая статья из цикла о том, как я пытался сделать алерты Zabbix в домашней лаборатории чуть умнее, прикрутив к ним локальную LLM и не получить на выходе архитектурного монстра Франкенштейна. В теории хотелось простого: система принимает события мониторинга, понимает их контекст, не дергает лишний раз по пустякам и подсказывает, куда смотреть в первую очередь. Но на практике необходимо начинать не с модели, не с кода и даже не с Docker Compose, а с нормального ТЗ. В процессе написания материал разросся до неимоверных размеров, поэтому пришлось поделить его аж на четыре части. Ссылки буду добавлять по мере выпуска (примерно раз в одну-две недели). Часть 1: Вводная и формирование ТЗ -> вы здесь Часть 2: Выбор локальной LLM Часть 3: Формирование HLD и немного LLD Часть 4: Что из этого вышло

https://habr.com/ru/articles/1031140/

#zabbix #llm #aiops #мониторинг #алерты #тз #itинфраструктура #rca

#zabbix #llm #aiops #мониторинг #алерты #тз

Habr @[email protected] · 2026-03-26 · 17:52 UTC

Поиск и устранение проблем в Zabbix, или как перестать «слепо» мониторить

Система Zabbix является универсальной системой мониторинга с открытым исходным кодом, предназначенной для наблюдения за состоянием IT-инфраструктуры: серверов, сетевых устройств, приложений, баз данных, систем виртуализации и облаков в режиме реального времени. В этой статье мы разберем системный подход к диагностике самого Zabbix и его правил, чтобы ваш мониторинг начал приносить пользу, а не создавать шум.

https://habr.com/ru/companies/otus/articles/1014018/

#zabbix #мониторинг #алерты #наблюдаемость

#наблюдаемость #алерты #мониторинг #zabbix

Habr @[email protected] · 2026-03-26 · 17:52 UTC

Поиск и устранение проблем в Zabbix, или как перестать «слепо» мониторить

Система Zabbix является универсальной системой мониторинга с открытым исходным кодом, предназначенной для наблюдения за состоянием IT-инфраструктуры: серверов, сетевых устройств, приложений, баз данных, систем виртуализации и облаков в режиме реального времени. В этой статье мы разберем системный подход к диагностике самого Zabbix и его правил, чтобы ваш мониторинг начал приносить пользу, а не создавать шум.

https://habr.com/ru/companies/otus/articles/1014018/

#zabbix #мониторинг #алерты #наблюдаемость

#наблюдаемость #алерты #мониторинг #zabbix

Habr @[email protected] · 2026-03-26 · 17:52 UTC

Поиск и устранение проблем в Zabbix, или как перестать «слепо» мониторить

Система Zabbix является универсальной системой мониторинга с открытым исходным кодом, предназначенной для наблюдения за состоянием IT-инфраструктуры: серверов, сетевых устройств, приложений, баз данных, систем виртуализации и облаков в режиме реального времени. В этой статье мы разберем системный подход к диагностике самого Zabbix и его правил, чтобы ваш мониторинг начал приносить пользу, а не создавать шум.

https://habr.com/ru/companies/otus/articles/1014018/

#zabbix #мониторинг #алерты #наблюдаемость

#наблюдаемость #алерты #мониторинг #zabbix

Habr @[email protected] · 2026-03-26 · 17:52 UTC

Поиск и устранение проблем в Zabbix, или как перестать «слепо» мониторить

Система Zabbix является универсальной системой мониторинга с открытым исходным кодом, предназначенной для наблюдения за состоянием IT-инфраструктуры: серверов, сетевых устройств, приложений, баз данных, систем виртуализации и облаков в режиме реального времени. В этой статье мы разберем системный подход к диагностике самого Zabbix и его правил, чтобы ваш мониторинг начал приносить пользу, а не создавать шум.

https://habr.com/ru/companies/otus/articles/1014018/

#zabbix #мониторинг #алерты #наблюдаемость

Habr @[email protected] · 2026-03-04 · 07:22 UTC

Стек наблюдаемости (observability) в MWS Container Platform

Привет, Хабр! Я много лет работаю в системной интеграции и занимаюсь внедрением различных проектов в области ИТ и ИБ. Меня попросили написать технический обзор MWS Container Platform, так что ловите то, что получилось. В этом материале подробно поговорим о стеке наблюдаемости (observability) и рассмотрим несколько практических кейсов по обнаружению проблем средствами стека.

https://habr.com/ru/companies/ru_mts/articles/1005890/

#observability #Kubernetes #мониторинг #метрики #логи #алерты #контейнеры #DevOps #производительность #MWS_Container_Platform

#mws_container_platform #производительность #devops #контейнеры #алерты #логи

Habr @[email protected] · 2026-03-04 · 07:22 UTC

Стек наблюдаемости (observability) в MWS Container Platform

Привет, Хабр! Я много лет работаю в системной интеграции и занимаюсь внедрением различных проектов в области ИТ и ИБ. Меня попросили написать технический обзор MWS Container Platform, так что ловите то, что получилось. В этом материале подробно поговорим о стеке наблюдаемости (observability) и рассмотрим несколько практических кейсов по обнаружению проблем средствами стека.

https://habr.com/ru/companies/ru_mts/articles/1005890/

#observability #Kubernetes #мониторинг #метрики #логи #алерты #контейнеры #DevOps #производительность #MWS_Container_Platform

#mws_container_platform #производительность #devops #контейнеры #алерты #логи

Habr @[email protected] · 2026-03-04 · 07:22 UTC

Стек наблюдаемости (observability) в MWS Container Platform

Привет, Хабр! Я много лет работаю в системной интеграции и занимаюсь внедрением различных проектов в области ИТ и ИБ. Меня попросили написать технический обзор MWS Container Platform, так что ловите то, что получилось. В этом материале подробно поговорим о стеке наблюдаемости (observability) и рассмотрим несколько практических кейсов по обнаружению проблем средствами стека.

https://habr.com/ru/companies/ru_mts/articles/1005890/

#observability #Kubernetes #мониторинг #метрики #логи #алерты #контейнеры #DevOps #производительность #MWS_Container_Platform

#mws_container_platform #производительность #devops #контейнеры #алерты #логи

Habr @[email protected] · 2026-03-04 · 07:22 UTC

Стек наблюдаемости (observability) в MWS Container Platform

Привет, Хабр! Я много лет работаю в системной интеграции и занимаюсь внедрением различных проектов в области ИТ и ИБ. Меня попросили написать технический обзор MWS Container Platform, так что ловите то, что получилось. В этом материале подробно поговорим о стеке наблюдаемости (observability) и рассмотрим несколько практических кейсов по обнаружению проблем средствами стека.

https://habr.com/ru/companies/ru_mts/articles/1005890/

#observability #Kubernetes #мониторинг #метрики #логи #алерты #контейнеры #DevOps #производительность #MWS_Container_Platform

#observability #kubernetes #мониторинг #метрики #логи #алерты

Habr @[email protected] · 2025-11-05 · 07:42 UTC

Метрики в тестировании: как в Рунити перешли от ручного сбора данных к автоматизации

Привет, Хабр! Сегодня с вами Анна Асабина, главный инженер по тестированию, и Ольга Султанова, руководитель направления тестирования в Рунити. Мы расскажем о нашем опыте внедрения метрик в тестировании: какие метрики для нас работают, зачем мы автоматизировали их сбор и что в итоге изменилось.

https://habr.com/ru/companies/runity/articles/963166/

#тест #тестирование #тесты #тестировщик #метрики_тестирования #метрики_качества #сборка #алертинг #алерты #автоматизация_тестирования

#тест #тестирование #тесты #тестировщик #метрики_тестирования #метрики_качества

Habr @[email protected] · 2025-11-05 · 07:42 UTC

Метрики в тестировании: как в Рунити перешли от ручного сбора данных к автоматизации

Привет, Хабр! Сегодня с вами Анна Асабина, главный инженер по тестированию, и Ольга Султанова, руководитель направления тестирования в Рунити. Мы расскажем о нашем опыте внедрения метрик в тестировании: какие метрики для нас работают, зачем мы автоматизировали их сбор и что в итоге изменилось.

https://habr.com/ru/companies/runity/articles/963166/

#тест #тестирование #тесты #тестировщик #метрики_тестирования #метрики_качества #сборка #алертинг #алерты #автоматизация_тестирования

#тест #тестирование #тесты #тестировщик #метрики_тестирования #метрики_качества

Habr @[email protected] · 2025-11-05 · 07:42 UTC

Метрики в тестировании: как в Рунити перешли от ручного сбора данных к автоматизации

Привет, Хабр! Сегодня с вами Анна Асабина, главный инженер по тестированию, и Ольга Султанова, руководитель направления тестирования в Рунити. Мы расскажем о нашем опыте внедрения метрик в тестировании: какие метрики для нас работают, зачем мы автоматизировали их сбор и что в итоге изменилось.

https://habr.com/ru/companies/runity/articles/963166/

#тест #тестирование #тесты #тестировщик #метрики_тестирования #метрики_качества #сборка #алертинг #алерты #автоматизация_тестирования

#тест #тестирование #тесты #тестировщик #метрики_тестирования #метрики_качества

Habr @[email protected] · 2025-11-05 · 07:42 UTC

Метрики в тестировании: как в Рунити перешли от ручного сбора данных к автоматизации

Привет, Хабр! Сегодня с вами Анна Асабина, главный инженер по тестированию, и Ольга Султанова, руководитель направления тестирования в Рунити. Мы расскажем о нашем опыте внедрения метрик в тестировании: какие метрики для нас работают, зачем мы автоматизировали их сбор и что в итоге изменилось.

https://habr.com/ru/companies/runity/articles/963166/

#тест #тестирование #тесты #тестировщик #метрики_тестирования #метрики_качества #сборка #алертинг #алерты #автоматизация_тестирования

#автоматизация_тестирования #алерты #алертинг #сборка #метрики_качества #метрики_тестирования

Habr @[email protected] · 2025-09-17 · 15:52 UTC

Zabbix: Укрощение шторма алертов. От гистерезиса до Telegram и авто-ремедиации

Привет, Хабр! Меня зовут Максим, я главный системный администратор. Сегодня мы поговорим о боли, знакомой каждому, кто работает с мониторингом: об усталости от алертов. О том самом звонке в 3 часа ночи из‑за службы, которая упала и сама же поднялась. О сотне писем «Host down» после падения одного магистрального коммутатора. Это не просто раздражает — это прямой путь к выгоранию команды и пропущенным реальным инцидентам. «Шумные» алерты — это не особенность Zabbix, а симптом его неправильного использования. По умолчанию Zabbix, как и любой мощный инструмент, требует тонкой настройки. Без нее он превращается в генератор информационного мусора, который обесценивает саму идею мониторинга. Проблема в том, что постоянный поток нерелевантных уведомлений притупляет бдительность. Инженеры начинают игнорировать оповещения, что катастрофически увеличивает время реакции на настоящие сбои (MTTA/MTTR) и, как следствие, время восстановления сервиса (RTO). Это уже не операционная проблема, а прямой бизнес‑риск. В этой статье мы построим многоуровневую систему защиты от «шума» в Zabbix. Мы пройдем путь от базовых, но критически важных техник, до продвинутых сценариев автоматизации. Мы научим Zabbix отличать кратковременный всплеск от реальной проблемы, понимать топологию вашей сети, коррелировать несвязанные на первый взгляд события и даже предсказывать проблемы до их возникновения. Финалом будет настройка надежного канала оповещений в Telegram и пример автоматического «самолечения» системы. Никакой теории — только практика, конфиги и команды, готовые к внедрению в прод. Укротить шторм

https://habr.com/ru/articles/947884/

#zabbix #мониторинг #алерты #system_administration #гистерезис #корреляция

Habr @[email protected] · 2025-09-17 · 15:52 UTC

Zabbix: Укрощение шторма алертов. От гистерезиса до Telegram и авто-ремедиации

Привет, Хабр! Меня зовут Максим, я главный системный администратор. Сегодня мы поговорим о боли, знакомой каждому, кто работает с мониторингом: об усталости от алертов. О том самом звонке в 3 часа ночи из‑за службы, которая упала и сама же поднялась. О сотне писем «Host down» после падения одного магистрального коммутатора. Это не просто раздражает — это прямой путь к выгоранию команды и пропущенным реальным инцидентам. «Шумные» алерты — это не особенность Zabbix, а симптом его неправильного использования. По умолчанию Zabbix, как и любой мощный инструмент, требует тонкой настройки. Без нее он превращается в генератор информационного мусора, который обесценивает саму идею мониторинга. Проблема в том, что постоянный поток нерелевантных уведомлений притупляет бдительность. Инженеры начинают игнорировать оповещения, что катастрофически увеличивает время реакции на настоящие сбои (MTTA/MTTR) и, как следствие, время восстановления сервиса (RTO). Это уже не операционная проблема, а прямой бизнес‑риск. В этой статье мы построим многоуровневую систему защиты от «шума» в Zabbix. Мы пройдем путь от базовых, но критически важных техник, до продвинутых сценариев автоматизации. Мы научим Zabbix отличать кратковременный всплеск от реальной проблемы, понимать топологию вашей сети, коррелировать несвязанные на первый взгляд события и даже предсказывать проблемы до их возникновения. Финалом будет настройка надежного канала оповещений в Telegram и пример автоматического «самолечения» системы. Никакой теории — только практика, конфиги и команды, готовые к внедрению в прод. Укротить шторм

https://habr.com/ru/articles/947884/

#zabbix #мониторинг #алерты #system_administration #гистерезис #корреляция

Habr @[email protected] · 2025-09-17 · 15:52 UTC

Zabbix: Укрощение шторма алертов. От гистерезиса до Telegram и авто-ремедиации

Привет, Хабр! Меня зовут Максим, я главный системный администратор. Сегодня мы поговорим о боли, знакомой каждому, кто работает с мониторингом: об усталости от алертов. О том самом звонке в 3 часа ночи из‑за службы, которая упала и сама же поднялась. О сотне писем «Host down» после падения одного магистрального коммутатора. Это не просто раздражает — это прямой путь к выгоранию команды и пропущенным реальным инцидентам. «Шумные» алерты — это не особенность Zabbix, а симптом его неправильного использования. По умолчанию Zabbix, как и любой мощный инструмент, требует тонкой настройки. Без нее он превращается в генератор информационного мусора, который обесценивает саму идею мониторинга. Проблема в том, что постоянный поток нерелевантных уведомлений притупляет бдительность. Инженеры начинают игнорировать оповещения, что катастрофически увеличивает время реакции на настоящие сбои (MTTA/MTTR) и, как следствие, время восстановления сервиса (RTO). Это уже не операционная проблема, а прямой бизнес‑риск. В этой статье мы построим многоуровневую систему защиты от «шума» в Zabbix. Мы пройдем путь от базовых, но критически важных техник, до продвинутых сценариев автоматизации. Мы научим Zabbix отличать кратковременный всплеск от реальной проблемы, понимать топологию вашей сети, коррелировать несвязанные на первый взгляд события и даже предсказывать проблемы до их возникновения. Финалом будет настройка надежного канала оповещений в Telegram и пример автоматического «самолечения» системы. Никакой теории — только практика, конфиги и команды, готовые к внедрению в прод. Укротить шторм

https://habr.com/ru/articles/947884/

#zabbix #мониторинг #алерты #system_administration #гистерезис #корреляция

Habr @[email protected] · 2025-09-17 · 15:52 UTC

Zabbix: Укрощение шторма алертов. От гистерезиса до Telegram и авто-ремедиации

Привет, Хабр! Меня зовут Максим, я главный системный администратор. Сегодня мы поговорим о боли, знакомой каждому, кто работает с мониторингом: об усталости от алертов. О том самом звонке в 3 часа ночи из‑за службы, которая упала и сама же поднялась. О сотне писем «Host down» после падения одного магистрального коммутатора. Это не просто раздражает — это прямой путь к выгоранию команды и пропущенным реальным инцидентам. «Шумные» алерты — это не особенность Zabbix, а симптом его неправильного использования. По умолчанию Zabbix, как и любой мощный инструмент, требует тонкой настройки. Без нее он превращается в генератор информационного мусора, который обесценивает саму идею мониторинга. Проблема в том, что постоянный поток нерелевантных уведомлений притупляет бдительность. Инженеры начинают игнорировать оповещения, что катастрофически увеличивает время реакции на настоящие сбои (MTTA/MTTR) и, как следствие, время восстановления сервиса (RTO). Это уже не операционная проблема, а прямой бизнес‑риск. В этой статье мы построим многоуровневую систему защиты от «шума» в Zabbix. Мы пройдем путь от базовых, но критически важных техник, до продвинутых сценариев автоматизации. Мы научим Zabbix отличать кратковременный всплеск от реальной проблемы, понимать топологию вашей сети, коррелировать несвязанные на первый взгляд события и даже предсказывать проблемы до их возникновения. Финалом будет настройка надежного канала оповещений в Telegram и пример автоматического «самолечения» системы. Никакой теории — только практика, конфиги и команды, готовые к внедрению в прод. Укротить шторм

https://habr.com/ru/articles/947884/

#zabbix #мониторинг #алерты #system_administration #гистерезис #корреляция

#корреляция #гистерезис #system_administration #алерты #мониторинг #zabbix

Habr @[email protected] · 2025-08-19 · 14:12 UTC

Создание и использование СMDB объектов виртуальной инфраструктуры в процессах сопровождения информационных систем

Мир стремится к упорядоченности. Нам хочется, чтобы все лежало по полочкам, все процессы были систематизированы, а нужную вещь можно было быстро найти даже с закрытыми глазами. Если для порядка в домах придумали контейнеры, органайзеры и системы хранения, то в ИТ-сфере эту задачу выполняет CMDB.

https://habr.com/ru/companies/sigma/articles/938620/

#cmdb #itsm #itil #itинфраструктура #itкомпании #информационные_технологии #алерты #алертинг

#алертинг #алерты #информационные_технологии #itкомпании #itинфраструктура #itil

Habr @[email protected] · 2025-08-19 · 14:12 UTC

Создание и использование СMDB объектов виртуальной инфраструктуры в процессах сопровождения информационных систем

Мир стремится к упорядоченности. Нам хочется, чтобы все лежало по полочкам, все процессы были систематизированы, а нужную вещь можно было быстро найти даже с закрытыми глазами. Если для порядка в домах придумали контейнеры, органайзеры и системы хранения, то в ИТ-сфере эту задачу выполняет CMDB.

https://habr.com/ru/companies/sigma/articles/938620/

#cmdb #itsm #itil #itинфраструктура #itкомпании #информационные_технологии #алерты #алертинг

#алертинг #алерты #информационные_технологии #itкомпании #itинфраструктура #itil

Habr @[email protected] · 2025-08-19 · 14:12 UTC

Создание и использование СMDB объектов виртуальной инфраструктуры в процессах сопровождения информационных систем

Мир стремится к упорядоченности. Нам хочется, чтобы все лежало по полочкам, все процессы были систематизированы, а нужную вещь можно было быстро найти даже с закрытыми глазами. Если для порядка в домах придумали контейнеры, органайзеры и системы хранения, то в ИТ-сфере эту задачу выполняет CMDB.

https://habr.com/ru/companies/sigma/articles/938620/

#cmdb #itsm #itil #itинфраструктура #itкомпании #информационные_технологии #алерты #алертинг

#алертинг #алерты #информационные_технологии #itкомпании #itинфраструктура #itil

Habr @[email protected] · 2025-08-19 · 14:12 UTC

Создание и использование СMDB объектов виртуальной инфраструктуры в процессах сопровождения информационных систем

Мир стремится к упорядоченности. Нам хочется, чтобы все лежало по полочкам, все процессы были систематизированы, а нужную вещь можно было быстро найти даже с закрытыми глазами. Если для порядка в домах придумали контейнеры, органайзеры и системы хранения, то в ИТ-сфере эту задачу выполняет CMDB.

https://habr.com/ru/companies/sigma/articles/938620/

#cmdb #itsm #itil #itинфраструктура #itкомпании #информационные_технологии #алерты #алертинг

#cmdb #itsm #itil #itинфраструктура #itкомпании #информационные_технологии

Habr @[email protected] · 2025-07-23 · 07:32 UTC

Как мы научили ML группировать 50 000 событий в инциденты

Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

https://habr.com/ru/companies/oleg-bunin/articles/929928/

#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

#itsm #надежность_системы #mcc #ml #ai #алерты

Habr @[email protected] · 2025-07-23 · 07:32 UTC

Как мы научили ML группировать 50 000 событий в инциденты

Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

https://habr.com/ru/companies/oleg-bunin/articles/929928/

#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

#itsm #надежность_системы #mcc #ml #ai #алерты

Habr @[email protected] · 2025-07-23 · 07:32 UTC

Как мы научили ML группировать 50 000 событий в инциденты

Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

https://habr.com/ru/companies/oleg-bunin/articles/929928/

#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

#itsm #надежность_системы #mcc #ml #ai #алерты

Habr @[email protected] · 2025-07-23 · 07:32 UTC

Как мы научили ML группировать 50 000 событий в инциденты

Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

https://habr.com/ru/companies/oleg-bunin/articles/929928/

#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

#бинарная_классификация #корреляция #инцидентменеджмент #алерты #ai #ml

Habr @[email protected] · 2025-07-08 · 13:52 UTC

Скрипт, который следит за тобой: автоматический аудит действий в Linux

Привет, Хабр! В данной статье хочу разобрать auditd - полезный инструмент аудита в Linux, который записывает каждое действие, а скрипт превратит логи в читаемые отчёты и алерты. Linux-сервер без мониторинга активности пользователей — как дом с открытыми окнами. Проблемы, которые помогает решить auditd : - Несанкционированный доступ (кто и когда использовать, например, sudo ) - Подозрительные команды ( rm -rf , изменение прав, доступ к каким-либо файлам) - Расследование инцидентов (кто что натыкал перед падением сервера) - Соответствие корпоративным стандартам (возможно, ИБ требует логирования действий или вы любите контроль) Решение: auditd + Python-скрипт для анализа и алертов.

https://habr.com/ru/articles/925962/

#auditd #linux #безопасность #логирование #алерты

Habr @[email protected] · 2025-07-08 · 13:52 UTC

Скрипт, который следит за тобой: автоматический аудит действий в Linux

Привет, Хабр! В данной статье хочу разобрать auditd - полезный инструмент аудита в Linux, который записывает каждое действие, а скрипт превратит логи в читаемые отчёты и алерты. Linux-сервер без мониторинга активности пользователей — как дом с открытыми окнами. Проблемы, которые помогает решить auditd : - Несанкционированный доступ (кто и когда использовать, например, sudo ) - Подозрительные команды ( rm -rf , изменение прав, доступ к каким-либо файлам) - Расследование инцидентов (кто что натыкал перед падением сервера) - Соответствие корпоративным стандартам (возможно, ИБ требует логирования действий или вы любите контроль) Решение: auditd + Python-скрипт для анализа и алертов.

https://habr.com/ru/articles/925962/

#auditd #linux #безопасность #логирование #алерты

Habr @[email protected] · 2025-07-08 · 13:52 UTC

Скрипт, который следит за тобой: автоматический аудит действий в Linux

Привет, Хабр! В данной статье хочу разобрать auditd - полезный инструмент аудита в Linux, который записывает каждое действие, а скрипт превратит логи в читаемые отчёты и алерты. Linux-сервер без мониторинга активности пользователей — как дом с открытыми окнами. Проблемы, которые помогает решить auditd : - Несанкционированный доступ (кто и когда использовать, например, sudo ) - Подозрительные команды ( rm -rf , изменение прав, доступ к каким-либо файлам) - Расследование инцидентов (кто что натыкал перед падением сервера) - Соответствие корпоративным стандартам (возможно, ИБ требует логирования действий или вы любите контроль) Решение: auditd + Python-скрипт для анализа и алертов.

https://habr.com/ru/articles/925962/

#auditd #linux #безопасность #логирование #алерты

Habr @[email protected] · 2025-07-08 · 13:52 UTC

Скрипт, который следит за тобой: автоматический аудит действий в Linux

Привет, Хабр! В данной статье хочу разобрать auditd - полезный инструмент аудита в Linux, который записывает каждое действие, а скрипт превратит логи в читаемые отчёты и алерты. Linux-сервер без мониторинга активности пользователей — как дом с открытыми окнами. Проблемы, которые помогает решить auditd : - Несанкционированный доступ (кто и когда использовать, например, sudo ) - Подозрительные команды ( rm -rf , изменение прав, доступ к каким-либо файлам) - Расследование инцидентов (кто что натыкал перед падением сервера) - Соответствие корпоративным стандартам (возможно, ИБ требует логирования действий или вы любите контроль) Решение: auditd + Python-скрипт для анализа и алертов.

https://habr.com/ru/articles/925962/

#auditd #linux #безопасность #логирование #алерты

#алерты #логирование #безопасность #linux #auditd

Habr @[email protected] · 2024-12-17 · 11:22 UTC

Сеть знает все, или Как найти пробив с помощью анализа трафика

Столько слов было сказано, столько копий сломано в попытках защитить свою инфраструктуру, но одним из частых векторов проникновения в сеть все еще остается эксплуатация уязвимостей сервисов на периметре. Можно долго рассуждать о причинах такой ситуации, а можно максимально защитить компанию от кибератак. Сегодня я, Виктор Еременко, лидер продуктовой практики нашей системы поведенческого анализа трафика, расскажу, как вовремя выявить злоумышленника и не допустить инцидента.

https://habr.com/ru/companies/pt/articles/867042/

#pt_nad #сетевой_трафик #обнаружение_атак #эксплуатация_уязвимостей #алерты #автоматизация #полезная_нагрузка #анализ_трафика #шифрование #false_positive

#pt_nad #сетевой_трафик #обнаружение_атак #эксплуатация_уязвимостей #алерты #автоматизация

Habr @[email protected] · 2024-12-17 · 11:22 UTC

Сеть знает все, или Как найти пробив с помощью анализа трафика

Столько слов было сказано, столько копий сломано в попытках защитить свою инфраструктуру, но одним из частых векторов проникновения в сеть все еще остается эксплуатация уязвимостей сервисов на периметре. Можно долго рассуждать о причинах такой ситуации, а можно максимально защитить компанию от кибератак. Сегодня я, Виктор Еременко, лидер продуктовой практики нашей системы поведенческого анализа трафика, расскажу, как вовремя выявить злоумышленника и не допустить инцидента.

https://habr.com/ru/companies/pt/articles/867042/

#pt_nad #сетевой_трафик #обнаружение_атак #эксплуатация_уязвимостей #алерты #автоматизация #полезная_нагрузка #анализ_трафика #шифрование #false_positive

#pt_nad #сетевой_трафик #обнаружение_атак #эксплуатация_уязвимостей #алерты #автоматизация

Habr @[email protected] · 2024-12-17 · 11:22 UTC

Сеть знает все, или Как найти пробив с помощью анализа трафика

Столько слов было сказано, столько копий сломано в попытках защитить свою инфраструктуру, но одним из частых векторов проникновения в сеть все еще остается эксплуатация уязвимостей сервисов на периметре. Можно долго рассуждать о причинах такой ситуации, а можно максимально защитить компанию от кибератак. Сегодня я, Виктор Еременко, лидер продуктовой практики нашей системы поведенческого анализа трафика, расскажу, как вовремя выявить злоумышленника и не допустить инцидента.

https://habr.com/ru/companies/pt/articles/867042/

#pt_nad #сетевой_трафик #обнаружение_атак #эксплуатация_уязвимостей #алерты #автоматизация #полезная_нагрузка #анализ_трафика #шифрование #false_positive

#pt_nad #сетевой_трафик #обнаружение_атак #эксплуатация_уязвимостей #алерты #автоматизация

Habr @[email protected] · 2024-12-17 · 11:22 UTC

Сеть знает все, или Как найти пробив с помощью анализа трафика

Столько слов было сказано, столько копий сломано в попытках защитить свою инфраструктуру, но одним из частых векторов проникновения в сеть все еще остается эксплуатация уязвимостей сервисов на периметре. Можно долго рассуждать о причинах такой ситуации, а можно максимально защитить компанию от кибератак. Сегодня я, Виктор Еременко, лидер продуктовой практики нашей системы поведенческого анализа трафика, расскажу, как вовремя выявить злоумышленника и не допустить инцидента.

https://habr.com/ru/companies/pt/articles/867042/

#pt_nad #сетевой_трафик #обнаружение_атак #эксплуатация_уязвимостей #алерты #автоматизация #полезная_нагрузка #анализ_трафика #шифрование #false_positive

#false_positive #шифрование #анализ_трафика #полезная_нагрузка #автоматизация #алерты

Habr @[email protected] · 2024-12-15 · 13:32 UTC

История одного алерта или вероятность последовательности одинаковых событий Бернулли

Не так давно столкнулся с алертом, который работает следующим образом: раз в 10 секунд пробер делает HTTP-запрос до другого сервиса и увеличивает метрику со счетчиком ошибок, в случае провала. Если 6 раз подряд происходят ошибки - алерт активизируется и привлекает внимание человека. В моем конкретном случае за одним DNS именем целевого сервиса скрывается 10 различных IP-адресов, и в какой-то момент 2 из-них стали отвечать чуть дольше обычного, приводя к периодическому срабатыванию данного алерта. Как посчитать вероятность цепочки событий?

https://habr.com/ru/articles/866584/

#sre #мониторинг #вероятность #алерты

Habr @[email protected] · 2024-12-15 · 13:32 UTC

История одного алерта или вероятность последовательности одинаковых событий Бернулли

Не так давно столкнулся с алертом, который работает следующим образом: раз в 10 секунд пробер делает HTTP-запрос до другого сервиса и увеличивает метрику со счетчиком ошибок, в случае провала. Если 6 раз подряд происходят ошибки - алерт активизируется и привлекает внимание человека. В моем конкретном случае за одним DNS именем целевого сервиса скрывается 10 различных IP-адресов, и в какой-то момент 2 из-них стали отвечать чуть дольше обычного, приводя к периодическому срабатыванию данного алерта. Как посчитать вероятность цепочки событий?

https://habr.com/ru/articles/866584/

#sre #мониторинг #вероятность #алерты

Habr @[email protected] · 2024-12-15 · 13:32 UTC

История одного алерта или вероятность последовательности одинаковых событий Бернулли

Не так давно столкнулся с алертом, который работает следующим образом: раз в 10 секунд пробер делает HTTP-запрос до другого сервиса и увеличивает метрику со счетчиком ошибок, в случае провала. Если 6 раз подряд происходят ошибки - алерт активизируется и привлекает внимание человека. В моем конкретном случае за одним DNS именем целевого сервиса скрывается 10 различных IP-адресов, и в какой-то момент 2 из-них стали отвечать чуть дольше обычного, приводя к периодическому срабатыванию данного алерта. Как посчитать вероятность цепочки событий?

https://habr.com/ru/articles/866584/

#sre #мониторинг #вероятность #алерты

Habr @[email protected] · 2024-12-15 · 13:32 UTC

История одного алерта или вероятность последовательности одинаковых событий Бернулли

Не так давно столкнулся с алертом, который работает следующим образом: раз в 10 секунд пробер делает HTTP-запрос до другого сервиса и увеличивает метрику со счетчиком ошибок, в случае провала. Если 6 раз подряд происходят ошибки - алерт активизируется и привлекает внимание человека. В моем конкретном случае за одним DNS именем целевого сервиса скрывается 10 различных IP-адресов, и в какой-то момент 2 из-них стали отвечать чуть дольше обычного, приводя к периодическому срабатыванию данного алерта. Как посчитать вероятность цепочки событий?

https://habr.com/ru/articles/866584/

#sre #мониторинг #вероятность #алерты

#алерты #вероятность #мониторинг #sre

Habr @[email protected] · 2024-11-18 · 13:02 UTC

Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема

Управление инцидентами - это порой ночной кошмар любого ИТ-директора. Поднимите руку те, у кого не было ночных сообщений, что упал критический сервис! Почему так мало рук? Да потому что этот самый процесс в большинстве компаний устроен криво. Каждый раз его придумывают заново, проходя путь от ручного режима, далее общей почты или телеграмм группы до самописной системы управления инцидентами. И чем позже мы приходим в компанию выправлять процесс, тем больше сопротивления и непонимания “А что так можно было?”. Помню, как 8 лет назад я руководил сервисной службой в компании, которая предоставляла услуги поддержки важной внутренней системы крупного клиента. Однажды ночью, примерно в три часа, мой телефон разрывается от звонка. На экране — заказчик. Не успеваю сказать "алло", как слышу: "Вы там спите что ли? У нас АСУ ПОБСУ лежит! Вы в курсе почему? (Я молчу) Мы больше не будем с вами работать!" — и бросает трубку.

https://habr.com/ru/companies/monq/articles/859446/

#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг #oncall #lowcode #low_code #nocode

#nocode #low_code #lowcode #oncall #алертинг #алерты

Habr @[email protected] · 2024-11-18 · 13:02 UTC

Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема

Управление инцидентами - это порой ночной кошмар любого ИТ-директора. Поднимите руку те, у кого не было ночных сообщений, что упал критический сервис! Почему так мало рук? Да потому что этот самый процесс в большинстве компаний устроен криво. Каждый раз его придумывают заново, проходя путь от ручного режима, далее общей почты или телеграмм группы до самописной системы управления инцидентами. И чем позже мы приходим в компанию выправлять процесс, тем больше сопротивления и непонимания “А что так можно было?”. Помню, как 8 лет назад я руководил сервисной службой в компании, которая предоставляла услуги поддержки важной внутренней системы крупного клиента. Однажды ночью, примерно в три часа, мой телефон разрывается от звонка. На экране — заказчик. Не успеваю сказать "алло", как слышу: "Вы там спите что ли? У нас АСУ ПОБСУ лежит! Вы в курсе почему? (Я молчу) Мы больше не будем с вами работать!" — и бросает трубку.

https://habr.com/ru/companies/monq/articles/859446/

#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг #oncall #lowcode #low_code #nocode

#nocode #low_code #lowcode #oncall #алертинг #алерты

Habr @[email protected] · 2024-11-18 · 13:02 UTC

Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема

Управление инцидентами - это порой ночной кошмар любого ИТ-директора. Поднимите руку те, у кого не было ночных сообщений, что упал критический сервис! Почему так мало рук? Да потому что этот самый процесс в большинстве компаний устроен криво. Каждый раз его придумывают заново, проходя путь от ручного режима, далее общей почты или телеграмм группы до самописной системы управления инцидентами. И чем позже мы приходим в компанию выправлять процесс, тем больше сопротивления и непонимания “А что так можно было?”. Помню, как 8 лет назад я руководил сервисной службой в компании, которая предоставляла услуги поддержки важной внутренней системы крупного клиента. Однажды ночью, примерно в три часа, мой телефон разрывается от звонка. На экране — заказчик. Не успеваю сказать "алло", как слышу: "Вы там спите что ли? У нас АСУ ПОБСУ лежит! Вы в курсе почему? (Я молчу) Мы больше не будем с вами работать!" — и бросает трубку.

https://habr.com/ru/companies/monq/articles/859446/

#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг #oncall #lowcode #low_code #nocode

#nocode #low_code #lowcode #oncall #алертинг #алерты

Habr @[email protected] · 2024-11-18 · 13:02 UTC

Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема

Управление инцидентами - это порой ночной кошмар любого ИТ-директора. Поднимите руку те, у кого не было ночных сообщений, что упал критический сервис! Почему так мало рук? Да потому что этот самый процесс в большинстве компаний устроен криво. Каждый раз его придумывают заново, проходя путь от ручного режима, далее общей почты или телеграмм группы до самописной системы управления инцидентами. И чем позже мы приходим в компанию выправлять процесс, тем больше сопротивления и непонимания “А что так можно было?”. Помню, как 8 лет назад я руководил сервисной службой в компании, которая предоставляла услуги поддержки важной внутренней системы крупного клиента. Однажды ночью, примерно в три часа, мой телефон разрывается от звонка. На экране — заказчик. Не успеваю сказать "алло", как слышу: "Вы там спите что ли? У нас АСУ ПОБСУ лежит! Вы в курсе почему? (Я молчу) Мы больше не будем с вами работать!" — и бросает трубку.

https://habr.com/ru/companies/monq/articles/859446/

#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг #oncall #lowcode #low_code #nocode

#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг

Habr @[email protected] · 2024-06-03 · 10:02 UTC

Разбираемся, как настроить алертинг из OpenSearch по email

Ни одно внедрение платформ для запуска контейнеризованных приложений в продуктивном контуре не должно обходиться без настройки логирования происходящих событий. В нашей платформе для управления контейнерами «Штурвал» для этих целей используется модуль OpenSearch. На одном из проектов мне понадобилось настроить алертинг, чтобы администраторы k8s получали по электронной почте оповещение, если происходят те или иные события. Например, когда назначается ClusterRole с высоким уровнем доступа, при попытке запуска привилегированного контейнера или изменении конфигурации узла. Изначально в кластере была настроена Audit Policy, определяющая, какие события должны записываться в журнал аудита и какие данные они должны содержать, а также Fluentbit Operator, отправляющий всё в OpenSearch. Кстати, подробнее о том, как мы настраиваем политику аудита в «Штурвале», я буду рассказывать 5 июня на конференции БеКон . Казалось бы, дело за малым — изучить документацию и настроить алертинг, который доступен непосредственно в интерфейсе OpenSearch. Но этой статьи бы не было, если бы не дьявол, спрятавшийся в деталях. С настройкой SMTP действительно не возникло никаких проблем, алертинг на нужные ресурсы тоже настраивался нативно. Но когда понадобилось вытащить данные из тела запроса и добавить их в отправляемое письмо, OpenSearch сказал, что «у него лапки». В открытых источниках я нашла множество тикетов без ответов или с сомнительными советами, которые не помогали решить проблему. В итоге алертинг я настроила и попутно сделала инструкцию. Надеюсь, она будет для вас полезной.

https://habr.com/ru/companies/jetinfosystems/articles/819027/

#opensearch_* #email #алертинг #оповещение #логирование #kubernetes #контейнеризация #алерты

#алерты #контейнеризация #kubernetes #логирование #оповещение #алертинг

Habr @[email protected] · 2024-06-03 · 10:02 UTC

Разбираемся, как настроить алертинг из OpenSearch по email

Ни одно внедрение платформ для запуска контейнеризованных приложений в продуктивном контуре не должно обходиться без настройки логирования происходящих событий. В нашей платформе для управления контейнерами «Штурвал» для этих целей используется модуль OpenSearch. На одном из проектов мне понадобилось настроить алертинг, чтобы администраторы k8s получали по электронной почте оповещение, если происходят те или иные события. Например, когда назначается ClusterRole с высоким уровнем доступа, при попытке запуска привилегированного контейнера или изменении конфигурации узла. Изначально в кластере была настроена Audit Policy, определяющая, какие события должны записываться в журнал аудита и какие данные они должны содержать, а также Fluentbit Operator, отправляющий всё в OpenSearch. Кстати, подробнее о том, как мы настраиваем политику аудита в «Штурвале», я буду рассказывать 5 июня на конференции БеКон . Казалось бы, дело за малым — изучить документацию и настроить алертинг, который доступен непосредственно в интерфейсе OpenSearch. Но этой статьи бы не было, если бы не дьявол, спрятавшийся в деталях. С настройкой SMTP действительно не возникло никаких проблем, алертинг на нужные ресурсы тоже настраивался нативно. Но когда понадобилось вытащить данные из тела запроса и добавить их в отправляемое письмо, OpenSearch сказал, что «у него лапки». В открытых источниках я нашла множество тикетов без ответов или с сомнительными советами, которые не помогали решить проблему. В итоге алертинг я настроила и попутно сделала инструкцию. Надеюсь, она будет для вас полезной.

https://habr.com/ru/companies/jetinfosystems/articles/819027/

#opensearch_* #email #алертинг #оповещение #логирование #kubernetes #контейнеризация #алерты

#алерты #контейнеризация #kubernetes #логирование #оповещение #алертинг