#grafana_oncall — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #grafana_oncall, aggregated by home.social.
-
IMPulse — наш взгляд на менеджмент инцидентов
Если ваша компания всё ещё не использует средства для менеджмента инцидентов, а утопает в обычных алертах из Alertmanager'а, эта статья для вас. Если ваша компания из-за санкций или соображений безопасности не может отправлять алерты в зарубежные системы менеджмента инцидентов, эта статья для вас. Если вы DevOps и уже изрядно намучились с поиском подобного решения (как я) - статья и для вас тоже. В статье мы презентуем наше open source решение для работы с алертами. Приглашаю всех заинтересованных под кат.
https://habr.com/ru/articles/865208/
#grafana_oncall #prometheus #alertmanager #мониторинг #monitoring #kiss #alert #incident #инцидентменеджмент
-
Как добавить системности в мониторинг продакшна: параметры и тулинг для инцидент-менеджмента
На проде что-то сломалось – такова суровая реальность, случается с лучшими из нас, увы. Что часто происходит в подобных случаях: ловим алерты, бежим смотреть графики и логи, вызваниваем из отпуска разработчика, который занимался этой функциональностью, выкатываем фикс, проводим пост-мортем. Это реакция на уровне здравого смысла, классика. Но когда речь заходит о недозаработанных из-за инцидента деньгах, расстроенных пользователях – любое улучшение, даже небольшое, на доли процента – может принести ощутимый результат. Давайте поговорим, как подойти к вопросу мониторинга методологически – задействовать инструментарий инцидент-менеджмента. Обсудим, как оценивать критичность сервисов и какие системы могут быть полезны для отслеживания проблем. Статья ориентирована в первую очередь на тех, кто прямо сейчас занимается мониторингом на уровне общей инженерной грамотности, но пока не использует в явном виде инцидент-менеджмент как подход. А что дальше?
https://habr.com/ru/companies/sravni/articles/802705/
#инцидентменеджмент #apdex #sloth #grafana_oncall #деплой #сравни #сравниру