#инцидентменеджмент — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-26 · 09:12 UTC

SLA как инструмент, а не отчёт. Часть 1. Как подружить бизнес и инженеров через общие цифры

Наш прежний SLA формально выглядел корректно: была формула, «четыре девятки» и отчёты. Но в моменты сбоев это не помогало ответить бизнесу на вопросы: сколько времени мы были недоступны, какова потенциально недополученная прибыль и каким был вклад разных подразделений в «наши девятки». Команды по‑своему считали простои и потери, называли разные цифры, и формально все были правы, но временами договориться про общий знаменатель в расчётах становилось слишком сложно. Меня зовут Дмитрий Химион, я руководитель ML Platform в X5 Digital. В статье расскажу, как мы «жили у границы потери доверия к SLA» и что с этим сделали: от запроса руководства и пересборки инцидент-менеджмента до доверенного алгоритма расчёта потерь и разделения SLA на бизнес- и технический уровни.

https://habr.com/ru/companies/X5Tech/articles/1038772/

#инцидентменеджмент #sla #backend #управление_рисками #аналитика #мониторинг #временные_ряды #дашборды #надежность_сервисов #расчет_потерь

#расчет_потерь #надежность_сервисов #дашборды #временные_ряды #мониторинг #аналитика

Habr @[email protected] · 2026-05-26 · 09:12 UTC

SLA как инструмент, а не отчёт. Часть 1. Как подружить бизнес и инженеров через общие цифры

Наш прежний SLA формально выглядел корректно: была формула, «четыре девятки» и отчёты. Но в моменты сбоев это не помогало ответить бизнесу на вопросы: сколько времени мы были недоступны, какова потенциально недополученная прибыль и каким был вклад разных подразделений в «наши девятки». Команды по‑своему считали простои и потери, называли разные цифры, и формально все были правы, но временами договориться про общий знаменатель в расчётах становилось слишком сложно. Меня зовут Дмитрий Химион, я руководитель ML Platform в X5 Digital. В статье расскажу, как мы «жили у границы потери доверия к SLA» и что с этим сделали: от запроса руководства и пересборки инцидент-менеджмента до доверенного алгоритма расчёта потерь и разделения SLA на бизнес- и технический уровни.

https://habr.com/ru/companies/X5Tech/articles/1038772/

#инцидентменеджмент #sla #backend #управление_рисками #аналитика #мониторинг #временные_ряды #дашборды #надежность_сервисов #расчет_потерь

#расчет_потерь #надежность_сервисов #дашборды #временные_ряды #мониторинг #аналитика

Habr @[email protected] · 2026-02-05 · 06:02 UTC

Ночь с пятницы на понедельник: борьба за устойчивость, когда облако дало сбой

…Был обычный ноябрьский вечер, 2024 год шёл к своему завершению: на носу была «чёрная пятница». Я вернулся домой в Новосибирск из почти двухнедельной командировки, пробыв в пути 12 часов и поспав часа четыре. В 19:07 алерт сообщил мне о падении одного из контроллеров. В целом, проблема не критичная, так как сервисы зарезервированы. Но всё же одним глазом я заглянул в чат с разбором. Через час ситуация стремительно ухудшилась: каскадом начали отказывать узлы, отвечающие за внешнюю связность. А затем развитие событий приняло фатальный оборот — в какой‑то момент одновременно отказали сервисы внешней связности сразу в двух зонах доступности… Это был один из самых крупных региональных инцидентов в облаке, после которого мы многое изменили в сети, чтобы сделать её устойчивее . С того момента прошло больше года, так что пришла пора рассказать эту историю от начала и до конца. В прошлой статье я уже показал наши основные подходы к повышению отказоустойчивости в этой ситуации. Однако за кадром остался сам процесс разработки новых решений и то, как мы мыслили, чтобы найти наилучший выход. Сегодня расскажу об этом подробнее. Статья основана на моём недавнем выступлении на Highload++ и дополнена по следам дальнейших расследований инцидентов.

https://habr.com/ru/companies/yandex/articles/992520/

#надежность #sla #отказоустойчивость #инцидентменеджмент #инциденты #отказоустойчивые_системы #отказоустойчивость_сетей

#отказоустойчивость_сетей #отказоустойчивые_системы #инциденты #инцидентменеджмент #отказоустойчивость #sla

Habr @[email protected] · 2026-02-05 · 06:02 UTC

Ночь с пятницы на понедельник: борьба за устойчивость, когда облако дало сбой

…Был обычный ноябрьский вечер, 2024 год шёл к своему завершению: на носу была «чёрная пятница». Я вернулся домой в Новосибирск из почти двухнедельной командировки, пробыв в пути 12 часов и поспав часа четыре. В 19:07 алерт сообщил мне о падении одного из контроллеров. В целом, проблема не критичная, так как сервисы зарезервированы. Но всё же одним глазом я заглянул в чат с разбором. Через час ситуация стремительно ухудшилась: каскадом начали отказывать узлы, отвечающие за внешнюю связность. А затем развитие событий приняло фатальный оборот — в какой‑то момент одновременно отказали сервисы внешней связности сразу в двух зонах доступности… Это был один из самых крупных региональных инцидентов в облаке, после которого мы многое изменили в сети, чтобы сделать её устойчивее . С того момента прошло больше года, так что пришла пора рассказать эту историю от начала и до конца. В прошлой статье я уже показал наши основные подходы к повышению отказоустойчивости в этой ситуации. Однако за кадром остался сам процесс разработки новых решений и то, как мы мыслили, чтобы найти наилучший выход. Сегодня расскажу об этом подробнее. Статья основана на моём недавнем выступлении на Highload++ и дополнена по следам дальнейших расследований инцидентов.

https://habr.com/ru/companies/yandex/articles/992520/

#надежность #sla #отказоустойчивость #инцидентменеджмент #инциденты #отказоустойчивые_системы #отказоустойчивость_сетей

#отказоустойчивость_сетей #отказоустойчивые_системы #инциденты #инцидентменеджмент #отказоустойчивость #sla

Habr @[email protected] · 2025-12-31 · 12:32 UTC

Инцидент-менеджмент с нуля: практический гайд для растущих команд

3 часа ночи. Звонок от незнакомого номера. ”Пользователи не могут залогиниться, п****ц”. Вы лихорадочно листаете Slack. Непонятно, где проблема и кого будить. Подняли тестеров — они тоже гадают. Бэкенд? Инфра? Идёте во флудилку в телеге, ищете похожий ник тимлида. Не отвечает. Кто замещает - никто не знает. Начинается массовый обзвон. Через 40 минут находится человек. Смотрит код. “Не моё. Это к Сане — он, кажется, редирект криво поменял в гугл клауд консоли”. Ещё 20 минут — поиск Сани, доступы только у него. Утром все разбитые. CTO вопрошает. И становится ясно: баг простой. Проблема не в коде. Проблема в бардаке. Знакомо? Я тоже через это прошел. И после такой ночи решил: хватит. Нужна система.

https://habr.com/ru/articles/982172/

#инцидентменеджмент #инцидент #sre #постмортем #devops #проектное_управление #duty #oncall

#oncall #duty #проектное_управление #devops #постмортем #sre

Habr @[email protected] · 2025-12-29 · 15:42 UTC

Управление инцидентами и проблемами в бизнес-процессах

Большинство из нас знает или слышало об управлении инцидентами и проблемами в ИТ и ИБ. Это фактически стало нормой, стандартом. Но как управляют инцидентами и проблемами в бизнес-функциях компании, в функциях отлличных от ИТ или ИБ?

https://habr.com/ru/articles/981430/

#инцидентменеджмент #бизнеспроцессы #бизнесанализ #бизнесаналитика #проблемы_управления #отчетность #управлление_рисками #управление_проблемами #эффективность #эффективные_менеджеры

#эффективные_менеджеры #эффективность #управление_проблемами #управлление_рисками #отчетность #проблемы_управления

Habr @[email protected] · 2025-12-29 · 15:42 UTC

Управление инцидентами и проблемами в бизнес-процессах

Большинство из нас знает или слышало об управлении инцидентами и проблемами в ИТ и ИБ. Это фактически стало нормой, стандартом. Но как управляют инцидентами и проблемами в бизнес-функциях компании, в функциях отлличных от ИТ или ИБ?

https://habr.com/ru/articles/981430/

#инцидентменеджмент #бизнеспроцессы #бизнесанализ #бизнесаналитика #проблемы_управления #отчетность #управлление_рисками #управление_проблемами #эффективность #эффективные_менеджеры

#эффективные_менеджеры #эффективность #управление_проблемами #управлление_рисками #отчетность #проблемы_управления

Habr @[email protected] · 2025-12-29 · 15:42 UTC

Управление инцидентами и проблемами в бизнес-процессах

Большинство из нас знает или слышало об управлении инцидентами и проблемами в ИТ и ИБ. Это фактически стало нормой, стандартом. Но как управляют инцидентами и проблемами в бизнес-функциях компании, в функциях отлличных от ИТ или ИБ?

https://habr.com/ru/articles/981430/

#инцидентменеджмент #бизнеспроцессы #бизнесанализ #бизнесаналитика #проблемы_управления #отчетность #управлление_рисками #управление_проблемами #эффективность #эффективные_менеджеры

#эффективные_менеджеры #эффективность #управление_проблемами #управлление_рисками #отчетность #проблемы_управления

Habr @[email protected] · 2025-12-29 · 15:42 UTC

Управление инцидентами и проблемами в бизнес-процессах

Большинство из нас знает или слышало об управлении инцидентами и проблемами в ИТ и ИБ. Это фактически стало нормой, стандартом. Но как управляют инцидентами и проблемами в бизнес-функциях компании, в функциях отлличных от ИТ или ИБ?

https://habr.com/ru/articles/981430/

#инцидентменеджмент #бизнеспроцессы #бизнесанализ #бизнесаналитика #проблемы_управления #отчетность #управлление_рисками #управление_проблемами #эффективность #эффективные_менеджеры

#инцидентменеджмент #бизнеспроцессы #бизнесанализ #бизнесаналитика #проблемы_управления #отчетность

Habr @[email protected] · 2025-12-09 · 07:22 UTC

Свод знаний ITIL для управления ИТ-услугами в ERP-проектах

Программное обеспечение прошло долгий путь от набора команд до комплексных софтверных человеко-технических систем. Небольшие программные разработки, призванные решать локальные задачи, постепенно превратились в набор приложений, далее появились программные системы, включающие организационную составляющую, а позже – информационные системы как совокупность человека, техники и программных продуктов. Логическую последовательность завершили корпоративные информационные системы, объединившие в себе множество информационных систем [1]. Корпоративные информационные системы позволяют автоматизировать набор бизнес-процессов. Чем больше процессов, тем представительнее стандарт, цифровизирующий их. Так наиболее известным и востребованным классом систем является ERP [2]. ERP-системы охватывают практические все административно-хозяйственные операции компании и представляют средства для их автоматизации. Помимо ERP доступен широкий набор прочих классов: MRP, TMS, WMS, APS, BI, MES и др. Если раньше идея объединить все стандарты в единый класс казалась обоснованной, то на текущий момент – это утопия, так как слишком стремительно развиваются технологии и появляются новые виды систем. Потребность в управлении различными классами программных систем, являющихся основой функционирования современного предприятия, становится все более востребованной и незаменимой: достижение стратегических целей компании тесно связано с вопросом цифровизации бизнес-процессов. Среди множества сводов знаний, применимых к информационным системам: PMBoK, BABoK, BPM CBoK, DAMA-DMBoK, EABoK/TOGAF, SWEBoK, ITIL [3-9], последние два являются наиболее релевантными тематике данной статьи. Свод знаний по программной инженерии, SWEBoK, охватывает весь жизненный цикл информационной системы, в то время как лучшие практики по управлению ИТ-услугами, заданные в ITIL, не ограничиваются рассмотрением только софтверных решений, а представляют все многообразие ИТ-продуктов.

https://habr.com/ru/articles/974724/

#sla #itil4 #ит_услуга #поддержка_по #развитие_по #инцидентменеджмент #инциденты #дефекты #программа #проект

#sla #itil4 #ит_услуга #поддержка_по #развитие_по #инцидентменеджмент

Habr @[email protected] · 2025-10-19 · 17:52 UTC

Postmortem без обвинений: Миф или реальность?

Человеческий мозг эволюционировал для выживания в саванне, а не для анализа распределенных систем. Когда что-то идет не так, наш древний мозг кричит: "Найди угрозу! Накажи виновного! Защити племя!" Эта реакция спасала наших предков от саблезубых тигров, но разрушает современные инженерные команды. Статистика, которая отрезвляет:

https://habr.com/ru/articles/958042/

#sre #sreинженер #postmortem #инцидентменеджмент #инцидент

#инцидент #инцидентменеджмент #postmortem #sreинженер #sre

Habr @[email protected] · 2025-07-23 · 07:32 UTC

Как мы научили ML группировать 50 000 событий в инциденты

Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

https://habr.com/ru/companies/oleg-bunin/articles/929928/

#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

#itsm #надежность_системы #mcc #ml #ai #алерты

Habr @[email protected] · 2025-07-23 · 07:32 UTC

Как мы научили ML группировать 50 000 событий в инциденты

Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

https://habr.com/ru/companies/oleg-bunin/articles/929928/

#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

#itsm #надежность_системы #mcc #ml #ai #алерты

Habr @[email protected] · 2025-07-23 · 07:32 UTC

Как мы научили ML группировать 50 000 событий в инциденты

Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

https://habr.com/ru/companies/oleg-bunin/articles/929928/

#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

#itsm #надежность_системы #mcc #ml #ai #алерты

Habr @[email protected] · 2025-07-23 · 07:32 UTC

Как мы научили ML группировать 50 000 событий в инциденты

Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

https://habr.com/ru/companies/oleg-bunin/articles/929928/

#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

#бинарная_классификация #корреляция #инцидентменеджмент #алерты #ai #ml

Habr @[email protected] · 2025-07-21 · 10:12 UTC

Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon

Обрыв каналов связи, багованный релиз, мискоммуникация… Серия загадочных событий, авантюрный детектив из цикла «Следствие вели…» — нет, не с Леонидом Каневским, и даже не Колобки, а команда разбора инцидентов, или просто Post. Хей-хей! Я Юля, и я специалист по сопровождению инцидентов в команде Post департамента SRE (Site Reliability Engineering). Когда я рассказываю своим друзьям, чем я занимаюсь на работе, мне часто говорят, что я работаю в детективном агентстве. Поэтому сегодня поговорим о том, как устроено управление инцидентами и проблемами в Ozon и чем оно схоже с работой детективов. Статья-расследование будет интересна всем, кто хоть раз задумывался о том, как большие компании не только справляются с форс-мажорами, но и учатся на своих ошибках. Расскажу о внутренней кухне и почему инцидент- и проблем-менеджмент — не «бюрократия», а палочка-выручалочка на пути к стабильности. Вперед вперед!

https://habr.com/ru/companies/ozontech/articles/925046/

#incident_management #incident #problem_management #postmortem #troubleshooting #инцидентменеджмент #управление_проблемами #управление_инцидентами #sre

#sre #управление_инцидентами #управление_проблемами #инцидентменеджмент #troubleshooting #postmortem

Habr @[email protected] · 2025-07-21 · 10:12 UTC

Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon

Обрыв каналов связи, багованный релиз, мискоммуникация… Серия загадочных событий, авантюрный детектив из цикла «Следствие вели…» — нет, не с Леонидом Каневским, и даже не Колобки, а команда разбора инцидентов, или просто Post. Хей-хей! Я Юля, и я специалист по сопровождению инцидентов в команде Post департамента SRE (Site Reliability Engineering). Когда я рассказываю своим друзьям, чем я занимаюсь на работе, мне часто говорят, что я работаю в детективном агентстве. Поэтому сегодня поговорим о том, как устроено управление инцидентами и проблемами в Ozon и чем оно схоже с работой детективов. Статья-расследование будет интересна всем, кто хоть раз задумывался о том, как большие компании не только справляются с форс-мажорами, но и учатся на своих ошибках. Расскажу о внутренней кухне и почему инцидент- и проблем-менеджмент — не «бюрократия», а палочка-выручалочка на пути к стабильности. Вперед вперед!

https://habr.com/ru/companies/ozontech/articles/925046/

#incident_management #incident #problem_management #postmortem #troubleshooting #инцидентменеджмент #управление_проблемами #управление_инцидентами #sre

#sre #управление_инцидентами #управление_проблемами #инцидентменеджмент #troubleshooting #postmortem

Habr @[email protected] · 2025-07-21 · 10:12 UTC

Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon

Обрыв каналов связи, багованный релиз, мискоммуникация… Серия загадочных событий, авантюрный детектив из цикла «Следствие вели…» — нет, не с Леонидом Каневским, и даже не Колобки, а команда разбора инцидентов, или просто Post. Хей-хей! Я Юля, и я специалист по сопровождению инцидентов в команде Post департамента SRE (Site Reliability Engineering). Когда я рассказываю своим друзьям, чем я занимаюсь на работе, мне часто говорят, что я работаю в детективном агентстве. Поэтому сегодня поговорим о том, как устроено управление инцидентами и проблемами в Ozon и чем оно схоже с работой детективов. Статья-расследование будет интересна всем, кто хоть раз задумывался о том, как большие компании не только справляются с форс-мажорами, но и учатся на своих ошибках. Расскажу о внутренней кухне и почему инцидент- и проблем-менеджмент — не «бюрократия», а палочка-выручалочка на пути к стабильности. Вперед вперед!

https://habr.com/ru/companies/ozontech/articles/925046/

#incident_management #incident #problem_management #postmortem #troubleshooting #инцидентменеджмент #управление_проблемами #управление_инцидентами #sre

#sre #управление_инцидентами #управление_проблемами #инцидентменеджмент #troubleshooting #postmortem

Habr @[email protected] · 2025-07-21 · 10:12 UTC

Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon

Обрыв каналов связи, багованный релиз, мискоммуникация… Серия загадочных событий, авантюрный детектив из цикла «Следствие вели…» — нет, не с Леонидом Каневским, и даже не Колобки, а команда разбора инцидентов, или просто Post. Хей-хей! Я Юля, и я специалист по сопровождению инцидентов в команде Post департамента SRE (Site Reliability Engineering). Когда я рассказываю своим друзьям, чем я занимаюсь на работе, мне часто говорят, что я работаю в детективном агентстве. Поэтому сегодня поговорим о том, как устроено управление инцидентами и проблемами в Ozon и чем оно схоже с работой детективов. Статья-расследование будет интересна всем, кто хоть раз задумывался о том, как большие компании не только справляются с форс-мажорами, но и учатся на своих ошибках. Расскажу о внутренней кухне и почему инцидент- и проблем-менеджмент — не «бюрократия», а палочка-выручалочка на пути к стабильности. Вперед вперед!

https://habr.com/ru/companies/ozontech/articles/925046/

#incident_management #incident #problem_management #postmortem #troubleshooting #инцидентменеджмент #управление_проблемами #управление_инцидентами #sre

#incident_management #incident #problem_management #postmortem #troubleshooting #инцидентменеджмент

Habr @[email protected] · 2025-07-18 · 11:22 UTC

Как работать с инцидентами, когда на кону большие деньги

Привет, Хабр! На связи Дарья Попова, тимлид группы мониторинга в Купере. Наша миссия — минимизировать потери от инцидентов для компании и обеспечить сервис на 10/10 для клиентов. Почему это именно группа — вы поймете дальше. Сегодня я расскажу, как мы выстраивали процессы и инструменты мониторинга и автоматизации — и как это все упростило нам жизнь.

https://habr.com/ru/companies/kuper/articles/928632/

#алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса #runbook #критичные_сервисы #дежурные_инженеры #мониторинг

#алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса

Habr @[email protected] · 2025-07-18 · 11:22 UTC

Как работать с инцидентами, когда на кону большие деньги

Привет, Хабр! На связи Дарья Попова, тимлид группы мониторинга в Купере. Наша миссия — минимизировать потери от инцидентов для компании и обеспечить сервис на 10/10 для клиентов. Почему это именно группа — вы поймете дальше. Сегодня я расскажу, как мы выстраивали процессы и инструменты мониторинга и автоматизации — и как это все упростило нам жизнь.

https://habr.com/ru/companies/kuper/articles/928632/

#алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса #runbook #критичные_сервисы #дежурные_инженеры #мониторинг

#алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса

Habr @[email protected] · 2025-07-18 · 11:22 UTC

Как работать с инцидентами, когда на кону большие деньги

Привет, Хабр! На связи Дарья Попова, тимлид группы мониторинга в Купере. Наша миссия — минимизировать потери от инцидентов для компании и обеспечить сервис на 10/10 для клиентов. Почему это именно группа — вы поймете дальше. Сегодня я расскажу, как мы выстраивали процессы и инструменты мониторинга и автоматизации — и как это все упростило нам жизнь.

https://habr.com/ru/companies/kuper/articles/928632/

#алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса #runbook #критичные_сервисы #дежурные_инженеры #мониторинг

#алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса

Habr @[email protected] · 2025-07-18 · 11:22 UTC

Как работать с инцидентами, когда на кону большие деньги

Привет, Хабр! На связи Дарья Попова, тимлид группы мониторинга в Купере. Наша миссия — минимизировать потери от инцидентов для компании и обеспечить сервис на 10/10 для клиентов. Почему это именно группа — вы поймете дальше. Сегодня я расскажу, как мы выстраивали процессы и инструменты мониторинга и автоматизации — и как это все упростило нам жизнь.

https://habr.com/ru/companies/kuper/articles/928632/

#алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса #runbook #критичные_сервисы #дежурные_инженеры #мониторинг

#мониторинг #дежурные_инженеры #критичные_сервисы #runbook #метрики_процесса #оповещение_об_аварии

Habr @[email protected] · 2025-05-24 · 12:02 UTC

RAG‑агент для автоматизации инцидент‑менеджмента

Современные крупные организации сталкиваются с большим числом ИТ‑инцидентов — счет может идти на тысячи в месяц. Инциденты нередко повторяются со временем, однако найти похожий случай в базе знаний или в системе регистрации инцидентов непросто: стандартный поиск по ключевым словам часто неэффективен, а «держать в голове» детали всех инцидентов невозможно.

https://habr.com/ru/companies/otus/articles/912228/

#nlp #ai #bigdata #automation #инцидентменеджмент #machine_learning #rag

#rag #machine_learning #инцидентменеджмент #automation #bigdata #ai

Habr @[email protected] · 2025-05-22 · 11:22 UTC

Тестирование без инцидентов в проде. Утопия или реальность?

Всем привет! Я старший специалист по тестированию в ITFB Group. Сегодня хочу поделиться с вами практическим опытом нашей команды — как нам удалось достичь нулевого количества инцидентов в продакшене за отчётный период. Это не теория, а реальная история из проекта крупного банка, где мы внедрили систему процессов, позволившую минимизировать риски. Если вам интересен практический подход к предотвращению сбоев, давайте разберём его вместе.

https://habr.com/ru/companies/itfb/articles/911760/

#itfb #тестирование #регрессионное_тестирование #qa #agile #инцидентменеджмент #автоматизация_тестирования #разработка_по #разработка_приложений

#разработка_приложений #разработка_по #автоматизация_тестирования #инцидентменеджмент #agile #qa

Habr @[email protected] · 2025-04-09 · 16:22 UTC

Как принимать решения при сбоях в IT-системах: методы поддержки принятия решений

Представьте ситуацию: вечер, срабатывает тревога - ваш интернет-магазин лежит в самый разгар распродажи. В логах куча ошибок, но явной причины не видно. Знакомо? Вот тут-то и начинается самое интересное. Я 3 года проработал в отделе сопровождения информационных систем и накопил десятки подобных случаев. Расскажу, как принимать решения, когда стандартные "перезагрузи и проверь" не работают. Понимаю, что кому-то мой опыт может показаться небольшим, а с некоторыми предложенными методами вы не будете согласны - предлагаю всё обсудить в комментариях. Расскажите о том, как это делается у вас в системах, а также поделитесь своим мнением.

https://habr.com/ru/articles/899266/

#itil #itsm #сбой #инцидент #инцидентменеджмент #поддержка #администрирование

#itil #itsm #сбой #инцидент #инцидентменеджмент #поддержка

Habr @[email protected] · 2025-04-07 · 05:02 UTC

Сбой с вероятностью один раз в 20 лет: о мартовском инциденте в дата-центре

30 марта сервисы, размещённые в одном из наших основных дата‑центров, оказались недоступны. К инциденту привела авария на опорной подстанции, которая спровоцировала отказ сразу двух вводов питания и последующий каскадный сбой оборудования. В этой статье подробно покажем, какие именно риски сработали — а для этого объясним, как устроено энергоснабжение в дата‑центре и на что это влияет. С этой точки зрения посмотрим, как развивались события в этот день и что бывает в дата‑центре, когда случаются ситуации, вероятность которых оценивается как «один на десятилетия». В завершение расскажем, что планируем делать дальше, чтобы не допустить повторения, и какой урок из этого могут извлечь другие инженеры.

https://habr.com/ru/companies/yandex/articles/897626/

#datacenters #датацентры #цод #инциденты #инцидентменеджмент #аварийные_ситуации #аварии_в_датацентрах #аварии_на_цод

#datacenters #датацентры #цод #инциденты #инцидентменеджмент #аварийные_ситуации

Habr @[email protected] · 2025-03-21 · 07:52 UTC

Повышение качества выпускаемого ПО путем работы с инцидентами

Всем привет! Меня зовут Даша Мельникова, я ведущий релиз-менеджер в МКБ. В рамках этой статьи буду говорить об инцидентах, которые переходят на третью линию (на команду разработки). А еще о такой сущности, как инцидент ЗНО. Это сервисный запрос, обращение пользователя, в рамках которого мы лишь консультируем человека, а не правим код, то есть просто даем советы. Но если в рамках консультации возникает необходимость что-то доработать, то это выливается в создание новой фичи.

https://habr.com/ru/companies/mkb/articles/892962/

#инциденты #инцидентменеджмент #отказоустойчивые_системы #стабильность_системы

#стабильность_системы #отказоустойчивые_системы #инцидентменеджмент #инциденты

Habr @[email protected] · 2025-01-31 · 16:52 UTC

Руководство по проведению постмортемов. Как правильно разбирать инциденты для улучшения стабильности в будущем

Согласно определению postmortem – это процедура, посмертное вскрытие и исследование тела, обычно с целью установить причину смерти. Не очень приятное описание, но очень полезная практика, благодаря которой о человеческом организме и причинах его болезней и смерти удалось узнать много жизненно важной информации и использовать ее для сохранения огромного количества судеб. Заимствование практик из соседних наук не редкость – из медицинской практики в нашу рабочую повседневность и пришел принцип создания постмортемов. Для чего же нам нужно проводить “вскрытие” системы после инцидента? Тем более, что жизнь «пациента» была сохранена, и команда, работавшая над сохранением жизни, свою долю стресса и опыта уже получила. Во-первых, постмортемы помогают установить причину возникновения проблемы. Да, мы спасли нашу систему от комы, но, если не понять из-за чего она пыталась впасть в предсмертный припадок, с большой долей вероятности она попытается отправиться на тот свет снова и вполне возможно, что очень скоро. Тут мы открываем вторую причину – с помощью аналитики посмотрема, когда мы выявили причины сбоя, мы можем предотвратить повторение инцидента. В-третьих, при проведении посмотрема “вскрытия” могут обнаружиться на первый взгляд неочевидные системные недостатки внутри наших процессов, которые оказывают опосредованное влияние на работу и нуждаются в оптимизации. Возможно, у нас в шкафу пылится дефибриллятор, в то время как мы в каждый экстренный момент используем ручной массаж сердца, хотя эффективность применения дефибриллятора снизила бы временные и физические затраты команды на реанимацию и уменьшила бы риски человеческой ошибки.

https://habr.com/ru/articles/878366/

#SRE #отказоустойчивость #инцидентменеджмент #postmortem #команды #администрирование

#администрирование #команды #postmortem #инцидентменеджмент #отказоустойчивость #sre

Habr @[email protected] · 2024-12-23 · 05:52 UTC

Автоматизация мониторинга в НЛМК: от агрегации данных и ML до инцидент-менеджмента

Привет, Хабр! Простая истина: когда какой-то элемент инфраструктуры или бизнес-сервис простаивает, то компания несёт потери. Чем понятнее текущее состояние ИТ, тем быстрее можно реагировать на возникающие проблемы и не допускать простоев. Для этого, конечно, нужен мониторинг. Рассказываем, какой концептуальный подход к мониторингу мы применяем в команде НЛМК ИТ и как идёт один из наших проектов по внедрению зонтичного мониторинга и автоматизации на базе российской платформы Monq. Читать всем, кто хочет агрегировать данные из различных инструментов мониторинга в одном месте и автоматизировать управление этими данными.

https://habr.com/ru/companies/nlmk/articles/867800/

#мониторинг #monq #zabbix #grafana #prometheus #devops #инцидентменеджмент #ситуационный_центр #нлмк

#мониторинг #monq #zabbix #grafana #prometheus #devops

Habr @[email protected] · 2024-12-23 · 05:52 UTC

Автоматизация мониторинга в НЛМК: от агрегации данных и ML до инцидент-менеджмента

Привет, Хабр! Простая истина: когда какой-то элемент инфраструктуры или бизнес-сервис простаивает, то компания несёт потери. Чем понятнее текущее состояние ИТ, тем быстрее можно реагировать на возникающие проблемы и не допускать простоев. Для этого, конечно, нужен мониторинг. Рассказываем, какой концептуальный подход к мониторингу мы применяем в команде НЛМК ИТ и как идёт один из наших проектов по внедрению зонтичного мониторинга и автоматизации на базе российской платформы Monq. Читать всем, кто хочет агрегировать данные из различных инструментов мониторинга в одном месте и автоматизировать управление этими данными.

https://habr.com/ru/companies/nlmk/articles/867800/

#мониторинг #monq #zabbix #grafana #prometheus #devops #инцидентменеджмент #ситуационный_центр #нлмк

#мониторинг #monq #zabbix #grafana #prometheus #devops

Habr @[email protected] · 2024-12-23 · 05:52 UTC

Автоматизация мониторинга в НЛМК: от агрегации данных и ML до инцидент-менеджмента

Привет, Хабр! Простая истина: когда какой-то элемент инфраструктуры или бизнес-сервис простаивает, то компания несёт потери. Чем понятнее текущее состояние ИТ, тем быстрее можно реагировать на возникающие проблемы и не допускать простоев. Для этого, конечно, нужен мониторинг. Рассказываем, какой концептуальный подход к мониторингу мы применяем в команде НЛМК ИТ и как идёт один из наших проектов по внедрению зонтичного мониторинга и автоматизации на базе российской платформы Monq. Читать всем, кто хочет агрегировать данные из различных инструментов мониторинга в одном месте и автоматизировать управление этими данными.

https://habr.com/ru/companies/nlmk/articles/867800/

#мониторинг #monq #zabbix #grafana #prometheus #devops #инцидентменеджмент #ситуационный_центр #нлмк

#мониторинг #monq #zabbix #grafana #prometheus #devops

Habr @[email protected] · 2024-12-23 · 05:52 UTC

Автоматизация мониторинга в НЛМК: от агрегации данных и ML до инцидент-менеджмента

Привет, Хабр! Простая истина: когда какой-то элемент инфраструктуры или бизнес-сервис простаивает, то компания несёт потери. Чем понятнее текущее состояние ИТ, тем быстрее можно реагировать на возникающие проблемы и не допускать простоев. Для этого, конечно, нужен мониторинг. Рассказываем, какой концептуальный подход к мониторингу мы применяем в команде НЛМК ИТ и как идёт один из наших проектов по внедрению зонтичного мониторинга и автоматизации на базе российской платформы Monq. Читать всем, кто хочет агрегировать данные из различных инструментов мониторинга в одном месте и автоматизировать управление этими данными.

https://habr.com/ru/companies/nlmk/articles/867800/

#мониторинг #monq #zabbix #grafana #prometheus #devops #инцидентменеджмент #ситуационный_центр #нлмк

#нлмк #ситуационный_центр #инцидентменеджмент #devops #prometheus #grafana

Habr @[email protected] · 2024-12-09 · 21:12 UTC

IMPulse — наш взгляд на менеджмент инцидентов

Если ваша компания всё ещё не использует средства для менеджмента инцидентов, а утопает в обычных алертах из Alertmanager'а, эта статья для вас. Если ваша компания из-за санкций или соображений безопасности не может отправлять алерты в зарубежные системы менеджмента инцидентов, эта статья для вас. Если вы DevOps и уже изрядно намучились с поиском подобного решения (как я) - статья и для вас тоже. В статье мы презентуем наше open source решение для работы с алертами. Приглашаю всех заинтересованных под кат.

https://habr.com/ru/articles/865208/

#grafana_oncall #prometheus #alertmanager #мониторинг #monitoring #kiss #alert #incident #инцидентменеджмент

#grafana_oncall #prometheus #alertmanager #мониторинг #monitoring #kiss

Habr @[email protected] · 2024-11-28 · 08:12 UTC

CMDB в ИТ-мониторинге или как устранять инциденты в 3 раза быстрей

Сегодня расскажем про то, как модуль управления инцидентами и модуль CMDB работают в паре для общей цели — сокращения времени на устранение аварий в несколько раз. Традиционно — все примеры из статьи можно реализовать в бесплатной комьюнити версии Monq.

https://habr.com/ru/companies/monq/articles/861858/

#мониторинг #мониторинг_сервера #инцидентменеджмент #инциденты #мониторинг_логов #мониторинг_итинфраструктуры #мониторинг_инфраструктуры #зонтичный_мониторинг #алертинг #cmdb

#cmdb #алертинг #зонтичный_мониторинг #мониторинг_инфраструктуры #мониторинг_итинфраструктуры #мониторинг_логов

Habr @[email protected] · 2024-11-28 · 08:12 UTC

CMDB в ИТ-мониторинге или как устранять инциденты в 3 раза быстрей

Сегодня расскажем про то, как модуль управления инцидентами и модуль CMDB работают в паре для общей цели — сокращения времени на устранение аварий в несколько раз. Традиционно — все примеры из статьи можно реализовать в бесплатной комьюнити версии Monq.

https://habr.com/ru/companies/monq/articles/861858/

#мониторинг #мониторинг_сервера #инцидентменеджмент #инциденты #мониторинг_логов #мониторинг_итинфраструктуры #мониторинг_инфраструктуры #зонтичный_мониторинг #алертинг #cmdb

#cmdb #алертинг #зонтичный_мониторинг #мониторинг_инфраструктуры #мониторинг_итинфраструктуры #мониторинг_логов

Habr @[email protected] · 2024-11-28 · 08:12 UTC

CMDB в ИТ-мониторинге или как устранять инциденты в 3 раза быстрей

Сегодня расскажем про то, как модуль управления инцидентами и модуль CMDB работают в паре для общей цели — сокращения времени на устранение аварий в несколько раз. Традиционно — все примеры из статьи можно реализовать в бесплатной комьюнити версии Monq.

https://habr.com/ru/companies/monq/articles/861858/

#мониторинг #мониторинг_сервера #инцидентменеджмент #инциденты #мониторинг_логов #мониторинг_итинфраструктуры #мониторинг_инфраструктуры #зонтичный_мониторинг #алертинг #cmdb

#cmdb #алертинг #зонтичный_мониторинг #мониторинг_инфраструктуры #мониторинг_итинфраструктуры #мониторинг_логов

Habr @[email protected] · 2024-11-28 · 08:12 UTC

CMDB в ИТ-мониторинге или как устранять инциденты в 3 раза быстрей

Сегодня расскажем про то, как модуль управления инцидентами и модуль CMDB работают в паре для общей цели — сокращения времени на устранение аварий в несколько раз. Традиционно — все примеры из статьи можно реализовать в бесплатной комьюнити версии Monq.

https://habr.com/ru/companies/monq/articles/861858/

#мониторинг #мониторинг_сервера #инцидентменеджмент #инциденты #мониторинг_логов #мониторинг_итинфраструктуры #мониторинг_инфраструктуры #зонтичный_мониторинг #алертинг #cmdb

#мониторинг #мониторинг_сервера #инцидентменеджмент #инциденты #мониторинг_логов #мониторинг_итинфраструктуры

Habr @[email protected] · 2024-11-18 · 13:02 UTC

Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема

Управление инцидентами - это порой ночной кошмар любого ИТ-директора. Поднимите руку те, у кого не было ночных сообщений, что упал критический сервис! Почему так мало рук? Да потому что этот самый процесс в большинстве компаний устроен криво. Каждый раз его придумывают заново, проходя путь от ручного режима, далее общей почты или телеграмм группы до самописной системы управления инцидентами. И чем позже мы приходим в компанию выправлять процесс, тем больше сопротивления и непонимания “А что так можно было?”. Помню, как 8 лет назад я руководил сервисной службой в компании, которая предоставляла услуги поддержки важной внутренней системы крупного клиента. Однажды ночью, примерно в три часа, мой телефон разрывается от звонка. На экране — заказчик. Не успеваю сказать "алло", как слышу: "Вы там спите что ли? У нас АСУ ПОБСУ лежит! Вы в курсе почему? (Я молчу) Мы больше не будем с вами работать!" — и бросает трубку.

https://habr.com/ru/companies/monq/articles/859446/

#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг #oncall #lowcode #low_code #nocode

#nocode #low_code #lowcode #oncall #алертинг #алерты

Habr @[email protected] · 2024-11-18 · 13:02 UTC

Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема

Управление инцидентами - это порой ночной кошмар любого ИТ-директора. Поднимите руку те, у кого не было ночных сообщений, что упал критический сервис! Почему так мало рук? Да потому что этот самый процесс в большинстве компаний устроен криво. Каждый раз его придумывают заново, проходя путь от ручного режима, далее общей почты или телеграмм группы до самописной системы управления инцидентами. И чем позже мы приходим в компанию выправлять процесс, тем больше сопротивления и непонимания “А что так можно было?”. Помню, как 8 лет назад я руководил сервисной службой в компании, которая предоставляла услуги поддержки важной внутренней системы крупного клиента. Однажды ночью, примерно в три часа, мой телефон разрывается от звонка. На экране — заказчик. Не успеваю сказать "алло", как слышу: "Вы там спите что ли? У нас АСУ ПОБСУ лежит! Вы в курсе почему? (Я молчу) Мы больше не будем с вами работать!" — и бросает трубку.

https://habr.com/ru/companies/monq/articles/859446/

#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг #oncall #lowcode #low_code #nocode

#nocode #low_code #lowcode #oncall #алертинг #алерты

Habr @[email protected] · 2024-11-18 · 13:02 UTC

Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема

Управление инцидентами - это порой ночной кошмар любого ИТ-директора. Поднимите руку те, у кого не было ночных сообщений, что упал критический сервис! Почему так мало рук? Да потому что этот самый процесс в большинстве компаний устроен криво. Каждый раз его придумывают заново, проходя путь от ручного режима, далее общей почты или телеграмм группы до самописной системы управления инцидентами. И чем позже мы приходим в компанию выправлять процесс, тем больше сопротивления и непонимания “А что так можно было?”. Помню, как 8 лет назад я руководил сервисной службой в компании, которая предоставляла услуги поддержки важной внутренней системы крупного клиента. Однажды ночью, примерно в три часа, мой телефон разрывается от звонка. На экране — заказчик. Не успеваю сказать "алло", как слышу: "Вы там спите что ли? У нас АСУ ПОБСУ лежит! Вы в курсе почему? (Я молчу) Мы больше не будем с вами работать!" — и бросает трубку.

https://habr.com/ru/companies/monq/articles/859446/

#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг #oncall #lowcode #low_code #nocode

#nocode #low_code #lowcode #oncall #алертинг #алерты

Habr @[email protected] · 2024-11-18 · 13:02 UTC

Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема

Управление инцидентами - это порой ночной кошмар любого ИТ-директора. Поднимите руку те, у кого не было ночных сообщений, что упал критический сервис! Почему так мало рук? Да потому что этот самый процесс в большинстве компаний устроен криво. Каждый раз его придумывают заново, проходя путь от ручного режима, далее общей почты или телеграмм группы до самописной системы управления инцидентами. И чем позже мы приходим в компанию выправлять процесс, тем больше сопротивления и непонимания “А что так можно было?”. Помню, как 8 лет назад я руководил сервисной службой в компании, которая предоставляла услуги поддержки важной внутренней системы крупного клиента. Однажды ночью, примерно в три часа, мой телефон разрывается от звонка. На экране — заказчик. Не успеваю сказать "алло", как слышу: "Вы там спите что ли? У нас АСУ ПОБСУ лежит! Вы в курсе почему? (Я молчу) Мы больше не будем с вами работать!" — и бросает трубку.

https://habr.com/ru/companies/monq/articles/859446/

#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг #oncall #lowcode #low_code #nocode

#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг

Habr @[email protected] · 2024-11-08 · 10:02 UTC

Автоматизация мониторинга с Monq: Управление сигналами и интеграция с Zabbix

Сегодня я расскажу, как с помощью системы Monq и ее инструмента low-code автоматизации можно эффективно настраивать мониторинг и управление инцидентами на примере интеграции с Zabbix. Будет описание ключевых элементов, включая создание и обработку сигналов, управление состоянием конфигурационных единиц и автоматизации процессов. А еще — полезные ссылки на бесплатную комьюнити версию и ранний доступ к облачной версии. Надеюсь, этот пост будет полезен специалистам, которые хотят оптимизировать мониторинг сложной ИТ-инфраструктуры, заодно улучшив управление инцидентами.

https://habr.com/ru/companies/monq/articles/856982/

#мониторинг #зонтичный_мониторинг #мониторинг_логов #мониторинг_сети #мониторинг_сервера #мониторинг_инфраструктуры #zabbix #lowcode #observability #инцидентменеджмент

#мониторинг #зонтичный_мониторинг #мониторинг_логов #мониторинг_сети #мониторинг_сервера #мониторинг_инфраструктуры

Habr @[email protected] · 2024-08-02 · 08:42 UTC

Как успешно бороться с инцидентами в ИТ-сфере

В нашей работе баги неизбежны, но как именно мы справляемся с этим вызовом — вот что нас отличает. Хочу поделиться с вами историей о том, как одна из платежных команд разработки успешно решала ошибки в продуктовой среде, повышала качество разработки, боролась с легаси кодом и техдолгом.

https://habr.com/ru/articles/833320/

#баги #инцидентменеджмент #ошибки #качество_продукта #качество_программного_обеспечения #финтехпроекты

#финтехпроекты #качество_программного_обеспечения #качество_продукта #ошибки #инцидентменеджмент #баги

Habr @[email protected] · 2024-08-02 · 08:42 UTC

Как успешно бороться с инцидентами в ИТ-сфере

В нашей работе баги неизбежны, но как именно мы справляемся с этим вызовом — вот что нас отличает. Хочу поделиться с вами историей о том, как одна из платежных команд разработки успешно решала ошибки в продуктовой среде, повышала качество разработки, боролась с легаси кодом и техдолгом.

https://habr.com/ru/articles/833320/

#баги #инцидентменеджмент #ошибки #качество_продукта #качество_программного_обеспечения #финтехпроекты

#финтехпроекты #качество_программного_обеспечения #качество_продукта #ошибки #инцидентменеджмент #баги

Habr @[email protected] · 2024-08-02 · 08:42 UTC

Как успешно бороться с инцидентами в ИТ-сфере

В нашей работе баги неизбежны, но как именно мы справляемся с этим вызовом — вот что нас отличает. Хочу поделиться с вами историей о том, как одна из платежных команд разработки успешно решала ошибки в продуктовой среде, повышала качество разработки, боролась с легаси кодом и техдолгом.

https://habr.com/ru/articles/833320/

#баги #инцидентменеджмент #ошибки #качество_продукта #качество_программного_обеспечения #финтехпроекты

Habr @[email protected] · 2024-07-31 · 13:12 UTC

Мониторинг высоконагруженных систем: ускоряем обработку тысяч событий с обработчиками автоматизации в мониторинге Monq

Мониторинг высоконагруженных систем: ускоряем обработку тысяч событий с обработчиками автоматизации в мониторинге Monq Привет, Хабр! В этом статье рассказываем, как устроена low и no-code автоматизация в Monq и как с ее помощью можно оптимизировать обработку данных высоконагруженных систем. В центре внимания – «работяги» – обработчики автоматизации. На конкретных примерах показываем, какие опции использовать, чтобы нагрузка между ними распределялась равномерно.

https://habr.com/ru/companies/monq/articles/832602/

#мониторинг #зонтичный_мониторинг #мониторинг_инфраструктуры #инцидентменеджмент #lowcode #nocode #observability #zabbix #ресурсносервисная_модель #эскалация

#эскалация #ресурсносервисная_модель #zabbix #observability #nocode #lowcode

Habr @[email protected] · 2024-07-31 · 13:12 UTC

Мониторинг высоконагруженных систем: ускоряем обработку тысяч событий с обработчиками автоматизации в мониторинге Monq

Мониторинг высоконагруженных систем: ускоряем обработку тысяч событий с обработчиками автоматизации в мониторинге Monq Привет, Хабр! В этом статье рассказываем, как устроена low и no-code автоматизация в Monq и как с ее помощью можно оптимизировать обработку данных высоконагруженных систем. В центре внимания – «работяги» – обработчики автоматизации. На конкретных примерах показываем, какие опции использовать, чтобы нагрузка между ними распределялась равномерно.

https://habr.com/ru/companies/monq/articles/832602/

#мониторинг #зонтичный_мониторинг #мониторинг_инфраструктуры #инцидентменеджмент #lowcode #nocode #observability #zabbix #ресурсносервисная_модель #эскалация

#эскалация #ресурсносервисная_модель #zabbix #observability #nocode #lowcode

Habr @[email protected] · 2024-07-31 · 13:12 UTC

Мониторинг высоконагруженных систем: ускоряем обработку тысяч событий с обработчиками автоматизации в мониторинге Monq

Мониторинг высоконагруженных систем: ускоряем обработку тысяч событий с обработчиками автоматизации в мониторинге Monq Привет, Хабр! В этом статье рассказываем, как устроена low и no-code автоматизация в Monq и как с ее помощью можно оптимизировать обработку данных высоконагруженных систем. В центре внимания – «работяги» – обработчики автоматизации. На конкретных примерах показываем, какие опции использовать, чтобы нагрузка между ними распределялась равномерно.

https://habr.com/ru/companies/monq/articles/832602/

#мониторинг #зонтичный_мониторинг #мониторинг_инфраструктуры #инцидентменеджмент #lowcode #nocode #observability #zabbix #ресурсносервисная_модель #эскалация

#мониторинг #зонтичный_мониторинг #мониторинг_инфраструктуры #инцидентменеджмент #lowcode #nocode

Habr @[email protected] · 2024-06-11 · 11:22 UTC

Качество данных и роботы: как мы высвободили 5 рабочих часов в день сотрудника DQ

Привет, меня зовут Катя Моисеева, я руководитель направления качества данных в Data Office Tele2. Мы уже рассказывали о том, как с нуля строили процессы качества данных на различных площадках (выступления можно посмотреть по ссылке). Сейчас для нас остро встал вопрос о ресурсах нашей команды, а точнее их «резиновости» - поток входящих инцидентов растет по мере подключения новых систем к проверкам качества, а команда остается в составе 3 сотрудников. Возникает вопрос – а какая она, идеальная команда качества данных, которая сможет создать процессы с нуля, внедрить и привить культуру внутренним заказчикам, свести к минимуму риски возникновения инцидентов, а еще минимизировать затраты компании? Под катом поделились своим опытом борьбы с хаосом из потока входящих задач и запросов от бизнеса и о маленьком роботе-спасителе, который экономит нам ежедневно 5 часов сотрудника DQ и внедрить которого по силам каждому.

https://habr.com/ru/companies/tele2/articles/820991/

#качество_данных #качество_данных_(data_quality) #управление_данными #хранилище_данных #база_дынных #инцидентменеджмент #контроль_качества #автоматизация #скрипт #dq

#dq #скрипт #автоматизация #контроль_качества #инцидентменеджмент #база_дынных