#инцидентменеджмент — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #инцидентменеджмент, aggregated by home.social.
-
SLA как инструмент, а не отчёт. Часть 1. Как подружить бизнес и инженеров через общие цифры
Наш прежний SLA формально выглядел корректно: была формула, «четыре девятки» и отчёты. Но в моменты сбоев это не помогало ответить бизнесу на вопросы: сколько времени мы были недоступны, какова потенциально недополученная прибыль и каким был вклад разных подразделений в «наши девятки». Команды по‑своему считали простои и потери, называли разные цифры, и формально все были правы, но временами договориться про общий знаменатель в расчётах становилось слишком сложно. Меня зовут Дмитрий Химион, я руководитель ML Platform в X5 Digital. В статье расскажу, как мы «жили у границы потери доверия к SLA» и что с этим сделали: от запроса руководства и пересборки инцидент-менеджмента до доверенного алгоритма расчёта потерь и разделения SLA на бизнес- и технический уровни.
https://habr.com/ru/companies/X5Tech/articles/1038772/
#инцидентменеджмент #sla #backend #управление_рисками #аналитика #мониторинг #временные_ряды #дашборды #надежность_сервисов #расчет_потерь
-
SLA как инструмент, а не отчёт. Часть 1. Как подружить бизнес и инженеров через общие цифры
Наш прежний SLA формально выглядел корректно: была формула, «четыре девятки» и отчёты. Но в моменты сбоев это не помогало ответить бизнесу на вопросы: сколько времени мы были недоступны, какова потенциально недополученная прибыль и каким был вклад разных подразделений в «наши девятки». Команды по‑своему считали простои и потери, называли разные цифры, и формально все были правы, но временами договориться про общий знаменатель в расчётах становилось слишком сложно. Меня зовут Дмитрий Химион, я руководитель ML Platform в X5 Digital. В статье расскажу, как мы «жили у границы потери доверия к SLA» и что с этим сделали: от запроса руководства и пересборки инцидент-менеджмента до доверенного алгоритма расчёта потерь и разделения SLA на бизнес- и технический уровни.
https://habr.com/ru/companies/X5Tech/articles/1038772/
#инцидентменеджмент #sla #backend #управление_рисками #аналитика #мониторинг #временные_ряды #дашборды #надежность_сервисов #расчет_потерь
-
Ночь с пятницы на понедельник: борьба за устойчивость, когда облако дало сбой
…Был обычный ноябрьский вечер, 2024 год шёл к своему завершению: на носу была «чёрная пятница». Я вернулся домой в Новосибирск из почти двухнедельной командировки, пробыв в пути 12 часов и поспав часа четыре. В 19:07 алерт сообщил мне о падении одного из контроллеров. В целом, проблема не критичная, так как сервисы зарезервированы. Но всё же одним глазом я заглянул в чат с разбором. Через час ситуация стремительно ухудшилась: каскадом начали отказывать узлы, отвечающие за внешнюю связность. А затем развитие событий приняло фатальный оборот — в какой‑то момент одновременно отказали сервисы внешней связности сразу в двух зонах доступности… Это был один из самых крупных региональных инцидентов в облаке, после которого мы многое изменили в сети, чтобы сделать её устойчивее . С того момента прошло больше года, так что пришла пора рассказать эту историю от начала и до конца. В прошлой статье я уже показал наши основные подходы к повышению отказоустойчивости в этой ситуации. Однако за кадром остался сам процесс разработки новых решений и то, как мы мыслили, чтобы найти наилучший выход. Сегодня расскажу об этом подробнее. Статья основана на моём недавнем выступлении на Highload++ и дополнена по следам дальнейших расследований инцидентов.
https://habr.com/ru/companies/yandex/articles/992520/
#надежность #sla #отказоустойчивость #инцидентменеджмент #инциденты #отказоустойчивые_системы #отказоустойчивость_сетей
-
Ночь с пятницы на понедельник: борьба за устойчивость, когда облако дало сбой
…Был обычный ноябрьский вечер, 2024 год шёл к своему завершению: на носу была «чёрная пятница». Я вернулся домой в Новосибирск из почти двухнедельной командировки, пробыв в пути 12 часов и поспав часа четыре. В 19:07 алерт сообщил мне о падении одного из контроллеров. В целом, проблема не критичная, так как сервисы зарезервированы. Но всё же одним глазом я заглянул в чат с разбором. Через час ситуация стремительно ухудшилась: каскадом начали отказывать узлы, отвечающие за внешнюю связность. А затем развитие событий приняло фатальный оборот — в какой‑то момент одновременно отказали сервисы внешней связности сразу в двух зонах доступности… Это был один из самых крупных региональных инцидентов в облаке, после которого мы многое изменили в сети, чтобы сделать её устойчивее . С того момента прошло больше года, так что пришла пора рассказать эту историю от начала и до конца. В прошлой статье я уже показал наши основные подходы к повышению отказоустойчивости в этой ситуации. Однако за кадром остался сам процесс разработки новых решений и то, как мы мыслили, чтобы найти наилучший выход. Сегодня расскажу об этом подробнее. Статья основана на моём недавнем выступлении на Highload++ и дополнена по следам дальнейших расследований инцидентов.
https://habr.com/ru/companies/yandex/articles/992520/
#надежность #sla #отказоустойчивость #инцидентменеджмент #инциденты #отказоустойчивые_системы #отказоустойчивость_сетей
-
Инцидент-менеджмент с нуля: практический гайд для растущих команд
3 часа ночи. Звонок от незнакомого номера. ”Пользователи не могут залогиниться, п****ц”. Вы лихорадочно листаете Slack. Непонятно, где проблема и кого будить. Подняли тестеров — они тоже гадают. Бэкенд? Инфра? Идёте во флудилку в телеге, ищете похожий ник тимлида. Не отвечает. Кто замещает - никто не знает. Начинается массовый обзвон. Через 40 минут находится человек. Смотрит код. “Не моё. Это к Сане — он, кажется, редирект криво поменял в гугл клауд консоли”. Ещё 20 минут — поиск Сани, доступы только у него. Утром все разбитые. CTO вопрошает. И становится ясно: баг простой. Проблема не в коде. Проблема в бардаке. Знакомо? Я тоже через это прошел. И после такой ночи решил: хватит. Нужна система.
https://habr.com/ru/articles/982172/
#инцидентменеджмент #инцидент #sre #постмортем #devops #проектное_управление #duty #oncall
-
Управление инцидентами и проблемами в бизнес-процессах
Большинство из нас знает или слышало об управлении инцидентами и проблемами в ИТ и ИБ. Это фактически стало нормой, стандартом. Но как управляют инцидентами и проблемами в бизнес-функциях компании, в функциях отлличных от ИТ или ИБ?
https://habr.com/ru/articles/981430/
#инцидентменеджмент #бизнеспроцессы #бизнесанализ #бизнесаналитика #проблемы_управления #отчетность #управлление_рисками #управление_проблемами #эффективность #эффективные_менеджеры
-
Управление инцидентами и проблемами в бизнес-процессах
Большинство из нас знает или слышало об управлении инцидентами и проблемами в ИТ и ИБ. Это фактически стало нормой, стандартом. Но как управляют инцидентами и проблемами в бизнес-функциях компании, в функциях отлличных от ИТ или ИБ?
https://habr.com/ru/articles/981430/
#инцидентменеджмент #бизнеспроцессы #бизнесанализ #бизнесаналитика #проблемы_управления #отчетность #управлление_рисками #управление_проблемами #эффективность #эффективные_менеджеры
-
Управление инцидентами и проблемами в бизнес-процессах
Большинство из нас знает или слышало об управлении инцидентами и проблемами в ИТ и ИБ. Это фактически стало нормой, стандартом. Но как управляют инцидентами и проблемами в бизнес-функциях компании, в функциях отлличных от ИТ или ИБ?
https://habr.com/ru/articles/981430/
#инцидентменеджмент #бизнеспроцессы #бизнесанализ #бизнесаналитика #проблемы_управления #отчетность #управлление_рисками #управление_проблемами #эффективность #эффективные_менеджеры
-
Управление инцидентами и проблемами в бизнес-процессах
Большинство из нас знает или слышало об управлении инцидентами и проблемами в ИТ и ИБ. Это фактически стало нормой, стандартом. Но как управляют инцидентами и проблемами в бизнес-функциях компании, в функциях отлличных от ИТ или ИБ?
https://habr.com/ru/articles/981430/
#инцидентменеджмент #бизнеспроцессы #бизнесанализ #бизнесаналитика #проблемы_управления #отчетность #управлление_рисками #управление_проблемами #эффективность #эффективные_менеджеры
-
Свод знаний ITIL для управления ИТ-услугами в ERP-проектах
Программное обеспечение прошло долгий путь от набора команд до комплексных софтверных человеко-технических систем. Небольшие программные разработки, призванные решать локальные задачи, постепенно превратились в набор приложений, далее появились программные системы, включающие организационную составляющую, а позже – информационные системы как совокупность человека, техники и программных продуктов. Логическую последовательность завершили корпоративные информационные системы, объединившие в себе множество информационных систем [1]. Корпоративные информационные системы позволяют автоматизировать набор бизнес-процессов. Чем больше процессов, тем представительнее стандарт, цифровизирующий их. Так наиболее известным и востребованным классом систем является ERP [2]. ERP-системы охватывают практические все административно-хозяйственные операции компании и представляют средства для их автоматизации. Помимо ERP доступен широкий набор прочих классов: MRP, TMS, WMS, APS, BI, MES и др. Если раньше идея объединить все стандарты в единый класс казалась обоснованной, то на текущий момент – это утопия, так как слишком стремительно развиваются технологии и появляются новые виды систем. Потребность в управлении различными классами программных систем, являющихся основой функционирования современного предприятия, становится все более востребованной и незаменимой: достижение стратегических целей компании тесно связано с вопросом цифровизации бизнес-процессов. Среди множества сводов знаний, применимых к информационным системам: PMBoK, BABoK, BPM CBoK, DAMA-DMBoK, EABoK/TOGAF, SWEBoK, ITIL [3-9], последние два являются наиболее релевантными тематике данной статьи. Свод знаний по программной инженерии, SWEBoK, охватывает весь жизненный цикл информационной системы, в то время как лучшие практики по управлению ИТ-услугами, заданные в ITIL, не ограничиваются рассмотрением только софтверных решений, а представляют все многообразие ИТ-продуктов.
https://habr.com/ru/articles/974724/
#sla #itil4 #ит_услуга #поддержка_по #развитие_по #инцидентменеджмент #инциденты #дефекты #программа #проект
-
Postmortem без обвинений: Миф или реальность?
Человеческий мозг эволюционировал для выживания в саванне, а не для анализа распределенных систем. Когда что-то идет не так, наш древний мозг кричит: "Найди угрозу! Накажи виновного! Защити племя!" Эта реакция спасала наших предков от саблезубых тигров, но разрушает современные инженерные команды. Статистика, которая отрезвляет:
-
Как мы научили ML группировать 50 000 событий в инциденты
Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.
https://habr.com/ru/companies/oleg-bunin/articles/929928/
#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация
-
Как мы научили ML группировать 50 000 событий в инциденты
Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.
https://habr.com/ru/companies/oleg-bunin/articles/929928/
#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация
-
Как мы научили ML группировать 50 000 событий в инциденты
Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.
https://habr.com/ru/companies/oleg-bunin/articles/929928/
#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация
-
Как мы научили ML группировать 50 000 событий в инциденты
Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.
https://habr.com/ru/companies/oleg-bunin/articles/929928/
#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация
-
Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon
Обрыв каналов связи, багованный релиз, мискоммуникация… Серия загадочных событий, авантюрный детектив из цикла «Следствие вели…» — нет, не с Леонидом Каневским, и даже не Колобки, а команда разбора инцидентов, или просто Post. Хей-хей! Я Юля, и я специалист по сопровождению инцидентов в команде Post департамента SRE (Site Reliability Engineering). Когда я рассказываю своим друзьям, чем я занимаюсь на работе, мне часто говорят, что я работаю в детективном агентстве. Поэтому сегодня поговорим о том, как устроено управление инцидентами и проблемами в Ozon и чем оно схоже с работой детективов. Статья-расследование будет интересна всем, кто хоть раз задумывался о том, как большие компании не только справляются с форс-мажорами, но и учатся на своих ошибках. Расскажу о внутренней кухне и почему инцидент- и проблем-менеджмент — не «бюрократия», а палочка-выручалочка на пути к стабильности. Вперед вперед!
https://habr.com/ru/companies/ozontech/articles/925046/
#incident_management #incident #problem_management #postmortem #troubleshooting #инцидентменеджмент #управление_проблемами #управление_инцидентами #sre
-
Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon
Обрыв каналов связи, багованный релиз, мискоммуникация… Серия загадочных событий, авантюрный детектив из цикла «Следствие вели…» — нет, не с Леонидом Каневским, и даже не Колобки, а команда разбора инцидентов, или просто Post. Хей-хей! Я Юля, и я специалист по сопровождению инцидентов в команде Post департамента SRE (Site Reliability Engineering). Когда я рассказываю своим друзьям, чем я занимаюсь на работе, мне часто говорят, что я работаю в детективном агентстве. Поэтому сегодня поговорим о том, как устроено управление инцидентами и проблемами в Ozon и чем оно схоже с работой детективов. Статья-расследование будет интересна всем, кто хоть раз задумывался о том, как большие компании не только справляются с форс-мажорами, но и учатся на своих ошибках. Расскажу о внутренней кухне и почему инцидент- и проблем-менеджмент — не «бюрократия», а палочка-выручалочка на пути к стабильности. Вперед вперед!
https://habr.com/ru/companies/ozontech/articles/925046/
#incident_management #incident #problem_management #postmortem #troubleshooting #инцидентменеджмент #управление_проблемами #управление_инцидентами #sre
-
Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon
Обрыв каналов связи, багованный релиз, мискоммуникация… Серия загадочных событий, авантюрный детектив из цикла «Следствие вели…» — нет, не с Леонидом Каневским, и даже не Колобки, а команда разбора инцидентов, или просто Post. Хей-хей! Я Юля, и я специалист по сопровождению инцидентов в команде Post департамента SRE (Site Reliability Engineering). Когда я рассказываю своим друзьям, чем я занимаюсь на работе, мне часто говорят, что я работаю в детективном агентстве. Поэтому сегодня поговорим о том, как устроено управление инцидентами и проблемами в Ozon и чем оно схоже с работой детективов. Статья-расследование будет интересна всем, кто хоть раз задумывался о том, как большие компании не только справляются с форс-мажорами, но и учатся на своих ошибках. Расскажу о внутренней кухне и почему инцидент- и проблем-менеджмент — не «бюрократия», а палочка-выручалочка на пути к стабильности. Вперед вперед!
https://habr.com/ru/companies/ozontech/articles/925046/
#incident_management #incident #problem_management #postmortem #troubleshooting #инцидентменеджмент #управление_проблемами #управление_инцидентами #sre
-
Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon
Обрыв каналов связи, багованный релиз, мискоммуникация… Серия загадочных событий, авантюрный детектив из цикла «Следствие вели…» — нет, не с Леонидом Каневским, и даже не Колобки, а команда разбора инцидентов, или просто Post. Хей-хей! Я Юля, и я специалист по сопровождению инцидентов в команде Post департамента SRE (Site Reliability Engineering). Когда я рассказываю своим друзьям, чем я занимаюсь на работе, мне часто говорят, что я работаю в детективном агентстве. Поэтому сегодня поговорим о том, как устроено управление инцидентами и проблемами в Ozon и чем оно схоже с работой детективов. Статья-расследование будет интересна всем, кто хоть раз задумывался о том, как большие компании не только справляются с форс-мажорами, но и учатся на своих ошибках. Расскажу о внутренней кухне и почему инцидент- и проблем-менеджмент — не «бюрократия», а палочка-выручалочка на пути к стабильности. Вперед вперед!
https://habr.com/ru/companies/ozontech/articles/925046/
#incident_management #incident #problem_management #postmortem #troubleshooting #инцидентменеджмент #управление_проблемами #управление_инцидентами #sre
-
Как работать с инцидентами, когда на кону большие деньги
Привет, Хабр! На связи Дарья Попова, тимлид группы мониторинга в Купере. Наша миссия — минимизировать потери от инцидентов для компании и обеспечить сервис на 10/10 для клиентов. Почему это именно группа — вы поймете дальше. Сегодня я расскажу, как мы выстраивали процессы и инструменты мониторинга и автоматизации — и как это все упростило нам жизнь.
https://habr.com/ru/companies/kuper/articles/928632/
#алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса #runbook #критичные_сервисы #дежурные_инженеры #мониторинг
-
Как работать с инцидентами, когда на кону большие деньги
Привет, Хабр! На связи Дарья Попова, тимлид группы мониторинга в Купере. Наша миссия — минимизировать потери от инцидентов для компании и обеспечить сервис на 10/10 для клиентов. Почему это именно группа — вы поймете дальше. Сегодня я расскажу, как мы выстраивали процессы и инструменты мониторинга и автоматизации — и как это все упростило нам жизнь.
https://habr.com/ru/companies/kuper/articles/928632/
#алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса #runbook #критичные_сервисы #дежурные_инженеры #мониторинг
-
Как работать с инцидентами, когда на кону большие деньги
Привет, Хабр! На связи Дарья Попова, тимлид группы мониторинга в Купере. Наша миссия — минимизировать потери от инцидентов для компании и обеспечить сервис на 10/10 для клиентов. Почему это именно группа — вы поймете дальше. Сегодня я расскажу, как мы выстраивали процессы и инструменты мониторинга и автоматизации — и как это все упростило нам жизнь.
https://habr.com/ru/companies/kuper/articles/928632/
#алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса #runbook #критичные_сервисы #дежурные_инженеры #мониторинг
-
Как работать с инцидентами, когда на кону большие деньги
Привет, Хабр! На связи Дарья Попова, тимлид группы мониторинга в Купере. Наша миссия — минимизировать потери от инцидентов для компании и обеспечить сервис на 10/10 для клиентов. Почему это именно группа — вы поймете дальше. Сегодня я расскажу, как мы выстраивали процессы и инструменты мониторинга и автоматизации — и как это все упростило нам жизнь.
https://habr.com/ru/companies/kuper/articles/928632/
#алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса #runbook #критичные_сервисы #дежурные_инженеры #мониторинг
-
RAG‑агент для автоматизации инцидент‑менеджмента
Современные крупные организации сталкиваются с большим числом ИТ‑инцидентов — счет может идти на тысячи в месяц. Инциденты нередко повторяются со временем, однако найти похожий случай в базе знаний или в системе регистрации инцидентов непросто: стандартный поиск по ключевым словам часто неэффективен, а «держать в голове» детали всех инцидентов невозможно.
https://habr.com/ru/companies/otus/articles/912228/
#nlp #ai #bigdata #automation #инцидентменеджмент #machine_learning #rag
-
Тестирование без инцидентов в проде. Утопия или реальность?
Всем привет! Я старший специалист по тестированию в ITFB Group. Сегодня хочу поделиться с вами практическим опытом нашей команды — как нам удалось достичь нулевого количества инцидентов в продакшене за отчётный период. Это не теория, а реальная история из проекта крупного банка, где мы внедрили систему процессов, позволившую минимизировать риски. Если вам интересен практический подход к предотвращению сбоев, давайте разберём его вместе.
https://habr.com/ru/companies/itfb/articles/911760/
#itfb #тестирование #регрессионное_тестирование #qa #agile #инцидентменеджмент #автоматизация_тестирования #разработка_по #разработка_приложений
-
Как принимать решения при сбоях в IT-системах: методы поддержки принятия решений
Представьте ситуацию: вечер, срабатывает тревога - ваш интернет-магазин лежит в самый разгар распродажи. В логах куча ошибок, но явной причины не видно. Знакомо? Вот тут-то и начинается самое интересное. Я 3 года проработал в отделе сопровождения информационных систем и накопил десятки подобных случаев. Расскажу, как принимать решения, когда стандартные "перезагрузи и проверь" не работают. Понимаю, что кому-то мой опыт может показаться небольшим, а с некоторыми предложенными методами вы не будете согласны - предлагаю всё обсудить в комментариях. Расскажите о том, как это делается у вас в системах, а также поделитесь своим мнением.
https://habr.com/ru/articles/899266/
#itil #itsm #сбой #инцидент #инцидентменеджмент #поддержка #администрирование
-
Сбой с вероятностью один раз в 20 лет: о мартовском инциденте в дата-центре
30 марта сервисы, размещённые в одном из наших основных дата‑центров, оказались недоступны. К инциденту привела авария на опорной подстанции, которая спровоцировала отказ сразу двух вводов питания и последующий каскадный сбой оборудования. В этой статье подробно покажем, какие именно риски сработали — а для этого объясним, как устроено энергоснабжение в дата‑центре и на что это влияет. С этой точки зрения посмотрим, как развивались события в этот день и что бывает в дата‑центре, когда случаются ситуации, вероятность которых оценивается как «один на десятилетия». В завершение расскажем, что планируем делать дальше, чтобы не допустить повторения, и какой урок из этого могут извлечь другие инженеры.
https://habr.com/ru/companies/yandex/articles/897626/
#datacenters #датацентры #цод #инциденты #инцидентменеджмент #аварийные_ситуации #аварии_в_датацентрах #аварии_на_цод
-
Повышение качества выпускаемого ПО путем работы с инцидентами
Всем привет! Меня зовут Даша Мельникова, я ведущий релиз-менеджер в МКБ. В рамках этой статьи буду говорить об инцидентах, которые переходят на третью линию (на команду разработки). А еще о такой сущности, как инцидент ЗНО. Это сервисный запрос, обращение пользователя, в рамках которого мы лишь консультируем человека, а не правим код, то есть просто даем советы. Но если в рамках консультации возникает необходимость что-то доработать, то это выливается в создание новой фичи.
https://habr.com/ru/companies/mkb/articles/892962/
#инциденты #инцидентменеджмент #отказоустойчивые_системы #стабильность_системы
-
Руководство по проведению постмортемов. Как правильно разбирать инциденты для улучшения стабильности в будущем
Согласно определению postmortem – это процедура, посмертное вскрытие и исследование тела, обычно с целью установить причину смерти. Не очень приятное описание, но очень полезная практика, благодаря которой о человеческом организме и причинах его болезней и смерти удалось узнать много жизненно важной информации и использовать ее для сохранения огромного количества судеб. Заимствование практик из соседних наук не редкость – из медицинской практики в нашу рабочую повседневность и пришел принцип создания постмортемов. Для чего же нам нужно проводить “вскрытие” системы после инцидента? Тем более, что жизнь «пациента» была сохранена, и команда, работавшая над сохранением жизни, свою долю стресса и опыта уже получила. Во-первых, постмортемы помогают установить причину возникновения проблемы. Да, мы спасли нашу систему от комы, но, если не понять из-за чего она пыталась впасть в предсмертный припадок, с большой долей вероятности она попытается отправиться на тот свет снова и вполне возможно, что очень скоро. Тут мы открываем вторую причину – с помощью аналитики посмотрема, когда мы выявили причины сбоя, мы можем предотвратить повторение инцидента. В-третьих, при проведении посмотрема “вскрытия” могут обнаружиться на первый взгляд неочевидные системные недостатки внутри наших процессов, которые оказывают опосредованное влияние на работу и нуждаются в оптимизации. Возможно, у нас в шкафу пылится дефибриллятор, в то время как мы в каждый экстренный момент используем ручной массаж сердца, хотя эффективность применения дефибриллятора снизила бы временные и физические затраты команды на реанимацию и уменьшила бы риски человеческой ошибки.
https://habr.com/ru/articles/878366/
#SRE #отказоустойчивость #инцидентменеджмент #postmortem #команды #администрирование
-
Автоматизация мониторинга в НЛМК: от агрегации данных и ML до инцидент-менеджмента
Привет, Хабр! Простая истина: когда какой-то элемент инфраструктуры или бизнес-сервис простаивает, то компания несёт потери. Чем понятнее текущее состояние ИТ, тем быстрее можно реагировать на возникающие проблемы и не допускать простоев. Для этого, конечно, нужен мониторинг. Рассказываем, какой концептуальный подход к мониторингу мы применяем в команде НЛМК ИТ и как идёт один из наших проектов по внедрению зонтичного мониторинга и автоматизации на базе российской платформы Monq. Читать всем, кто хочет агрегировать данные из различных инструментов мониторинга в одном месте и автоматизировать управление этими данными.
https://habr.com/ru/companies/nlmk/articles/867800/
#мониторинг #monq #zabbix #grafana #prometheus #devops #инцидентменеджмент #ситуационный_центр #нлмк
-
Автоматизация мониторинга в НЛМК: от агрегации данных и ML до инцидент-менеджмента
Привет, Хабр! Простая истина: когда какой-то элемент инфраструктуры или бизнес-сервис простаивает, то компания несёт потери. Чем понятнее текущее состояние ИТ, тем быстрее можно реагировать на возникающие проблемы и не допускать простоев. Для этого, конечно, нужен мониторинг. Рассказываем, какой концептуальный подход к мониторингу мы применяем в команде НЛМК ИТ и как идёт один из наших проектов по внедрению зонтичного мониторинга и автоматизации на базе российской платформы Monq. Читать всем, кто хочет агрегировать данные из различных инструментов мониторинга в одном месте и автоматизировать управление этими данными.
https://habr.com/ru/companies/nlmk/articles/867800/
#мониторинг #monq #zabbix #grafana #prometheus #devops #инцидентменеджмент #ситуационный_центр #нлмк
-
Автоматизация мониторинга в НЛМК: от агрегации данных и ML до инцидент-менеджмента
Привет, Хабр! Простая истина: когда какой-то элемент инфраструктуры или бизнес-сервис простаивает, то компания несёт потери. Чем понятнее текущее состояние ИТ, тем быстрее можно реагировать на возникающие проблемы и не допускать простоев. Для этого, конечно, нужен мониторинг. Рассказываем, какой концептуальный подход к мониторингу мы применяем в команде НЛМК ИТ и как идёт один из наших проектов по внедрению зонтичного мониторинга и автоматизации на базе российской платформы Monq. Читать всем, кто хочет агрегировать данные из различных инструментов мониторинга в одном месте и автоматизировать управление этими данными.
https://habr.com/ru/companies/nlmk/articles/867800/
#мониторинг #monq #zabbix #grafana #prometheus #devops #инцидентменеджмент #ситуационный_центр #нлмк
-
Автоматизация мониторинга в НЛМК: от агрегации данных и ML до инцидент-менеджмента
Привет, Хабр! Простая истина: когда какой-то элемент инфраструктуры или бизнес-сервис простаивает, то компания несёт потери. Чем понятнее текущее состояние ИТ, тем быстрее можно реагировать на возникающие проблемы и не допускать простоев. Для этого, конечно, нужен мониторинг. Рассказываем, какой концептуальный подход к мониторингу мы применяем в команде НЛМК ИТ и как идёт один из наших проектов по внедрению зонтичного мониторинга и автоматизации на базе российской платформы Monq. Читать всем, кто хочет агрегировать данные из различных инструментов мониторинга в одном месте и автоматизировать управление этими данными.
https://habr.com/ru/companies/nlmk/articles/867800/
#мониторинг #monq #zabbix #grafana #prometheus #devops #инцидентменеджмент #ситуационный_центр #нлмк
-
IMPulse — наш взгляд на менеджмент инцидентов
Если ваша компания всё ещё не использует средства для менеджмента инцидентов, а утопает в обычных алертах из Alertmanager'а, эта статья для вас. Если ваша компания из-за санкций или соображений безопасности не может отправлять алерты в зарубежные системы менеджмента инцидентов, эта статья для вас. Если вы DevOps и уже изрядно намучились с поиском подобного решения (как я) - статья и для вас тоже. В статье мы презентуем наше open source решение для работы с алертами. Приглашаю всех заинтересованных под кат.
https://habr.com/ru/articles/865208/
#grafana_oncall #prometheus #alertmanager #мониторинг #monitoring #kiss #alert #incident #инцидентменеджмент
-
CMDB в ИТ-мониторинге или как устранять инциденты в 3 раза быстрей
Сегодня расскажем про то, как модуль управления инцидентами и модуль CMDB работают в паре для общей цели — сокращения времени на устранение аварий в несколько раз. Традиционно — все примеры из статьи можно реализовать в бесплатной комьюнити версии Monq.
https://habr.com/ru/companies/monq/articles/861858/
#мониторинг #мониторинг_сервера #инцидентменеджмент #инциденты #мониторинг_логов #мониторинг_итинфраструктуры #мониторинг_инфраструктуры #зонтичный_мониторинг #алертинг #cmdb
-
CMDB в ИТ-мониторинге или как устранять инциденты в 3 раза быстрей
Сегодня расскажем про то, как модуль управления инцидентами и модуль CMDB работают в паре для общей цели — сокращения времени на устранение аварий в несколько раз. Традиционно — все примеры из статьи можно реализовать в бесплатной комьюнити версии Monq.
https://habr.com/ru/companies/monq/articles/861858/
#мониторинг #мониторинг_сервера #инцидентменеджмент #инциденты #мониторинг_логов #мониторинг_итинфраструктуры #мониторинг_инфраструктуры #зонтичный_мониторинг #алертинг #cmdb
-
CMDB в ИТ-мониторинге или как устранять инциденты в 3 раза быстрей
Сегодня расскажем про то, как модуль управления инцидентами и модуль CMDB работают в паре для общей цели — сокращения времени на устранение аварий в несколько раз. Традиционно — все примеры из статьи можно реализовать в бесплатной комьюнити версии Monq.
https://habr.com/ru/companies/monq/articles/861858/
#мониторинг #мониторинг_сервера #инцидентменеджмент #инциденты #мониторинг_логов #мониторинг_итинфраструктуры #мониторинг_инфраструктуры #зонтичный_мониторинг #алертинг #cmdb
-
CMDB в ИТ-мониторинге или как устранять инциденты в 3 раза быстрей
Сегодня расскажем про то, как модуль управления инцидентами и модуль CMDB работают в паре для общей цели — сокращения времени на устранение аварий в несколько раз. Традиционно — все примеры из статьи можно реализовать в бесплатной комьюнити версии Monq.
https://habr.com/ru/companies/monq/articles/861858/
#мониторинг #мониторинг_сервера #инцидентменеджмент #инциденты #мониторинг_логов #мониторинг_итинфраструктуры #мониторинг_инфраструктуры #зонтичный_мониторинг #алертинг #cmdb
-
Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема
Управление инцидентами - это порой ночной кошмар любого ИТ-директора. Поднимите руку те, у кого не было ночных сообщений, что упал критический сервис! Почему так мало рук? Да потому что этот самый процесс в большинстве компаний устроен криво. Каждый раз его придумывают заново, проходя путь от ручного режима, далее общей почты или телеграмм группы до самописной системы управления инцидентами. И чем позже мы приходим в компанию выправлять процесс, тем больше сопротивления и непонимания “А что так можно было?”. Помню, как 8 лет назад я руководил сервисной службой в компании, которая предоставляла услуги поддержки важной внутренней системы крупного клиента. Однажды ночью, примерно в три часа, мой телефон разрывается от звонка. На экране — заказчик. Не успеваю сказать "алло", как слышу: "Вы там спите что ли? У нас АСУ ПОБСУ лежит! Вы в курсе почему? (Я молчу) Мы больше не будем с вами работать!" — и бросает трубку.
https://habr.com/ru/companies/monq/articles/859446/
#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг #oncall #lowcode #low_code #nocode
-
Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема
Управление инцидентами - это порой ночной кошмар любого ИТ-директора. Поднимите руку те, у кого не было ночных сообщений, что упал критический сервис! Почему так мало рук? Да потому что этот самый процесс в большинстве компаний устроен криво. Каждый раз его придумывают заново, проходя путь от ручного режима, далее общей почты или телеграмм группы до самописной системы управления инцидентами. И чем позже мы приходим в компанию выправлять процесс, тем больше сопротивления и непонимания “А что так можно было?”. Помню, как 8 лет назад я руководил сервисной службой в компании, которая предоставляла услуги поддержки важной внутренней системы крупного клиента. Однажды ночью, примерно в три часа, мой телефон разрывается от звонка. На экране — заказчик. Не успеваю сказать "алло", как слышу: "Вы там спите что ли? У нас АСУ ПОБСУ лежит! Вы в курсе почему? (Я молчу) Мы больше не будем с вами работать!" — и бросает трубку.
https://habr.com/ru/companies/monq/articles/859446/
#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг #oncall #lowcode #low_code #nocode
-
Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема
Управление инцидентами - это порой ночной кошмар любого ИТ-директора. Поднимите руку те, у кого не было ночных сообщений, что упал критический сервис! Почему так мало рук? Да потому что этот самый процесс в большинстве компаний устроен криво. Каждый раз его придумывают заново, проходя путь от ручного режима, далее общей почты или телеграмм группы до самописной системы управления инцидентами. И чем позже мы приходим в компанию выправлять процесс, тем больше сопротивления и непонимания “А что так можно было?”. Помню, как 8 лет назад я руководил сервисной службой в компании, которая предоставляла услуги поддержки важной внутренней системы крупного клиента. Однажды ночью, примерно в три часа, мой телефон разрывается от звонка. На экране — заказчик. Не успеваю сказать "алло", как слышу: "Вы там спите что ли? У нас АСУ ПОБСУ лежит! Вы в курсе почему? (Я молчу) Мы больше не будем с вами работать!" — и бросает трубку.
https://habr.com/ru/companies/monq/articles/859446/
#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг #oncall #lowcode #low_code #nocode
-
Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема
Управление инцидентами - это порой ночной кошмар любого ИТ-директора. Поднимите руку те, у кого не было ночных сообщений, что упал критический сервис! Почему так мало рук? Да потому что этот самый процесс в большинстве компаний устроен криво. Каждый раз его придумывают заново, проходя путь от ручного режима, далее общей почты или телеграмм группы до самописной системы управления инцидентами. И чем позже мы приходим в компанию выправлять процесс, тем больше сопротивления и непонимания “А что так можно было?”. Помню, как 8 лет назад я руководил сервисной службой в компании, которая предоставляла услуги поддержки важной внутренней системы крупного клиента. Однажды ночью, примерно в три часа, мой телефон разрывается от звонка. На экране — заказчик. Не успеваю сказать "алло", как слышу: "Вы там спите что ли? У нас АСУ ПОБСУ лежит! Вы в курсе почему? (Я молчу) Мы больше не будем с вами работать!" — и бросает трубку.
https://habr.com/ru/companies/monq/articles/859446/
#мониторинг_логов #мониторинг #инцидентменеджмент #инцидент #алерты #алертинг #oncall #lowcode #low_code #nocode
-
Автоматизация мониторинга с Monq: Управление сигналами и интеграция с Zabbix
Сегодня я расскажу, как с помощью системы Monq и ее инструмента low-code автоматизации можно эффективно настраивать мониторинг и управление инцидентами на примере интеграции с Zabbix. Будет описание ключевых элементов, включая создание и обработку сигналов, управление состоянием конфигурационных единиц и автоматизации процессов. А еще — полезные ссылки на бесплатную комьюнити версию и ранний доступ к облачной версии. Надеюсь, этот пост будет полезен специалистам, которые хотят оптимизировать мониторинг сложной ИТ-инфраструктуры, заодно улучшив управление инцидентами.
https://habr.com/ru/companies/monq/articles/856982/
#мониторинг #зонтичный_мониторинг #мониторинг_логов #мониторинг_сети #мониторинг_сервера #мониторинг_инфраструктуры #zabbix #lowcode #observability #инцидентменеджмент
-
Как успешно бороться с инцидентами в ИТ-сфере
В нашей работе баги неизбежны, но как именно мы справляемся с этим вызовом — вот что нас отличает. Хочу поделиться с вами историей о том, как одна из платежных команд разработки успешно решала ошибки в продуктовой среде, повышала качество разработки, боролась с легаси кодом и техдолгом.
https://habr.com/ru/articles/833320/
#баги #инцидентменеджмент #ошибки #качество_продукта #качество_программного_обеспечения #финтехпроекты
-
Как успешно бороться с инцидентами в ИТ-сфере
В нашей работе баги неизбежны, но как именно мы справляемся с этим вызовом — вот что нас отличает. Хочу поделиться с вами историей о том, как одна из платежных команд разработки успешно решала ошибки в продуктовой среде, повышала качество разработки, боролась с легаси кодом и техдолгом.
https://habr.com/ru/articles/833320/
#баги #инцидентменеджмент #ошибки #качество_продукта #качество_программного_обеспечения #финтехпроекты
-
Как успешно бороться с инцидентами в ИТ-сфере
В нашей работе баги неизбежны, но как именно мы справляемся с этим вызовом — вот что нас отличает. Хочу поделиться с вами историей о том, как одна из платежных команд разработки успешно решала ошибки в продуктовой среде, повышала качество разработки, боролась с легаси кодом и техдолгом.
https://habr.com/ru/articles/833320/
#баги #инцидентменеджмент #ошибки #качество_продукта #качество_программного_обеспечения #финтехпроекты
-
Мониторинг высоконагруженных систем: ускоряем обработку тысяч событий с обработчиками автоматизации в мониторинге Monq
Мониторинг высоконагруженных систем: ускоряем обработку тысяч событий с обработчиками автоматизации в мониторинге Monq Привет, Хабр! В этом статье рассказываем, как устроена low и no-code автоматизация в Monq и как с ее помощью можно оптимизировать обработку данных высоконагруженных систем. В центре внимания – «работяги» – обработчики автоматизации. На конкретных примерах показываем, какие опции использовать, чтобы нагрузка между ними распределялась равномерно.
https://habr.com/ru/companies/monq/articles/832602/
#мониторинг #зонтичный_мониторинг #мониторинг_инфраструктуры #инцидентменеджмент #lowcode #nocode #observability #zabbix #ресурсносервисная_модель #эскалация
-
Мониторинг высоконагруженных систем: ускоряем обработку тысяч событий с обработчиками автоматизации в мониторинге Monq
Мониторинг высоконагруженных систем: ускоряем обработку тысяч событий с обработчиками автоматизации в мониторинге Monq Привет, Хабр! В этом статье рассказываем, как устроена low и no-code автоматизация в Monq и как с ее помощью можно оптимизировать обработку данных высоконагруженных систем. В центре внимания – «работяги» – обработчики автоматизации. На конкретных примерах показываем, какие опции использовать, чтобы нагрузка между ними распределялась равномерно.
https://habr.com/ru/companies/monq/articles/832602/
#мониторинг #зонтичный_мониторинг #мониторинг_инфраструктуры #инцидентменеджмент #lowcode #nocode #observability #zabbix #ресурсносервисная_модель #эскалация
-
Мониторинг высоконагруженных систем: ускоряем обработку тысяч событий с обработчиками автоматизации в мониторинге Monq
Мониторинг высоконагруженных систем: ускоряем обработку тысяч событий с обработчиками автоматизации в мониторинге Monq Привет, Хабр! В этом статье рассказываем, как устроена low и no-code автоматизация в Monq и как с ее помощью можно оптимизировать обработку данных высоконагруженных систем. В центре внимания – «работяги» – обработчики автоматизации. На конкретных примерах показываем, какие опции использовать, чтобы нагрузка между ними распределялась равномерно.
https://habr.com/ru/companies/monq/articles/832602/
#мониторинг #зонтичный_мониторинг #мониторинг_инфраструктуры #инцидентменеджмент #lowcode #nocode #observability #zabbix #ресурсносервисная_модель #эскалация
-
Качество данных и роботы: как мы высвободили 5 рабочих часов в день сотрудника DQ
Привет, меня зовут Катя Моисеева, я руководитель направления качества данных в Data Office Tele2. Мы уже рассказывали о том, как с нуля строили процессы качества данных на различных площадках (выступления можно посмотреть по ссылке). Сейчас для нас остро встал вопрос о ресурсах нашей команды, а точнее их «резиновости» - поток входящих инцидентов растет по мере подключения новых систем к проверкам качества, а команда остается в составе 3 сотрудников. Возникает вопрос – а какая она, идеальная команда качества данных, которая сможет создать процессы с нуля, внедрить и привить культуру внутренним заказчикам, свести к минимуму риски возникновения инцидентов, а еще минимизировать затраты компании? Под катом поделились своим опытом борьбы с хаосом из потока входящих задач и запросов от бизнеса и о маленьком роботе-спасителе, который экономит нам ежедневно 5 часов сотрудника DQ и внедрить которого по силам каждому.
https://habr.com/ru/companies/tele2/articles/820991/
#качество_данных #качество_данных_(data_quality) #управление_данными #хранилище_данных #база_дынных #инцидентменеджмент #контроль_качества #автоматизация #скрипт #dq