#надежность_сервисов — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #надежность_сервисов, aggregated by home.social.
-
SLA как инструмент, а не отчёт. Часть 1. Как подружить бизнес и инженеров через общие цифры
Наш прежний SLA формально выглядел корректно: была формула, «четыре девятки» и отчёты. Но в моменты сбоев это не помогало ответить бизнесу на вопросы: сколько времени мы были недоступны, какова потенциально недополученная прибыль и каким был вклад разных подразделений в «наши девятки». Команды по‑своему считали простои и потери, называли разные цифры, и формально все были правы, но временами договориться про общий знаменатель в расчётах становилось слишком сложно. Меня зовут Дмитрий Химион, я руководитель ML Platform в X5 Digital. В статье расскажу, как мы «жили у границы потери доверия к SLA» и что с этим сделали: от запроса руководства и пересборки инцидент-менеджмента до доверенного алгоритма расчёта потерь и разделения SLA на бизнес- и технический уровни.
https://habr.com/ru/companies/X5Tech/articles/1038772/
#инцидентменеджмент #sla #backend #управление_рисками #аналитика #мониторинг #временные_ряды #дашборды #надежность_сервисов #расчет_потерь
-
SLA как инструмент, а не отчёт. Часть 1. Как подружить бизнес и инженеров через общие цифры
Наш прежний SLA формально выглядел корректно: была формула, «четыре девятки» и отчёты. Но в моменты сбоев это не помогало ответить бизнесу на вопросы: сколько времени мы были недоступны, какова потенциально недополученная прибыль и каким был вклад разных подразделений в «наши девятки». Команды по‑своему считали простои и потери, называли разные цифры, и формально все были правы, но временами договориться про общий знаменатель в расчётах становилось слишком сложно. Меня зовут Дмитрий Химион, я руководитель ML Platform в X5 Digital. В статье расскажу, как мы «жили у границы потери доверия к SLA» и что с этим сделали: от запроса руководства и пересборки инцидент-менеджмента до доверенного алгоритма расчёта потерь и разделения SLA на бизнес- и технический уровни.
https://habr.com/ru/companies/X5Tech/articles/1038772/
#инцидентменеджмент #sla #backend #управление_рисками #аналитика #мониторинг #временные_ряды #дашборды #надежность_сервисов #расчет_потерь
-
Как приручить SLO'на в племени микросервисов
Бизнес Додо активно масштабируется. Уже сейчас Dodo IS круглосуточно работает в двух облаках, более чем в 25 странах и практически во всех часовых поясах. В таких условиях важно знать, что вся система действительно работает хорошо, а не просто «не горит» прямо сейчас. Чтобы это знание обрести, мы привезли в нашу инженерную савану SLO'на — неповоротливое, но умное существо. Он наводит порядок в хаосе метрик и алёртов, и отличает реальную проблему от мнимой. А ещё он требует внимания, точных чисел и ясных целей. Поначалу мы его боялись, но позже поняли: если его приручить, он защитит нас от ночных звонков и научит бизнес говорить на языке надёжности. Сегодня мы расскажем, как приручили своего SLO'на и прошли путь от первых экспериментов с нагрузочным тестированием до построения культуры надёжности.
https://habr.com/ru/companies/dododev/articles/963720/
#slo #observability #надежность_сервисов #метрики_качества #dodoengineering #инженерный_блог
-
Как приручить SLO'на в племени микросервисов
Бизнес Додо активно масштабируется. Уже сейчас Dodo IS круглосуточно работает в двух облаках, более чем в 25 странах и практически во всех часовых поясах. В таких условиях важно знать, что вся система действительно работает хорошо, а не просто «не горит» прямо сейчас. Чтобы это знание обрести, мы привезли в нашу инженерную савану SLO'на — неповоротливое, но умное существо. Он наводит порядок в хаосе метрик и алёртов, и отличает реальную проблему от мнимой. А ещё он требует внимания, точных чисел и ясных целей. Поначалу мы его боялись, но позже поняли: если его приручить, он защитит нас от ночных звонков и научит бизнес говорить на языке надёжности. Сегодня мы расскажем, как приручили своего SLO'на и прошли путь от первых экспериментов с нагрузочным тестированием до построения культуры надёжности.
https://habr.com/ru/companies/dododev/articles/963720/
#slo #observability #надежность_сервисов #метрики_качества #dodoengineering #инженерный_блог
-
Как приручить SLO'на в племени микросервисов
Бизнес Додо активно масштабируется. Уже сейчас Dodo IS круглосуточно работает в двух облаках, более чем в 25 странах и практически во всех часовых поясах. В таких условиях важно знать, что вся система действительно работает хорошо, а не просто «не горит» прямо сейчас. Чтобы это знание обрести, мы привезли в нашу инженерную савану SLO'на — неповоротливое, но умное существо. Он наводит порядок в хаосе метрик и алёртов, и отличает реальную проблему от мнимой. А ещё он требует внимания, точных чисел и ясных целей. Поначалу мы его боялись, но позже поняли: если его приручить, он защитит нас от ночных звонков и научит бизнес говорить на языке надёжности. Сегодня мы расскажем, как приручили своего SLO'на и прошли путь от первых экспериментов с нагрузочным тестированием до построения культуры надёжности.
https://habr.com/ru/companies/dododev/articles/963720/
#slo #observability #надежность_сервисов #метрики_качества #dodoengineering #инженерный_блог
-
Как приручить SLO'на в племени микросервисов
Бизнес Додо активно масштабируется. Уже сейчас Dodo IS круглосуточно работает в двух облаках, более чем в 25 странах и практически во всех часовых поясах. В таких условиях важно знать, что вся система действительно работает хорошо, а не просто «не горит» прямо сейчас. Чтобы это знание обрести, мы привезли в нашу инженерную савану SLO'на — неповоротливое, но умное существо. Он наводит порядок в хаосе метрик и алёртов, и отличает реальную проблему от мнимой. А ещё он требует внимания, точных чисел и ясных целей. Поначалу мы его боялись, но позже поняли: если его приручить, он защитит нас от ночных звонков и научит бизнес говорить на языке надёжности. Сегодня мы расскажем, как приручили своего SLO'на и прошли путь от первых экспериментов с нагрузочным тестированием до построения культуры надёжности.
https://habr.com/ru/companies/dododev/articles/963720/
#slo #observability #надежность_сервисов #метрики_качества #dodoengineering #инженерный_блог