home.social

#надежность_сервисов — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #надежность_сервисов, aggregated by home.social.

  1. SLA как инструмент, а не отчёт. Часть 1. Как подружить бизнес и инженеров через общие цифры

    Наш прежний SLA формально выглядел корректно: была формула, «четыре девятки» и отчёты. Но в моменты сбоев это не помогало ответить бизнесу на вопросы: сколько времени мы были недоступны, какова потенциально недополученная прибыль и каким был вклад разных подразделений в «наши девятки». Команды по‑своему считали простои и потери, называли разные цифры, и формально все были правы, но временами договориться про общий знаменатель в расчётах становилось слишком сложно. Меня зовут Дмитрий Химион, я руководитель ML Platform в X5 Digital. В статье расскажу, как мы «жили у границы потери доверия к SLA» и что с этим сделали: от запроса руководства и пересборки инцидент-менеджмента до доверенного алгоритма расчёта потерь и разделения SLA на бизнес- и технический уровни.

    habr.com/ru/companies/X5Tech/a

    #инцидентменеджмент #sla #backend #управление_рисками #аналитика #мониторинг #временные_ряды #дашборды #надежность_сервисов #расчет_потерь

  2. SLA как инструмент, а не отчёт. Часть 1. Как подружить бизнес и инженеров через общие цифры

    Наш прежний SLA формально выглядел корректно: была формула, «четыре девятки» и отчёты. Но в моменты сбоев это не помогало ответить бизнесу на вопросы: сколько времени мы были недоступны, какова потенциально недополученная прибыль и каким был вклад разных подразделений в «наши девятки». Команды по‑своему считали простои и потери, называли разные цифры, и формально все были правы, но временами договориться про общий знаменатель в расчётах становилось слишком сложно. Меня зовут Дмитрий Химион, я руководитель ML Platform в X5 Digital. В статье расскажу, как мы «жили у границы потери доверия к SLA» и что с этим сделали: от запроса руководства и пересборки инцидент-менеджмента до доверенного алгоритма расчёта потерь и разделения SLA на бизнес- и технический уровни.

    habr.com/ru/companies/X5Tech/a

    #инцидентменеджмент #sla #backend #управление_рисками #аналитика #мониторинг #временные_ряды #дашборды #надежность_сервисов #расчет_потерь

  3. Как приручить SLO'на в племени микросервисов

    Бизнес Додо активно масштабируется. Уже сейчас Dodo IS круглосуточно работает в двух облаках, более чем в 25 странах и практически во всех часовых поясах. В таких условиях важно знать, что вся система действительно работает хорошо, а не просто «не горит» прямо сейчас. Чтобы это знание обрести, мы привезли в нашу инженерную савану SLO'на — неповоротливое, но умное существо. Он наводит порядок в хаосе метрик и алёртов, и отличает реальную проблему от мнимой. А ещё он требует внимания, точных чисел и ясных целей. Поначалу мы его боялись, но позже поняли: если его приручить, он защитит нас от ночных звонков и научит бизнес говорить на языке надёжности. Сегодня мы расскажем, как приручили своего SLO'на и прошли путь от первых экспериментов с нагрузочным тестированием до построения культуры надёжности.

    habr.com/ru/companies/dododev/

    #slo #observability #надежность_сервисов #метрики_качества #dodoengineering #инженерный_блог

  4. Как приручить SLO'на в племени микросервисов

    Бизнес Додо активно масштабируется. Уже сейчас Dodo IS круглосуточно работает в двух облаках, более чем в 25 странах и практически во всех часовых поясах. В таких условиях важно знать, что вся система действительно работает хорошо, а не просто «не горит» прямо сейчас. Чтобы это знание обрести, мы привезли в нашу инженерную савану SLO'на — неповоротливое, но умное существо. Он наводит порядок в хаосе метрик и алёртов, и отличает реальную проблему от мнимой. А ещё он требует внимания, точных чисел и ясных целей. Поначалу мы его боялись, но позже поняли: если его приручить, он защитит нас от ночных звонков и научит бизнес говорить на языке надёжности. Сегодня мы расскажем, как приручили своего SLO'на и прошли путь от первых экспериментов с нагрузочным тестированием до построения культуры надёжности.

    habr.com/ru/companies/dododev/

    #slo #observability #надежность_сервисов #метрики_качества #dodoengineering #инженерный_блог

  5. Как приручить SLO'на в племени микросервисов

    Бизнес Додо активно масштабируется. Уже сейчас Dodo IS круглосуточно работает в двух облаках, более чем в 25 странах и практически во всех часовых поясах. В таких условиях важно знать, что вся система действительно работает хорошо, а не просто «не горит» прямо сейчас. Чтобы это знание обрести, мы привезли в нашу инженерную савану SLO'на — неповоротливое, но умное существо. Он наводит порядок в хаосе метрик и алёртов, и отличает реальную проблему от мнимой. А ещё он требует внимания, точных чисел и ясных целей. Поначалу мы его боялись, но позже поняли: если его приручить, он защитит нас от ночных звонков и научит бизнес говорить на языке надёжности. Сегодня мы расскажем, как приручили своего SLO'на и прошли путь от первых экспериментов с нагрузочным тестированием до построения культуры надёжности.

    habr.com/ru/companies/dododev/

    #slo #observability #надежность_сервисов #метрики_качества #dodoengineering #инженерный_блог

  6. Как приручить SLO'на в племени микросервисов

    Бизнес Додо активно масштабируется. Уже сейчас Dodo IS круглосуточно работает в двух облаках, более чем в 25 странах и практически во всех часовых поясах. В таких условиях важно знать, что вся система действительно работает хорошо, а не просто «не горит» прямо сейчас. Чтобы это знание обрести, мы привезли в нашу инженерную савану SLO'на — неповоротливое, но умное существо. Он наводит порядок в хаосе метрик и алёртов, и отличает реальную проблему от мнимой. А ещё он требует внимания, точных чисел и ясных целей. Поначалу мы его боялись, но позже поняли: если его приручить, он защитит нас от ночных звонков и научит бизнес говорить на языке надёжности. Сегодня мы расскажем, как приручили своего SLO'на и прошли путь от первых экспериментов с нагрузочным тестированием до построения культуры надёжности.

    habr.com/ru/companies/dododev/

    #slo #observability #надежность_сервисов #метрики_качества #dodoengineering #инженерный_блог