#mttr — Public Fediverse posts on home.social

Habr @[email protected] · 2026-07-30 · 12:42 UTC

Мы чинили инциденты всё быстрее — а недовольство клиентов росло. Почему MTBF важнее MTTR

Инцидентов стало в два раза больше. Время восстановления сократилось вдвое. Uptime сервисов держался в норме. По всем ключевым метрикам мы становились лучше. А обращения в саппорт росли, аккаунт-менеджеры передавали жалобы, и в клиентском чате всё чаще писали, что сервис нестабилен. Эта статья о том, как метрики надёжности могут хором врать о клиентском опыте, почему установка «чините быстрее» — ловушка, которая сжигает дежурных инженеров и прячет настоящую причину проблем, и как мы развернули фокус с MTTR на MTBF, сократили количество инцидентов вдвое и вернули поток обращений клиентов к норме.

https://habr.com/ru/articles/1064948/

#mtbf #mttr #sre #надежность #метрики #инциденты #управление_разработкой

#управление_разработкой #инциденты #метрики #надежность #sre #mttr

Habr @[email protected] · 2026-07-06 · 12:22 UTC

EventRAG: как научить RAG искать первопричину во времени, а не в тексте

Завод теряет деньги не в момент поломки, а пока инженер ищет ответ на вопрос «почему». Заменить подшипник — полчаса; понять, что подшипник убила заявка на ТО, отложенная два месяца назад, — часы, и именно эти часы стоят дороже всего. По данным Siemens, незапланированный простой обходится 500 крупнейшим компаниям мира в $1,4 трлн в год, а средний крупный завод теряет 27 часов в месяц. Казалось бы, вот задача для корпоративного RAG-ассистента. Но обычный RAG здесь проваливается структурно: он ищет похожее по тексту, а первопричина цехового инцидента почти никогда не похожа на симптом. Аларм «потеря мастеринга оси» и наряд «замена батарей энкодера», отложенный 67 дней назад из-за отсутствия ЗИП, — для семантического поиска это разные вселенные. В итоге ассистент уверенно советует «перемастерить ось и продолжить» — симптом снят, причина осталась, при следующем отключении питания линия встанет снова. Разбираю EventRAG — архитектуру, которая учит RAG работать с потоками событий из PLC, MES, Historian и CMMS: каждое событие получает явный временной якорь, поверх строится причинный граф знаний, а поиск идёт от симптома назад по причинным связям — и вытягивает настоящий корень с последнего места выдачи выше всех отвлекающих сигналов. Внутри — полный разбор живого по типажу инцидента на роботе-паллетайзере Hyundai Hi5-N00 со всеми расчётами, AR-HUD для инженера, прозрачная экономика внедрения, двадцать схем и position paper, с которым мы участвуем в ISPR 2026 в Сараево. Все допущения и модельные цифры честно помечены.

https://habr.com/ru/articles/1056056/

#RAG #LLM #root_cause_analysis #knowledge_graph #Industry_50 #onpremise #MTTR #дополненная_реальность #предиктивное_обслуживание #промышленность

#промышленность #предиктивное_обслуживание #дополненная_реальность #mttr #onpremise #industry_50

Habr @[email protected] · 2026-07-01 · 14:52 UTC

Призраки инфраструктуры: кто ответит за сервер, у которого нет владельца

Пятница, 23:47. prod-db-07 лежит, авторизация мобилки не работает, 40 000 пользователей не могут войти. В поле «владелец» — прочерк, последний ответственный уволился в ноябре. Чинят под паролем root/root из письма двухлетней давности.

https://habr.com/ru/companies/simpleone/articles/1054502/

#itam #itsm #cmdb #управление_итактивами #учёт_активов #инфраструктура #простой_сервиса #mttr #дискаверинг #итактивы

#итактивы #дискаверинг #mttr #простой_сервиса #инфраструктура #учёт_активов

Habr @[email protected] · 2026-04-29 · 11:42 UTC

Если инцидент закрыт, это не значит, что проблема решена

Пятница, 23:40, прод лежит. Дежурный поднимает сервис за сорок минут: перезапустил контейнер, всё заработало. Инцидент закрыт, MTTR красивый, все спать. Через десять дней то же самое: тот же сервис, та же ошибка в логах. Снова подняли и снова закрыли.

https://habr.com/ru/companies/simpleone/articles/1029592/

#ITSM #SDLC #инцидент #баг #Service_Desk #DevOps #MTTR #управление_инцидентами

#управление_инцидентами #mttr #devops #service_desk #баг #инцидент

Analyst207 @[email protected] · 2026-04-21 · 14:40 UTC

Threat Response Times Hinge on Smart SOC Design

When a breach occurs, the clock is ticking - and the cost of delayed response can be crippling, with every hour of inaction threatening data exfiltration, service disruption, regulatory exposure, and brand damage. A smart SOC design can be the difference between a swift response and a devastating fallout.

https://osintsights.com/threat-response-times-hinge-on-smart-soc-design?utm_source=mastodon&utm_medium=social

#SecurityOperationsCenter #SmartSocDesign #Mttr #ThreatResponse #IncidentResponse

#securityoperationscenter #smartsocdesign #mttr #threatresponse #incidentresponse

Habr @[email protected] · 2026-04-17 · 12:42 UTC

Что такое DORA-метрики и как их измерять, часть 1

Проблема большинства команд не в том, что они работают медленно. Проблема в том, что они толком не понимают, где именно теряют время, сколько стоит каждая ошибка и насколько тяжёлым стал сам процесс поставки изменений. Именно здесь и полезны DORA-метрики. Разберём, что они измеряют, где их чаще всего трактуют неправильно и как применять их без KPI-магии.

https://habr.com/ru/companies/simpleone/articles/1024676/

#dora #doraметрики #devops #cicd #метрики_разработки #deployment_frequency #lead_time #change_failure_rate #mttr #sdlc

#sdlc #mttr #change_failure_rate #lead_time #deployment_frequency #метрики_разработки

Habr @[email protected] · 2026-02-03 · 12:12 UTC

Метрики технического долга в ИБ

Представьте ситуацию: директор спрашивает про состояние информационной безопасности, а вы отвечаете — «Мы закрыли 100 уязвимостей за квартал». Звучит солидно. Для бизнеса же это почти ничего не значит. Руководству важнее понимать, насколько снизился риск и работает ли вообще то, на что компания тратит деньги. Поговорим о метриках технического долга в ИБ, которые помогают ответить на эти вопросы и перевести ценность безопасности на язык, понятный бизнесу.

https://habr.com/ru/companies/otus/articles/991090/

#метрики #технический_долг #метрики_ИБ #управление_рисками #уязвимости #MTTR

#mttr #уязвимости #управление_рисками #метрики_иб #технический_долг #метрики

Security Land @[email protected] · 2026-01-09 · 10:01 UTC

A new global survey of 750 CISOs by Absolute Security has uncovered a critical "recovery reality gap" that is redefining modern security priorities. The data reveals a sobering truth: not a single organization reported being able to fully restore business operations within 24 hours of a major cyber incident.

#SecurityLand #BusinessShield #CyberSecurity #CISO #MTTR #AbsoluteSecurity #CyberResilience #CyberDefense #Research

#securityland #businessshield #cybersecurity #ciso #mttr #absolutesecurity

Security Land @[email protected] · 2026-01-09 · 10:01 UTC

A new global survey of 750 CISOs by Absolute Security has uncovered a critical "recovery reality gap" that is redefining modern security priorities. The data reveals a sobering truth: not a single organization reported being able to fully restore business operations within 24 hours of a major cyber incident.

#SecurityLand #BusinessShield #CyberSecurity #CISO #MTTR #AbsoluteSecurity #CyberResilience #CyberDefense #Research

#securityland #businessshield #cybersecurity #ciso #mttr #absolutesecurity

Habr @[email protected] · 2025-09-26 · 11:52 UTC

[Перевод] Сначала Agile, потом — агентный ИИ

Агентные ИИ-системы обещают ускорить разработку, но ускоряют только там, где уже налажен быстрый поток поставки: автономные продуктовые команды, короткие циклы, непрерывная обратная связь. Реальность же прозаична: по DORA многие организации релизят реже раза в неделю, у четверти change failure rate доходит до 40%, а инциденты чинятся неделями. В статье разбираемся, почему без «взрослого» Agile и DevOps ИИ-агенты всего лишь делают узкие места заметнее, и как организационная агентность (право и способность команд действовать) становится предпосылкой для реальной выгоды от ИИ. Agile → ИИ-агенты: что важно

https://habr.com/ru/companies/otus/articles/950504/

#агентный_ИИ #агентность #agile #метрики_dora #частота_релизов #MTTR #автономность_команды #devops

#агентный_ии #агентность #agile #метрики_dora #частота_релизов #mttr

Habr @[email protected] · 2025-09-19 · 09:42 UTC

[Перевод] Разработка, деплой, эксплуатация: как перестать терять ценность на пути к продакшену

Сколько и куда инвестировать в дев-инструменты и платформу, как считать отдачу от оптимизаций (хоть от снижения CPU), и где гонять тесты — на пресабмите или на интеграции? Простых ответов нет. В этой статье я предлагаю целостную модель баланса между затратами разработки и создаваемой ценностью с учётом рисков: успех продукта, продуктивность команды, эффективность ресурсов и стратегические возможности. Дам практичные ориентиры для продактов, инженеров и менеджеров, а также покажу, как инфраструктура и архитектура сдвигают этот баланс и где именно выгодно усиливать автоматизацию и проверки.

https://habr.com/ru/companies/otus/articles/948494/

#метрики_DORA #cicd #канареечный_релиз #mttr #инженерная_емкость #наблюдаемость #shift_left_тестирование #lead_time

#lead_time #shift_left_тестирование #наблюдаемость #инженерная_емкость #mttr #канареечный_релиз

Sanjay Mohindroo @[email protected] · 2025-08-15 · 07:58 UTC

Agile ITSM turns rigid processes into rapid value—what’s your next move? #AgileITSM #DigitalTransformation #ITLeadership #ModernIT #DevOps #ITOps #AgileMindset #ServiceExcellence #IncidentManagement #ContinuousImprovement #Automation #SelfService #Collaboration #Swarming #MTTR #MTTD #Metrics #Innovation #CustomerSatisfaction
https://medium.com/@sanjay.mohindroo66/beyond-the-ticket-agile-itsm-for-speed-clarity-and-impact-550a98882cb1

#agileitsm #digitaltransformation #itleadership #modernit #devops #itops

Habr @[email protected] · 2024-12-17 · 10:42 UTC

Мониторинг бизнес-процессов с помощью OpenTelemetry

Если у вас большой сложный продукт, который разрабатывают несколько команд, бывает трудно избежать ситуации, когда продакшен лежит, бизнес стоит, а инженеры несколько часов перекидывают стрелки друг на друга. При этом каждый считает, что проблема на другой стороне. Чтобы найти верное решение, нужен не столько подходящий инструмент, сколько общий подход для мониторинга всех частей приложения. В этой статье расскажу, как мы объединили несколько разных команд разработки Райффайзен Онлайн общим Observability и с помощью исключительно технических метрик отслеживаем здоровье бизнес-процессов. Как всё это помогает мгновенно находить первопричину сбоя. Как устроен OpenTelemetry и как с его помощью рассчитать доступность приложения в девятках, а также MTTR (Mean Time to Recovery).

https://habr.com/ru/companies/oleg-bunin/articles/865690/

#opentelemetry #мониторинг #endtoend_testing #999 #трейсинг #collector #zscore #tsdb #mttr #availability

#opentelemetry #мониторинг #endtoend_testing #трейсинг #collector #zscore

Pyrzout :vm: @[email protected] · 2024-10-18 · 04:35 UTC

ADR Provides Application Visibility for CISOs | Closing Application Layer Gap | Contrast Security – Source: securityboulevard.com https://ciso2ciso.com/adr-provides-application-visibility-for-cisos-closing-application-layer-gap-contrast-security-source-securityboulevard-com/ #rssfeedpostgeneratorecho #SecurityBloggersNetwork #CyberSecurityNews #SecurityBoulevard #ThoughtLeaders #dwelltime #ZeroDays #MTTR #ADR

#rssfeedpostgeneratorecho #securitybloggersnetwork #cybersecuritynews #securityboulevard #thoughtleaders #dwelltime

Pyrzout :vm: @[email protected] · 2024-10-18 · 04:35 UTC

ADR Provides Application Visibility for CISOs | Closing Application Layer Gap | Contrast Security – Source: securityboulevard.com https://ciso2ciso.com/adr-provides-application-visibility-for-cisos-closing-application-layer-gap-contrast-security-source-securityboulevard-com/ #rssfeedpostgeneratorecho #SecurityBloggersNetwork #CyberSecurityNews #SecurityBoulevard #ThoughtLeaders #dwelltime #ZeroDays #MTTR #ADR

#rssfeedpostgeneratorecho #securitybloggersnetwork #cybersecuritynews #securityboulevard #thoughtleaders #dwelltime

ADMIN @[email protected] · 2024-06-26 · 21:40 UTC

10 metrics to monitor progress toward cybersecurity goals https://www.admin-magazine.com/News/Top-10-Cybersecurity-Metrics
#security #intrusion #detection #patching #CISO #devices #MTTD #MTTR

#security #intrusion #detection #patching #ciso #devices

ADMIN @[email protected] · 2024-06-26 · 21:40 UTC

10 metrics to monitor progress toward cybersecurity goals https://www.admin-magazine.com/News/Top-10-Cybersecurity-Metrics
#security #intrusion #detection #patching #CISO #devices #MTTD #MTTR

#security #intrusion #detection #patching #ciso #devices

Dotan Horovits @horovits · 2024-06-13 · 07:00 UTC

Are we getting better as #DevOps and #SRE practitioners? Not quite.
For the third year in a row, people report the mean time to recovery #MTTR from production incidents is increasing!
And only 10% report practicing full #observability.
Check out the insights I shared with APMdigest, based on the yearly Observability Pulse survey by Logz.io:
𝐂𝐡𝐚𝐥𝐥𝐞𝐧𝐠𝐞𝐬 𝐚𝐧𝐝 𝐓𝐫𝐞𝐧𝐝𝐬 𝐢𝐧 𝐎𝐛𝐬𝐞𝐫𝐯𝐚𝐛𝐢𝐥𝐢𝐭𝐲 𝐀𝐝𝐨𝐩𝐭𝐢𝐨𝐧 𝟐𝟎𝟐𝟒
https://www.apmdigest.com/challenges-and-trends-in-observability-adoption-2024

#devops #sre #mttr #observability

Dotan Horovits @[email protected] · 2024-06-13 · 07:00 UTC

Are we getting better as #DevOps and #SRE practitioners? Not quite.
For the third year in a row, people report the mean time to recovery #MTTR from production incidents is increasing!
And only 10% report practicing full #observability.
Check out the insights I shared with APMdigest, based on the yearly Observability Pulse survey by Logz.io:
𝐂𝐡𝐚𝐥𝐥𝐞𝐧𝐠𝐞𝐬 𝐚𝐧𝐝 𝐓𝐫𝐞𝐧𝐝𝐬 𝐢𝐧 𝐎𝐛𝐬𝐞𝐫𝐯𝐚𝐛𝐢𝐥𝐢𝐭𝐲 𝐀𝐝𝐨𝐩𝐭𝐢𝐨𝐧 𝟐𝟎𝟐𝟒
https://www.apmdigest.com/challenges-and-trends-in-observability-adoption-2024

#devops #sre #mttr #observability

Dotan Horovits @horovits · 2024-04-18 · 11:49 UTC

Are we getting better as DevOps and SRE practitioners? Not quite.
For the third year in a row, people report the mean time to recovery (MTTR) from production incidents is increasing!
And only 10% report practicing full observability.
Check out the insights I shared with APMdigest, based on the yearly Observability Pulse survey by Logz.io:
𝐂𝐡𝐚𝐥𝐥𝐞𝐧𝐠𝐞𝐬 𝐚𝐧𝐝 𝐓𝐫𝐞𝐧𝐝𝐬 𝐢𝐧 𝐎𝐛𝐬𝐞𝐫𝐯𝐚𝐛𝐢𝐥𝐢𝐭𝐲 𝐀𝐝𝐨𝐩𝐭𝐢𝐨𝐧 𝟐𝟎𝟐𝟒
https://www.apmdigest.com/challenges-and-trends-in-observability-adoption-2024

#devops #sre #mttr #observability

Dotan Horovits @[email protected] · 2024-04-18 · 11:49 UTC

Are we getting better as DevOps and SRE practitioners? Not quite.
For the third year in a row, people report the mean time to recovery (MTTR) from production incidents is increasing!
And only 10% report practicing full observability.
Check out the insights I shared with APMdigest, based on the yearly Observability Pulse survey by Logz.io:
𝐂𝐡𝐚𝐥𝐥𝐞𝐧𝐠𝐞𝐬 𝐚𝐧𝐝 𝐓𝐫𝐞𝐧𝐝𝐬 𝐢𝐧 𝐎𝐛𝐬𝐞𝐫𝐯𝐚𝐛𝐢𝐥𝐢𝐭𝐲 𝐀𝐝𝐨𝐩𝐭𝐢𝐨𝐧 𝟐𝟎𝟐𝟒
https://www.apmdigest.com/challenges-and-trends-in-observability-adoption-2024

#devops #sre #mttr #observability

Stephen Townshend @[email protected] · 2023-08-29 · 20:07 UTC

This week on Slight Reliability I had the honour of interviewing Courtney Nash about why mean time to recover (#MTTR) is an unhelpful metric, what she learned by analysing 10+ incident reports, and much more.

🕵🏽‍♀️ Instead of MTTR, let's focus on learning from incidents, observing patterns and themes, involving leadership, and adding an "accident investigator" lens after the fact to enhance the learning.

#SRE #DevOps #incidents #SlightReliability

https://www.youtube.com/watch?v=k-tuE9aMg3U

#mttr #sre #devops #incidents #slightreliability

Stephen Townshend @[email protected] · 2023-08-29 · 20:07 UTC

This week on Slight Reliability I had the honour of interviewing Courtney Nash about why mean time to recover (#MTTR) is an unhelpful metric, what she learned by analysing 10+ incident reports, and much more.

🕵🏽‍♀️ Instead of MTTR, let's focus on learning from incidents, observing patterns and themes, involving leadership, and adding an "accident investigator" lens after the fact to enhance the learning.

#SRE #DevOps #incidents #SlightReliability

https://www.youtube.com/watch?v=k-tuE9aMg3U

#mttr #sre #devops #incidents #slightreliability

ITSPmagazine 🎙️✨:verified: @[email protected] · 2023-07-13 · 06:23 UTC

🎙️ ✨ A new episode has been published on @ITSPmagazine

Show: Redefining CyberSecurity With @seanmartin

Episode: Implementing Meaningful Information Security Metrics

Guests: Allie Mellen and Jeff Pollard

Podcast format: Video & Audio

Enjoy!

👉https://www.itspmagazine.com/redefining-cybersecurity-podcast

#metrics #MTTD #MTTR #cybersecurity #datasecurity #infosec #security #technology #tech

#metrics #mttd #mttr #cybersecurity #datasecurity #infosec

ITSPmagazine 🎙️✨:verified: @ITSPmagazine · 2023-07-13 · 06:23 UTC

🎙️ ✨ A new episode has been published on @ITSPmagazine

Show: Redefining CyberSecurity With @seanmartin

Episode: Implementing Meaningful Information Security Metrics

Guests: Allie Mellen and Jeff Pollard

Podcast format: Video & Audio

Enjoy!

👉https://www.itspmagazine.com/redefining-cybersecurity-podcast

#metrics #MTTD #MTTR #cybersecurity #datasecurity #infosec #security #technology #tech

#metrics #mttd #mttr #cybersecurity #datasecurity #infosec

Amy Toebeans @[email protected] · 2022-12-13 · 18:08 UTC

The 2022 VOID Report is out today! Find out why it's time to retire MTTR, and how to move past shallow incident metrics like duration and severity. https://bit.ly/3FPz15o

(via Courtney Nash) #sre #resilience #incidents #mttr #devops

#sre #resilience #incidents #mttr #devops

Amy Toebeans @[email protected] · 2022-12-13 · 18:08 UTC

The 2022 VOID Report is out today! Find out why it's time to retire MTTR, and how to move past shallow incident metrics like duration and severity. https://bit.ly/3FPz15o

(via Courtney Nash) #sre #resilience #incidents #mttr #devops

#sre #resilience #incidents #mttr #devops

Sonja Peteranderl @[email protected] · 2022-11-18 · 15:51 UTC

„Wer sich selbst nicht fühlen kann, kann auch keine #Empathie empfinden“: Julia Friese über nationalsozialistische #Erziehung & ihr Buch #MTTR #education #books

#empathie #erziehung #mttr #education #books