#site_reliability_engineer — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #site_reliability_engineer, aggregated by home.social.
-
[Перевод] Уровни серьёзности инцидентов для онлайн-платформ
Классификация инцидентов по степени серьёзности – ключевой момент в управлении инцидентами. Она нужна, чтобы SRE команда могла быстро и эффективно устранять неполадки в сложных системах и минимизировать их влияние на клиентов. В этой статье описана система SEV (Security Evaluation Version), которая помогает стандартизировать процесс устранения проблем, быстрее восстановить работу системы и уведомить о происшествии всех, кого это касается, в зависимости от серьёзности инцидента.
https://habr.com/ru/companies/slurm/articles/795291/
#sre #sreинженер #sreпроцессы #site_reliability_engineer #инцидентменеджмент #инциденты
-
[Перевод] Как реализован SRE подход в Power BI
Команда Power BI рассказала, как она обеспечивает надёжную, производительную и масштабируемую работу своего сервиса. В этой статье вы узнаете, как в Power BI устроен мониторинг состояния сервиса, как SRE команды устраняют инциденты и принимают меры по улучшению сервисов.
https://habr.com/ru/companies/slurm/articles/792520/
#sre #sreинженер #sreпроцессы #sreкоманды #site_reliability_engineer #itинфраструктура #инцидентменеджмент #инциденты