home.social

#site_reliability_engineer — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #site_reliability_engineer, aggregated by home.social.

  1. [Перевод] Уровни серьёзности инцидентов для онлайн-платформ

    Классификация инцидентов по степени серьёзности – ключевой момент в управлении инцидентами. Она нужна, чтобы SRE команда могла быстро и эффективно устранять неполадки в сложных системах и минимизировать их влияние на клиентов. В этой статье описана система SEV (Security Evaluation Version), которая помогает стандартизировать процесс устранения проблем, быстрее восстановить работу системы и уведомить о происшествии всех, кого это касается, в зависимости от серьёзности инцидента.

    habr.com/ru/companies/slurm/ar

    #sre #sreинженер #sreпроцессы #site_reliability_engineer #инцидентменеджмент #инциденты

  2. [Перевод] Как реализован SRE подход в Power BI

    Команда Power BI рассказала, как она обеспечивает надёжную, производительную и масштабируемую работу своего сервиса. В этой статье вы узнаете, как в Power BI устроен мониторинг состояния сервиса, как SRE команды устраняют инциденты и принимают меры по улучшению сервисов.

    habr.com/ru/companies/slurm/ar

    #sre #sreинженер #sreпроцессы #sreкоманды #site_reliability_engineer #itинфраструктура #инцидентменеджмент #инциденты