home.social

#runbook — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #runbook, aggregated by home.social.

  1. Ваш Kubernetes упал: найдёте root cause за 15 минут?

    Вторник, 14:00. Кластер Kubernetes перестал отвечать, команда в панике, а вам нужно за 15 минут найти первопричину. В этой статье пройдём диагностику реального отказа вместе с SRE: увидим логи, манифест etcd и ошибки, которые совершают даже опытные инженеры. Попробуйте сначала решить задачу сами, а потом сверьтесь с пошаговым разбором и проверьте, насколько вы готовы к такому инциденту.

    habr.com/ru/companies/otus/art

    #Kubernetes #etcd #kubelet #SRE #DevOps #productionинцидент #отказ_кластера #root_cause #control_plane #runbook

  2. Ваш Kubernetes упал: найдёте root cause за 15 минут?

    Вторник, 14:00. Кластер Kubernetes перестал отвечать, команда в панике, а вам нужно за 15 минут найти первопричину. В этой статье пройдём диагностику реального отказа вместе с SRE: увидим логи, манифест etcd и ошибки, которые совершают даже опытные инженеры. Попробуйте сначала решить задачу сами, а потом сверьтесь с пошаговым разбором и проверьте, насколько вы готовы к такому инциденту.

    habr.com/ru/companies/otus/art

    #Kubernetes #etcd #kubelet #SRE #DevOps #productionинцидент #отказ_кластера #root_cause #control_plane #runbook

  3. Ваш Kubernetes упал: найдёте root cause за 15 минут?

    Вторник, 14:00. Кластер Kubernetes перестал отвечать, команда в панике, а вам нужно за 15 минут найти первопричину. В этой статье пройдём диагностику реального отказа вместе с SRE: увидим логи, манифест etcd и ошибки, которые совершают даже опытные инженеры. Попробуйте сначала решить задачу сами, а потом сверьтесь с пошаговым разбором и проверьте, насколько вы готовы к такому инциденту.

    habr.com/ru/companies/otus/art

    #Kubernetes #etcd #kubelet #SRE #DevOps #productionинцидент #отказ_кластера #root_cause #control_plane #runbook

  4. Ваш Kubernetes упал: найдёте root cause за 15 минут?

    Вторник, 14:00. Кластер Kubernetes перестал отвечать, команда в панике, а вам нужно за 15 минут найти первопричину. В этой статье пройдём диагностику реального отказа вместе с SRE: увидим логи, манифест etcd и ошибки, которые совершают даже опытные инженеры. Попробуйте сначала решить задачу сами, а потом сверьтесь с пошаговым разбором и проверьте, насколько вы готовы к такому инциденту.

    habr.com/ru/companies/otus/art

    #Kubernetes #etcd #kubelet #SRE #DevOps #productionинцидент #отказ_кластера #root_cause #control_plane #runbook

  5. Как понять, что мониторинг в ЦОДе шумит

    Днём на работе вокруг всегда коллеги, созвоны, обсуждения в чатах. Если что-то непонятно, можно быстро спросить совета у более опытных инженеров. Ночью всё по-другому. Дежурный остаётся один на один с системой оповещений, и разбираться приходится самостоятельно. Наверное, поэтому одна из самых странных вещей в мониторинге проявляется именно ночью. На одном из дежурств мне за несколько часов пришло больше десятка уведомлений. То температура в стойке подскочила на пару градусов. То CPU неожиданно преодолел порог. То один из дисков выдал предупреждение SMART. Конечно, я проверял каждый сигнал, смотрел графики, открывал логи и переключался между дашбордами. Но метрики и без этого возвращались к исходным значениям, и всё продолжало работать как обычно. К утру инфраструктура так и не полыхнула синим пламенем, зато система оповещений просто разрывалась. Так я впервые узнал об «усталости от алертов» и начал искать способ справиться с этой проблемой.

    habr.com/ru/companies/X5Tech/a

    #цод #мониторинг #алертинг #oncall #дежурства #инфраструктура #runbook #инциденты #резервирование #latency

  6. Как понять, что мониторинг в ЦОДе шумит

    Днём на работе вокруг всегда коллеги, созвоны, обсуждения в чатах. Если что-то непонятно, можно быстро спросить совета у более опытных инженеров. Ночью всё по-другому. Дежурный остаётся один на один с системой оповещений, и разбираться приходится самостоятельно. Наверное, поэтому одна из самых странных вещей в мониторинге проявляется именно ночью. На одном из дежурств мне за несколько часов пришло больше десятка уведомлений. То температура в стойке подскочила на пару градусов. То CPU неожиданно преодолел порог. То один из дисков выдал предупреждение SMART. Конечно, я проверял каждый сигнал, смотрел графики, открывал логи и переключался между дашбордами. Но метрики и без этого возвращались к исходным значениям, и всё продолжало работать как обычно. К утру инфраструктура так и не полыхнула синим пламенем, зато система оповещений просто разрывалась. Так я впервые узнал об «усталости от алертов» и начал искать способ справиться с этой проблемой.

    habr.com/ru/companies/X5Tech/a

    #цод #мониторинг #алертинг #oncall #дежурства #инфраструктура #runbook #инциденты #резервирование #latency

  7. Как понять, что мониторинг в ЦОДе шумит

    Днём на работе вокруг всегда коллеги, созвоны, обсуждения в чатах. Если что-то непонятно, можно быстро спросить совета у более опытных инженеров. Ночью всё по-другому. Дежурный остаётся один на один с системой оповещений, и разбираться приходится самостоятельно. Наверное, поэтому одна из самых странных вещей в мониторинге проявляется именно ночью. На одном из дежурств мне за несколько часов пришло больше десятка уведомлений. То температура в стойке подскочила на пару градусов. То CPU неожиданно преодолел порог. То один из дисков выдал предупреждение SMART. Конечно, я проверял каждый сигнал, смотрел графики, открывал логи и переключался между дашбордами. Но метрики и без этого возвращались к исходным значениям, и всё продолжало работать как обычно. К утру инфраструктура так и не полыхнула синим пламенем, зато система оповещений просто разрывалась. Так я впервые узнал об «усталости от алертов» и начал искать способ справиться с этой проблемой.

    habr.com/ru/companies/X5Tech/a

    #цод #мониторинг #алертинг #oncall #дежурства #инфраструктура #runbook #инциденты #резервирование #latency

  8. Как понять, что мониторинг в ЦОДе шумит

    Днём на работе вокруг всегда коллеги, созвоны, обсуждения в чатах. Если что-то непонятно, можно быстро спросить совета у более опытных инженеров. Ночью всё по-другому. Дежурный остаётся один на один с системой оповещений, и разбираться приходится самостоятельно. Наверное, поэтому одна из самых странных вещей в мониторинге проявляется именно ночью. На одном из дежурств мне за несколько часов пришло больше десятка уведомлений. То температура в стойке подскочила на пару градусов. То CPU неожиданно преодолел порог. То один из дисков выдал предупреждение SMART. Конечно, я проверял каждый сигнал, смотрел графики, открывал логи и переключался между дашбордами. Но метрики и без этого возвращались к исходным значениям, и всё продолжало работать как обычно. К утру инфраструктура так и не полыхнула синим пламенем, зато система оповещений просто разрывалась. Так я впервые узнал об «усталости от алертов» и начал искать способ справиться с этой проблемой.

    habr.com/ru/companies/X5Tech/a

    #цод #мониторинг #алертинг #oncall #дежурства #инфраструктура #runbook #инциденты #резервирование #latency

  9. Инфраструктура не знает, что сегодня праздник

    Согласитесь, что встретить Новый год рядом с семьёй и друзьями - намного приятнее, чем сидеть за ноутбуком в 02:40 и с квадратными глазами разбираться, почему “что-то там легло”, а доступ к нужным секретам остался только у одного человека… который как раз в этот момент режет оливье и не слышит телефон. Ниже я делюсь своим чеклистом из 8 пунктов. Он помогает спокойно уйти в праздники и не проводить их в обнимку с ноутом. А после прочтения, в комментах, обязательно поделитесь что бы вы еще добавили.

    habr.com/ru/articles/980340/

    #sre #oncall #devops #checklist #production #infrastucture #monitoring #dns #runbook

  10. Atuin Desktop is in open beta now! 🎉

    Run books that actually run, built by @ellie and @binarymuse

    I’ve been using it for a while in closed beta and can’t wait to get my team on it as well! :D

    Big up to all involved!

    blog.atuin.sh/atuin-desktop-op

  11. Как работать с инцидентами, когда на кону большие деньги

    Привет, Хабр! На связи Дарья Попова, тимлид группы мониторинга в Купере. Наша миссия — минимизировать потери от инцидентов для компании и обеспечить сервис на 10/10 для клиентов. Почему это именно группа — вы поймете дальше. Сегодня я расскажу, как мы выстраивали процессы и инструменты мониторинга и автоматизации — и как это все упростило нам жизнь.

    habr.com/ru/companies/kuper/ar

    #алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса #runbook #критичные_сервисы #дежурные_инженеры #мониторинг

  12. Как работать с инцидентами, когда на кону большие деньги

    Привет, Хабр! На связи Дарья Попова, тимлид группы мониторинга в Купере. Наша миссия — минимизировать потери от инцидентов для компании и обеспечить сервис на 10/10 для клиентов. Почему это именно группа — вы поймете дальше. Сегодня я расскажу, как мы выстраивали процессы и инструменты мониторинга и автоматизации — и как это все упростило нам жизнь.

    habr.com/ru/companies/kuper/ar

    #алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса #runbook #критичные_сервисы #дежурные_инженеры #мониторинг

  13. Как работать с инцидентами, когда на кону большие деньги

    Привет, Хабр! На связи Дарья Попова, тимлид группы мониторинга в Купере. Наша миссия — минимизировать потери от инцидентов для компании и обеспечить сервис на 10/10 для клиентов. Почему это именно группа — вы поймете дальше. Сегодня я расскажу, как мы выстраивали процессы и инструменты мониторинга и автоматизации — и как это все упростило нам жизнь.

    habr.com/ru/companies/kuper/ar

    #алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса #runbook #критичные_сервисы #дежурные_инженеры #мониторинг

  14. Как работать с инцидентами, когда на кону большие деньги

    Привет, Хабр! На связи Дарья Попова, тимлид группы мониторинга в Купере. Наша миссия — минимизировать потери от инцидентов для компании и обеспечить сервис на 10/10 для клиентов. Почему это именно группа — вы поймете дальше. Сегодня я расскажу, как мы выстраивали процессы и инструменты мониторинга и автоматизации — и как это все упростило нам жизнь.

    habr.com/ru/companies/kuper/ar

    #алертинг #инцидентменеджмент #автоматизация_рутины #бот #оповещение_об_аварии #метрики_процесса #runbook #критичные_сервисы #дежурные_инженеры #мониторинг

  15. Now this is super neat! Not many #devTools 🛠️ have a browser extension that hooks into your @code blocks in markdown docs open in a browser for any given GitHub repo.

    Discovered it as we were browsing the other related @statefulhq #Runbook 📓 repos code.

    What a great way to bootstrap repo cloning & kick off other tasks from your browser in VS Code.

    Very cool & thoughtful #Runme ▶️ tools browser plugin created by @bromann @runmedev:

    💖 github.com/stateful/runme-web-

  16. Now this is super neat! Not many #devTools 🛠️ have a browser extension that hooks into your @code blocks in markdown docs open in a browser for any given GitHub repo.

    Discovered it as we were browsing the other related @statefulhq #Runbook 📓 repos code.

    What a great way to bootstrap repo cloning & kick off other tasks from your browser in VS Code.

    Very cool & thoughtful #Runme ▶️ tools browser plugin created by @bromann @runmedev:

    💖 github.com/stateful/runme-web-

  17. Now this is super neat! Not many #devTools 🛠️ have a browser extension that hooks into your @code blocks in markdown docs open in a browser for any given GitHub repo.

    Discovered it as we were browsing the other related @statefulhq #Runbook 📓 repos code.

    What a great way to bootstrap repo cloning & kick off other tasks from your browser in VS Code.

    Very cool & thoughtful #Runme ▶️ tools browser plugin created by @bromann @runmedev:

    💖 github.com/stateful/runme-web-

  18. Now this is super neat! Not many #devTools 🛠️ have a browser extension that hooks into your @code blocks in markdown docs open in a browser for any given GitHub repo.

    Discovered it as we were browsing the other related @statefulhq #Runbook 📓 repos code.

    What a great way to bootstrap repo cloning & kick off other tasks from your browser in VS Code.

    Very cool & thoughtful #Runme ▶️ tools browser plugin created by @bromann @runmedev:

    💖 github.com/stateful/runme-web-

  19. Now this is super neat! Not many #devTools 🛠️ have a browser extension that hooks into your @code blocks in markdown docs open in a browser for any given GitHub repo.

    Discovered it as we were browsing the other related @statefulhq #Runbook 📓 repos code.

    What a great way to bootstrap repo cloning & kick off other tasks from your browser in VS Code.

    Very cool & thoughtful #Runme ▶️ tools browser plugin created by @bromann @runmedev:

    💖 github.com/stateful/runme-web-

  20. Runme is a great new notebook approach to run scripts from markdown docs with CLI integration and multi-language support every dev and data scientist should try in #VSCode.

    With #Runme versatile notebook kernel, CLI interop, and shared #Runbook session state you can now make your docs truly interactive.

    Give your markdown docs new #Runnable lifespan and get creative with your fenced code outputs. You'll never just read the Intro and README docs.

    #codeNotebooks 📚 ...

    docs.runme.dev/

  21. Runme is a great new notebook approach to run scripts from markdown docs with CLI integration and multi-language support every dev and data scientist should try in #VSCode.

    With #Runme versatile notebook kernel, CLI interop, and shared #Runbook session state you can now make your docs truly interactive.

    Give your markdown docs new #Runnable lifespan and get creative with your fenced code outputs. You'll never just read the Intro and README docs.

    #codeNotebooks 📚 ...

    docs.runme.dev/

  22. Runme is a great new notebook approach to run scripts from markdown docs with CLI integration and multi-language support every dev and data scientist should try in #VSCode.

    With #Runme versatile notebook kernel, CLI interop, and shared #Runbook session state you can now make your docs truly interactive.

    Give your markdown docs new #Runnable lifespan and get creative with your fenced code outputs. You'll never just read the Intro and README docs.

    #codeNotebooks 📚 ...

    docs.runme.dev/

  23. Runme is a great new notebook approach to run scripts from markdown docs with CLI integration and multi-language support every dev and data scientist should try in #VSCode.

    With #Runme versatile notebook kernel, CLI interop, and shared #Runbook session state you can now make your docs truly interactive.

    Give your markdown docs new #Runnable lifespan and get creative with your fenced code outputs. You'll never just read the Intro and README docs.

    #codeNotebooks 📚 ...

    docs.runme.dev/

  24. Runme is a great new notebook approach to run scripts from markdown docs with CLI integration and multi-language support every dev and data scientist should try in #VSCode.

    With #Runme versatile notebook kernel, CLI interop, and shared #Runbook session state you can now make your docs truly interactive.

    Give your markdown docs new #Runnable lifespan and get creative with your fenced code outputs. You'll never just read the Intro and README docs.

    #codeNotebooks 📚 ...

    docs.runme.dev/

  25. #GitHub - derwiki/layoff-runbook: Being laid off can be #overwhelming and it's easy to miss important tasks. This #runbook will help make sure you stay on track.

    github.com/derwiki/layoff-runb

  26. A teammate showed me today that GitLab publishes their runbook and security handbook.

    That is impressive and serves as a great reference example.

    #documentation #runbook #handbook #GRC

  27. What makes a good #runbook?

    transposit.com/blog/2019.11.14

    I worked with runbooks at one of my previous jobs and it's really good, even for yourself (can you remember what you did 6 months ago to fix that problem?)