home.social

#sre — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #sre, aggregated by home.social.

  1. Oh hey. Today is Thursday, and you know what they say about Friday!

    Don't wait to do it tomorrow when you can procrastinate even more and do it next week. 😄

  2. Oh hey. Today is Thursday, and you know what they say about Friday!

    Don't wait to do it tomorrow when you can procrastinate even more and do it next week. 😄

    #DevOps #SRE #SysAdminLife

  3. Oh hey. Today is Thursday, and you know what they say about Friday!

    Don't wait to do it tomorrow when you can procrastinate even more and do it next week. 😄

    #DevOps #SRE #SysAdminLife

  4. Oh hey. Today is Thursday, and you know what they say about Friday!

    Don't wait to do it tomorrow when you can procrastinate even more and do it next week. 😄

    #DevOps #SRE #SysAdminLife

  5. Oh hey. Today is Thursday, and you know what they say about Friday!

    Don't wait to do it tomorrow when you can procrastinate even more and do it next week. 😄

    #DevOps #SRE #SysAdminLife

  6. The difference between 99.9% and 99.99% uptime isn't just a decimal—it’s nearly 9 HOURS of annual downtime vs just 52 MINUTES.

    Don't fall for the cloud "SLA Credit" scam, where providers refund $50 while you lose $25,000 during a shared hypervisor outage.

    Our iRexta SRE guide covers:

    ✅ Error Budget math
    ✅ Defeating the Bathtub Curve
    ✅ RTO/RPO metrics
    ✅ Security as Uptime

    🔗 irexta.com/blogs/what-99-9-vs-

    #SRE #SysAdmin #DevOps #iRexta #BareMetal #HighAvailability

  7. SRE is about sleeping well 🌙

    The goal is not midnight heroics.
    It is building systems that fail safely so humans can rest.

    webdad.eu/2026/05/14/%f0%9f%98

  8. The internet didn’t just “go down” — a single internal Cloudflare failure triggered global chaos across platforms like ChatGPT, X, Spotify, Canva, and more. This breakdown exposed how fragile modern internet infrastructure really is.

    Read the full breakdown: shorturl.at/OV3od

    #Cloudflare #InternetOutage #CloudOutage #DevOps #AWS #CloudComputing #SRE

  9. The internet didn’t just “go down” — a single internal Cloudflare failure triggered global chaos across platforms like ChatGPT, X, Spotify, Canva, and more. This breakdown exposed how fragile modern internet infrastructure really is.

    Read the full breakdown: shorturl.at/OV3od

    #Cloudflare #InternetOutage #CloudOutage #DevOps #AWS #CloudComputing #SRE

  10. Pocket OS: AI Didn't Fail, DevOps Did 🤖🔧

    AI agent deleted production database + backups in 9 seconds.

    Root causes:

    Token with PROD delete rights just lying around

    Staging agent = PROD access

    Backups on same volume

    No least privilege

    AI amplifies what's already there (good or bad).

    Fundamentals first. Always.

    #DevOps #SRE #AIAgents #CloudSecurity

  11. #CanopTips 💡 Le mode maintenance de Canopsis

    Tu prépares une montée de version ? Tu dois redémarrer #Canopsis ? Tu veux éviter qu'un utilisateur modifie une vue ou enregistre une conf au mauvais moment ?

    ➡️ Passe Canopsis en mode #Maintenance

    Le principe est simple : on coupe temporairement l'accès aux utilisateurs, le temps de faire l'opération proprement.

    Parce qu'une mise à jour, c'est déjà assez sportif comme ça. Inutile d'ajouter des clics utilisateurs en plein milieu !

    #DevOps #SRE

  12. #CanopTips 💡 Le mode maintenance de Canopsis

    Tu prépares une montée de version ? Tu dois redémarrer #Canopsis ? Tu veux éviter qu'un utilisateur modifie une vue ou enregistre une conf au mauvais moment ?

    ➡️ Passe Canopsis en mode #Maintenance

    Le principe est simple : on coupe temporairement l'accès aux utilisateurs, le temps de faire l'opération proprement.

    Parce qu'une mise à jour, c'est déjà assez sportif comme ça. Inutile d'ajouter des clics utilisateurs en plein milieu !

    #DevOps #SRE

  13. As someone who works in tech, a four-day "scheduled" outage for a production billing system is... a choice. I can’t imagine telling my team we’re taking the platform offline from Friday night until Tuesday morning for an "upgrade". In 2026, you'd think we'd have moved past maintenance windows that last half a week.

    Where is the blue-green deployment? The canary releases? Just a casual 4-day blackout.

    #TechDebt #DevOps #SRE #SoftwareEngineering #MaintenanceWindow

  14. As someone who works in tech, a four-day "scheduled" outage for a production billing system is... a choice. I can’t imagine telling my team we’re taking the platform offline from Friday night until Tuesday morning for an "upgrade". In 2026, you'd think we'd have moved past maintenance windows that last half a week.

    Where is the blue-green deployment? The canary releases? Just a casual 4-day blackout.

  15. As someone who works in tech, a four-day "scheduled" outage for a production billing system is... a choice. I can’t imagine telling my team we’re taking the platform offline from Friday night until Tuesday morning for an "upgrade". In 2026, you'd think we'd have moved past maintenance windows that last half a week.

    Where is the blue-green deployment? The canary releases? Just a casual 4-day blackout.

    #TechDebt #DevOps #SRE #SoftwareEngineering #MaintenanceWindow

  16. Luto en la frontera. 💔 Seis migrantes de México y Honduras pierden la vida en condiciones extremas dentro de un tren de carga. La crisis humanitaria en la región sigue cobrando vidas inocentes. Lee los detalles aquí. 👇 #DerechosHumanos #FronteraEEUU #SRE #Honduras
    zurl.co/oSHw4

  17. Luto en la frontera. 💔 Seis migrantes de México y Honduras pierden la vida en condiciones extremas dentro de un tren de carga. La crisis humanitaria en la región sigue cobrando vidas inocentes. Lee los detalles aquí. 👇 #DerechosHumanos #FronteraEEUU #SRE #Honduras
    zurl.co/oSHw4

  18. Luto en la frontera. 💔 Seis migrantes de México y Honduras pierden la vida en condiciones extremas dentro de un tren de carga. La crisis humanitaria en la región sigue cobrando vidas inocentes. Lee los detalles aquí. 👇 #DerechosHumanos #FronteraEEUU #SRE #Honduras
    zurl.co/oSHw4

  19. Luto en la frontera. 💔 Seis migrantes de México y Honduras pierden la vida en condiciones extremas dentro de un tren de carga. La crisis humanitaria en la región sigue cobrando vidas inocentes. Lee los detalles aquí. 👇 #DerechosHumanos #FronteraEEUU #SRE #Honduras
    zurl.co/oSHw4

  20. OK, the day of migrating our documentation sites from the unmaintained mkdocs project to @zensical is... Today wish me good luck #SRE #Toil

  21. OK, the day of migrating our documentation sites from the unmaintained mkdocs project to @zensical is... Today wish me good luck #SRE #Toil

  22. OK, the day of migrating our documentation sites from the unmaintained mkdocs project to @zensical is... Today wish me good luck

  23. OK, the day of migrating our documentation sites from the unmaintained mkdocs project to @zensical is... Today wish me good luck #SRE #Toil

  24. OK, the day of migrating our documentation sites from the unmaintained mkdocs project to @zensical is... Today wish me good luck #SRE #Toil

  25. Tomorrow at 2PM US/Pacific I'm introducing and leading Practice of Practice! So excited and looking forward to getting into this habit again.

    resilienceinsoftware.org/event

    #PracticeOfPractice #RISF #resilience #SRE

  26. Tomorrow at 2PM US/Pacific I'm introducing and leading Practice of Practice! So excited and looking forward to getting into this habit again.

    resilienceinsoftware.org/event

    #PracticeOfPractice #RISF #resilience #SRE

  27. Tomorrow at 2PM US/Pacific I'm introducing and leading Practice of Practice! So excited and looking forward to getting into this habit again.

    resilienceinsoftware.org/event

    #PracticeOfPractice #RISF #resilience #SRE

  28. Tomorrow at 2PM US/Pacific I'm introducing and leading Practice of Practice! So excited and looking forward to getting into this habit again.

    resilienceinsoftware.org/event

    #PracticeOfPractice #RISF #resilience #SRE

  29. Tomorrow at 2PM US/Pacific I'm introducing and leading Practice of Practice! So excited and looking forward to getting into this habit again.

    resilienceinsoftware.org/event

    #PracticeOfPractice #RISF #resilience #SRE

  30. Lamentable noticia. 💔 Tres mexicanos han sido identificados entre los fallecidos dentro de un contenedor en Texas. El Gobierno de México ya trabaja con autoridades de EE. UU. para el seguimiento legal del caso. #Noticias #SRE #Migrantes #Justicia
    zurl.co/s3Y5P

  31. Lamentable noticia. 💔 Tres mexicanos han sido identificados entre los fallecidos dentro de un contenedor en Texas. El Gobierno de México ya trabaja con autoridades de EE. UU. para el seguimiento legal del caso. #Noticias #SRE #Migrantes #Justicia
    zurl.co/s3Y5P

  32. Lamentable noticia. 💔 Tres mexicanos han sido identificados entre los fallecidos dentro de un contenedor en Texas. El Gobierno de México ya trabaja con autoridades de EE. UU. para el seguimiento legal del caso. #Noticias #SRE #Migrantes #Justicia
    zurl.co/s3Y5P

  33. Lamentable noticia. 💔 Tres mexicanos han sido identificados entre los fallecidos dentro de un contenedor en Texas. El Gobierno de México ya trabaja con autoridades de EE. UU. para el seguimiento legal del caso. #Noticias #SRE #Migrantes #Justicia
    zurl.co/s3Y5P

  34. 🤖 Half your codebase was written by AI.
    👤 The other half by someone who left two years ago.

    Guess who's on-call when it breaks.

    New video on Rootly AI SRE - the partner that's got your back when prod goes down.

    🎬 youtu.be/79dXxpiFQtY

    #DevOps #SRE #IncidentResponse #AI #OnCall

  35. 🤖 Half your codebase was written by AI.
    👤 The other half by someone who left two years ago.

    Guess who's on-call when it breaks.

    New video on Rootly AI SRE - the partner that's got your back when prod goes down.

    🎬 youtu.be/79dXxpiFQtY

    #DevOps #SRE #IncidentResponse #AI #OnCall

  36. 🤖 Half your codebase was written by AI.
    👤 The other half by someone who left two years ago.

    Guess who's on-call when it breaks.

    New video on Rootly AI SRE - the partner that's got your back when prod goes down.

    🎬 youtu.be/79dXxpiFQtY

    #DevOps #SRE #IncidentResponse #AI #OnCall

  37. 🤖 Half your codebase was written by AI.
    👤 The other half by someone who left two years ago.

    Guess who's on-call when it breaks.

    New video on Rootly AI SRE - the partner that's got your back when prod goes down.

    🎬 youtu.be/79dXxpiFQtY

    #DevOps #SRE #IncidentResponse #AI #OnCall

  38. 🤖 Half your codebase was written by AI.
    👤 The other half by someone who left two years ago.

    Guess who's on-call when it breaks.

    New video on Rootly AI SRE - the partner that's got your back when prod goes down.

    🎬 youtu.be/79dXxpiFQtY

    #DevOps #SRE #IncidentResponse #AI #OnCall

  39. A developer on your team suggests this approach:
    1. Copy a file with an API key into the Docker image during build.
    2. Use it to set up the app.
    3. Delete the file in a later step.

    Their conclusion: "The file won’t be in the final Docker image, so it’s safe."

    You disagree. All layers of a Docker image are kept, so the API key is still there.

    Your challenge: Find the API key hidden in the Docker image.

    learnbyfixing.com/scenarios/22/

    #LearnByFixing #DevOps #SRE #Sysadmin #Docker #Linux

  40. Семь раз посчитай — один раз урони: моделируем инциденты до деплоя

    Ракету не отправляют в космос только потому, что её двигатель и насос успешно прошли стендовые испытания по отдельности. Перед стартом инженеры рассчитывают траекторию, моделируют режимы работы и анализируют сценарии отказов. Расчёт не заменяет реальные тесты, но задаёт для них осмысленную рамку. В софте всё обычно иначе. Распределённый пользовательский путь — например, оформление заказа — собирается из десятков микросервисов, баз и очередей. Разработчики добавляют новую зависимость, видят зелёные тесты, проверяют локальные метрики и выкатывают релиз. Считается, что если при сбое что-то пойдёт не так, настроенная система наблюдаемости обязательно это покажет. Она, конечно, покажет. Но почему при проектировании микросервисов мы так спокойно относимся к тому, что узнаём о хрупкости архитектуры в основном по факту инцидента? Эта статья о том, как получить грубый расчёт деградации системы ещё до релиза. Без отказа от хаос-инжиниринга или мониторинга, а как шаг перед ними. Я расскажу о двух экспериментах, в которых топологическая модель автоматически извлекалась из распределённых трейсов, после чего на ней просчитывались сценарии отказов методом Монте-Карло. Результаты моделирования я затем сравнивал с реальными инъекциями отказов на стендах DeathStarBench и OpenTelemetry Demo. Два эксперимента, результаты и код

    habr.com/ru/articles/1033570/

    #resilience #causality #графы #sre #reliability #modeling

  41. Семь раз посчитай — один раз урони: моделируем инциденты до деплоя

    Ракету не отправляют в космос только потому, что её двигатель и насос успешно прошли стендовые испытания по отдельности. Перед стартом инженеры рассчитывают траекторию, моделируют режимы работы и анализируют сценарии отказов. Расчёт не заменяет реальные тесты, но задаёт для них осмысленную рамку. В софте всё обычно иначе. Распределённый пользовательский путь — например, оформление заказа — собирается из десятков микросервисов, баз и очередей. Разработчики добавляют новую зависимость, видят зелёные тесты, проверяют локальные метрики и выкатывают релиз. Считается, что если при сбое что-то пойдёт не так, настроенная система наблюдаемости обязательно это покажет. Она, конечно, покажет. Но почему при проектировании микросервисов мы так спокойно относимся к тому, что узнаём о хрупкости архитектуры в основном по факту инцидента? Эта статья о том, как получить грубый расчёт деградации системы ещё до релиза. Без отказа от хаос-инжиниринга или мониторинга, а как шаг перед ними. Я расскажу о двух экспериментах, в которых топологическая модель автоматически извлекалась из распределённых трейсов, после чего на ней просчитывались сценарии отказов методом Монте-Карло. Результаты моделирования я затем сравнивал с реальными инъекциями отказов на стендах DeathStarBench и OpenTelemetry Demo. Два эксперимента, результаты и код

    habr.com/ru/articles/1033570/

    #resilience #causality #графы #sre #reliability #modeling

  42. Семь раз посчитай — один раз урони: моделируем инциденты до деплоя

    Ракету не отправляют в космос только потому, что её двигатель и насос успешно прошли стендовые испытания по отдельности. Перед стартом инженеры рассчитывают траекторию, моделируют режимы работы и анализируют сценарии отказов. Расчёт не заменяет реальные тесты, но задаёт для них осмысленную рамку. В софте всё обычно иначе. Распределённый пользовательский путь — например, оформление заказа — собирается из десятков микросервисов, баз и очередей. Разработчики добавляют новую зависимость, видят зелёные тесты, проверяют локальные метрики и выкатывают релиз. Считается, что если при сбое что-то пойдёт не так, настроенная система наблюдаемости обязательно это покажет. Она, конечно, покажет. Но почему при проектировании микросервисов мы так спокойно относимся к тому, что узнаём о хрупкости архитектуры в основном по факту инцидента? Эта статья о том, как получить грубый расчёт деградации системы ещё до релиза. Без отказа от хаос-инжиниринга или мониторинга, а как шаг перед ними. Я расскажу о двух экспериментах, в которых топологическая модель автоматически извлекалась из распределённых трейсов, после чего на ней просчитывались сценарии отказов методом Монте-Карло. Результаты моделирования я затем сравнивал с реальными инъекциями отказов на стендах DeathStarBench и OpenTelemetry Demo. Два эксперимента, результаты и код

    habr.com/ru/articles/1033570/

    #resilience #causality #графы #sre #reliability #modeling

  43. Семь раз посчитай — один раз урони: моделируем инциденты до деплоя

    Ракету не отправляют в космос только потому, что её двигатель и насос успешно прошли стендовые испытания по отдельности. Перед стартом инженеры рассчитывают траекторию, моделируют режимы работы и анализируют сценарии отказов. Расчёт не заменяет реальные тесты, но задаёт для них осмысленную рамку. В софте всё обычно иначе. Распределённый пользовательский путь — например, оформление заказа — собирается из десятков микросервисов, баз и очередей. Разработчики добавляют новую зависимость, видят зелёные тесты, проверяют локальные метрики и выкатывают релиз. Считается, что если при сбое что-то пойдёт не так, настроенная система наблюдаемости обязательно это покажет. Она, конечно, покажет. Но почему при проектировании микросервисов мы так спокойно относимся к тому, что узнаём о хрупкости архитектуры в основном по факту инцидента? Эта статья о том, как получить грубый расчёт деградации системы ещё до релиза. Без отказа от хаос-инжиниринга или мониторинга, а как шаг перед ними. Я расскажу о двух экспериментах, в которых топологическая модель автоматически извлекалась из распределённых трейсов, после чего на ней просчитывались сценарии отказов методом Монте-Карло. Результаты моделирования я затем сравнивал с реальными инъекциями отказов на стендах DeathStarBench и OpenTelemetry Demo. Два эксперимента, результаты и код

    habr.com/ru/articles/1033570/

    #resilience #causality #графы #sre #reliability #modeling

  44. AWS DevOps Agent case studies are revealing an important reality:

    AI is proving to be a mirror, not magic.

    Strong DevOps foundations accelerate faster.
    Weak operational foundations get exposed quicker.

    #AWS #DevOps #AI #CloudComputing #PlatformEngineering #SRE #Kubernetes

  45. AWS DevOps Agent case studies are revealing an important reality:

    AI is proving to be a mirror, not magic.

    Strong DevOps foundations accelerate faster.
    Weak operational foundations get exposed quicker.

    #AWS #DevOps #AI #CloudComputing #PlatformEngineering #SRE #Kubernetes

  46. AWS DevOps Agent case studies are revealing an important reality:

    AI is proving to be a mirror, not magic.

    Strong DevOps foundations accelerate faster.
    Weak operational foundations get exposed quicker.

    #AWS #DevOps #AI #CloudComputing #PlatformEngineering #SRE #Kubernetes

  47. AWS DevOps Agent case studies are revealing an important reality:

    AI is proving to be a mirror, not magic.

    Strong DevOps foundations accelerate faster.
    Weak operational foundations get exposed quicker.

    #AWS #DevOps #AI #CloudComputing #PlatformEngineering #SRE #Kubernetes

  48. AWS DevOps Agent case studies are revealing an important reality:

    AI is proving to be a mirror, not magic.

    Strong DevOps foundations accelerate faster.
    Weak operational foundations get exposed quicker.

    #AWS #DevOps #AI #CloudComputing #PlatformEngineering #SRE #Kubernetes

  49. students causing me to crumble into dust with essay responses including these gems: "Host files exist because there was no DNS back in your day" and ""there weren't that many websites before the turn of the century" #sre #devops #dns #compsci