home.social

#failover — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #failover, aggregated by home.social.

  1. [ Blog ] Veeam High Availability Cluster: and automation - pt.2

    Once the Veeam High Availability has been created, there are two ways to perform the failover: manual and automated through Veeam ONE.

    Manual failover does not require additional components to be installed, whereas automatic failover requires Veeam ONE to be installed and configured within your rviv.ly/yhouMN

  2. [ Blog ] Veeam High Availability Cluster: and automation - pt.2

    Once the Veeam High Availability has been created, there are two ways to perform the failover: manual and automated through Veeam ONE.

    Manual failover does not require additional components to be installed, whereas automatic failover requires Veeam ONE to be installed and configured within your rviv.ly/yhouMN

  3. Строим шину данных для микросервисов на ZeroMQ: failover, гарантии доставки и E2E-шифрование

    Асинхронная клиент-серверная библиотека для обмена сообщениями между микросервисами на базе ZeroMQ. Реализует гарантированную доставку сообщений (At-Least-Once) с персистентной файловой очередью при обрывах связи, автоматический failover сервера переадресации (клиенты могут подхватывать роль сервера на лету) и два уровня защиты: шифрование канала (CurveZMQ) и сквозное шифрование сообщений (HMAC). Лёгкая альтернатива брокерам вроде RabbitMQ, не требующая отдельного сервера.

    habr.com/ru/articles/1030020/

    #python #zeromq #zmq #failover #atleastonce #endtoend_шифрование #микросервисы #распределенные_системы #hmac #криптография

  4. Строим шину данных для микросервисов на ZeroMQ: failover, гарантии доставки и E2E-шифрование

    Асинхронная клиент-серверная библиотека для обмена сообщениями между микросервисами на базе ZeroMQ. Реализует гарантированную доставку сообщений (At-Least-Once) с персистентной файловой очередью при обрывах связи, автоматический failover сервера переадресации (клиенты могут подхватывать роль сервера на лету) и два уровня защиты: шифрование канала (CurveZMQ) и сквозное шифрование сообщений (HMAC). Лёгкая альтернатива брокерам вроде RabbitMQ, не требующая отдельного сервера.

    habr.com/ru/articles/1030020/

    #python #zeromq #zmq #failover #atleastonce #endtoend_шифрование #микросервисы #распределенные_системы #hmac #криптография

  5. Строим шину данных для микросервисов на ZeroMQ: failover, гарантии доставки и E2E-шифрование

    Асинхронная клиент-серверная библиотека для обмена сообщениями между микросервисами на базе ZeroMQ. Реализует гарантированную доставку сообщений (At-Least-Once) с персистентной файловой очередью при обрывах связи, автоматический failover сервера переадресации (клиенты могут подхватывать роль сервера на лету) и два уровня защиты: шифрование канала (CurveZMQ) и сквозное шифрование сообщений (HMAC). Лёгкая альтернатива брокерам вроде RabbitMQ, не требующая отдельного сервера.

    habr.com/ru/articles/1030020/

    #python #zeromq #zmq #failover #atleastonce #endtoend_шифрование #микросервисы #распределенные_системы #hmac #криптография

  6. Строим шину данных для микросервисов на ZeroMQ: failover, гарантии доставки и E2E-шифрование

    Асинхронная клиент-серверная библиотека для обмена сообщениями между микросервисами на базе ZeroMQ. Реализует гарантированную доставку сообщений (At-Least-Once) с персистентной файловой очередью при обрывах связи, автоматический failover сервера переадресации (клиенты могут подхватывать роль сервера на лету) и два уровня защиты: шифрование канала (CurveZMQ) и сквозное шифрование сообщений (HMAC). Лёгкая альтернатива брокерам вроде RabbitMQ, не требующая отдельного сервера.

    habr.com/ru/articles/1030020/

    #python #zeromq #zmq #failover #atleastonce #endtoend_шифрование #микросервисы #распределенные_системы #hmac #криптография

  7. Turns out, failover success is subjective. Apparently, being ‘active’ just means you get tested harder. Ever wondered how ‘best intentions’ can invent new incidents? Let’s talk IT wisdom in the replies.

    Find out more in Episode 12 : The Failover That Failed Successfully

    youtube.com/shorts/L3s3K2E4-1I

    Listen here : ithorrorstories.eu/#ep12

    All other things : links.ithorrorstories.eu/

    #podcasts #failover #drtest #disaster #technology #operationalreadyness #tech

  8. Turns out, failover success is subjective. Apparently, being ‘active’ just means you get tested harder. Ever wondered how ‘best intentions’ can invent new incidents? Let’s talk IT wisdom in the replies.

    Find out more in Episode 12 : The Failover That Failed Successfully

    youtube.com/shorts/L3s3K2E4-1I

    Listen here : ithorrorstories.eu/#ep12

    All other things : links.ithorrorstories.eu/

    #podcasts #failover #drtest #disaster #technology #operationalreadyness #tech

  9. Turns out, failover success is subjective. Apparently, being ‘active’ just means you get tested harder. Ever wondered how ‘best intentions’ can invent new incidents? Let’s talk IT wisdom in the replies.

    Find out more in Episode 12 : The Failover That Failed Successfully

    youtube.com/shorts/L3s3K2E4-1I

    Listen here : ithorrorstories.eu/#ep12

    All other things : links.ithorrorstories.eu/

    #podcasts #failover #drtest #disaster #technology #operationalreadyness #tech

  10. Turns out, failover success is subjective. Apparently, being ‘active’ just means you get tested harder. Ever wondered how ‘best intentions’ can invent new incidents? Let’s talk IT wisdom in the replies.

    Find out more in Episode 12 : The Failover That Failed Successfully

    youtube.com/shorts/L3s3K2E4-1I

    Listen here : ithorrorstories.eu/#ep12

    All other things : links.ithorrorstories.eu/

    #podcasts #failover #drtest #disaster #technology #operationalreadyness #tech

  11. Turns out, failover success is subjective. Apparently, being ‘active’ just means you get tested harder. Ever wondered how ‘best intentions’ can invent new incidents? Let’s talk IT wisdom in the replies.

    Find out more in Episode 12 : The Failover That Failed Successfully

    youtube.com/shorts/L3s3K2E4-1I

    Listen here : ithorrorstories.eu/#ep12

    All other things : links.ithorrorstories.eu/

  12. Ever run a failover test that worked perfectly… and still felt like everything was falling apart?

    In Episode 12, we take you into a disaster recovery test during a busy release weekend — where the tech held up, but communication didn’t.

    Subcontractors weren’t aligned, assumptions didn’t match reality, and suddenly a ‘simple test’ turned into a full coordination puzzle.

    No production impact — but plenty of lessons.

    Because resilience isn’t just about systems… it’s about people, timing, and actually talking to each other.

    Listen now to IT Horror Stories with Jack Smith
    You can find us on Spotify, Apple Music, Youtube, Deezer and of course at ITHorrorStories.eu

    You are one of us.

    youtube.com/shorts/k_SyFbQ71TU

    #podcast #technology #failover #failure #techlife

  13. Ever run a failover test that worked perfectly… and still felt like everything was falling apart?

    In Episode 12, we take you into a disaster recovery test during a busy release weekend — where the tech held up, but communication didn’t.

    Subcontractors weren’t aligned, assumptions didn’t match reality, and suddenly a ‘simple test’ turned into a full coordination puzzle.

    No production impact — but plenty of lessons.

    Because resilience isn’t just about systems… it’s about people, timing, and actually talking to each other.

    Listen now to IT Horror Stories with Jack Smith
    You can find us on Spotify, Apple Music, Youtube, Deezer and of course at ITHorrorStories.eu

    You are one of us.

    youtube.com/shorts/k_SyFbQ71TU

    #podcast #technology #failover #failure #techlife

  14. Ever run a failover test that worked perfectly… and still felt like everything was falling apart?

    In Episode 12, we take you into a disaster recovery test during a busy release weekend — where the tech held up, but communication didn’t.

    Subcontractors weren’t aligned, assumptions didn’t match reality, and suddenly a ‘simple test’ turned into a full coordination puzzle.

    No production impact — but plenty of lessons.

    Because resilience isn’t just about systems… it’s about people, timing, and actually talking to each other.

    Listen now to IT Horror Stories with Jack Smith
    You can find us on Spotify, Apple Music, Youtube, Deezer and of course at ITHorrorStories.eu

    You are one of us.

    youtube.com/shorts/k_SyFbQ71TU

    #podcast #technology #failover #failure #techlife

  15. Ever run a failover test that worked perfectly… and still felt like everything was falling apart?

    In Episode 12, we take you into a disaster recovery test during a busy release weekend — where the tech held up, but communication didn’t.

    Subcontractors weren’t aligned, assumptions didn’t match reality, and suddenly a ‘simple test’ turned into a full coordination puzzle.

    No production impact — but plenty of lessons.

    Because resilience isn’t just about systems… it’s about people, timing, and actually talking to each other.

    Listen now to IT Horror Stories with Jack Smith
    You can find us on Spotify, Apple Music, Youtube, Deezer and of course at ITHorrorStories.eu

    You are one of us.

    youtube.com/shorts/k_SyFbQ71TU

    #podcast #technology #failover #failure #techlife

  16. Ever run a failover test that worked perfectly… and still felt like everything was falling apart?

    In Episode 12, we take you into a disaster recovery test during a busy release weekend — where the tech held up, but communication didn’t.

    Subcontractors weren’t aligned, assumptions didn’t match reality, and suddenly a ‘simple test’ turned into a full coordination puzzle.

    No production impact — but plenty of lessons.

    Because resilience isn’t just about systems… it’s about people, timing, and actually talking to each other.

    Listen now to IT Horror Stories with Jack Smith
    You can find us on Spotify, Apple Music, Youtube, Deezer and of course at ITHorrorStories.eu

    You are one of us.

    youtube.com/shorts/k_SyFbQ71TU

  17. For those who run #ProsodyIM as #xmpp server, I did something simple but effective in my failover architecture:

    • 2 Prosody instances in two different regions in a datacenter
    • lsyncd syncing from primary to stand by instance all data
    • an entrypoint script supervising Prosody execution
    • a lock file controlling if entrypoint script can up Prosody
    • a daemon checking if floating ip is linked to hosts and controlling the lock file and the lsyncd execution and configuration to primary/standby modes

    Perfect solution? Of course not.
    Effective solution? Hell yeah.

    :isacloud: :isacloudim:

    #xmpp #failover #container #vrrp #prosodyim #prosodyim

  18. For those who run #ProsodyIM as #xmpp server, I did something simple but effective in my failover architecture:

    • 2 Prosody instances in two different regions in a datacenter
    • lsyncd syncing from primary to stand by instance all data
    • an entrypoint script supervising Prosody execution
    • a lock file controlling if entrypoint script can up Prosody
    • a daemon checking if floating ip is linked to hosts and controlling the lock file and the lsyncd execution and configuration to primary/standby modes

    Perfect solution? Of course not.
    Effective solution? Hell yeah.

    :isacloud: :isacloudim:

    #xmpp #failover #container #vrrp #prosodyim #prosodyim

  19. For those who run #ProsodyIM as #xmpp server, I did something simple but effective in my failover architecture:

    • 2 Prosody instances in two different regions in a datacenter
    • lsyncd syncing from primary to stand by instance all data
    • an entrypoint script supervising Prosody execution
    • a lock file controlling if entrypoint script can up Prosody
    • a daemon checking if floating ip is linked to hosts and controlling the lock file and the lsyncd execution and configuration to primary/standby modes

    Perfect solution? Of course not.
    Effective solution? Hell yeah.

    :isacloud: :isacloudim:

    #xmpp #failover #container #vrrp #prosodyim #prosodyim

  20. For those who run #ProsodyIM as #xmpp server, I did something simple but effective in my failover architecture:

    • 2 Prosody instances in two different regions in a datacenter
    • lsyncd syncing from primary to stand by instance all data
    • an entrypoint script supervising Prosody execution
    • a lock file controlling if entrypoint script can up Prosody
    • a daemon checking if floating ip is linked to hosts and controlling the lock file and the lsyncd execution and configuration to primary/standby modes

    Perfect solution? Of course not.
    Effective solution? Hell yeah.

    :isacloud: :isacloudim:

    #xmpp #failover #container #vrrp #prosodyim #prosodyim

  21. For those who run #ProsodyIM as #xmpp server, I did something simple but effective in my failover architecture:

    • 2 Prosody instances in two different regions in a datacenter
    • lsyncd syncing from primary to stand by instance all data
    • an entrypoint script supervising Prosody execution
    • a lock file controlling if entrypoint script can up Prosody
    • a daemon checking if floating ip is linked to hosts and controlling the lock file and the lsyncd execution and configuration to primary/standby modes

    Perfect solution? Of course not.
    Effective solution? Hell yeah.

    :isacloud: :isacloudim:

    #xmpp #failover #container #vrrp #prosodyim #prosodyim

  22. During a busy release weekend, a planned failover exposed not technical flaws, but something more familiar: misaligned teams, unclear responsibilities, and communication that didn’t quite arrive when it should have. Production stayed safe — but confidence took a hit.

    This episode dives into how a “simple test” turned into a coordination challenge, and why resilience is just as much about people and processes as it is about systems.

    Find all links to listen on our website : ithorrorstories.eu/#ep12

    #podcast #datarecovery #failover #test #technology

    You can find our podcast on :

    Spotify : open.spotify.com/show/7LqbtykS
    Apple Music : podcasts.apple.com/us/podcast/
    YouTube : music.youtube.com/playlist?lis
    Deezer : link.deezer.com/s/30dyH3RoKvN8

  23. During a busy release weekend, a planned failover exposed not technical flaws, but something more familiar: misaligned teams, unclear responsibilities, and communication that didn’t quite arrive when it should have. Production stayed safe — but confidence took a hit.

    This episode dives into how a “simple test” turned into a coordination challenge, and why resilience is just as much about people and processes as it is about systems.

    Find all links to listen on our website : ithorrorstories.eu/#ep12

    #podcast #datarecovery #failover #test #technology

    You can find our podcast on :

    Spotify : open.spotify.com/show/7LqbtykS
    Apple Music : podcasts.apple.com/us/podcast/
    YouTube : music.youtube.com/playlist?lis
    Deezer : link.deezer.com/s/30dyH3RoKvN8

  24. During a busy release weekend, a planned failover exposed not technical flaws, but something more familiar: misaligned teams, unclear responsibilities, and communication that didn’t quite arrive when it should have. Production stayed safe — but confidence took a hit.

    This episode dives into how a “simple test” turned into a coordination challenge, and why resilience is just as much about people and processes as it is about systems.

    Find all links to listen on our website : ithorrorstories.eu/#ep12

    #podcast #datarecovery #failover #test #technology

    You can find our podcast on :

    Spotify : open.spotify.com/show/7LqbtykS
    Apple Music : podcasts.apple.com/us/podcast/
    YouTube : music.youtube.com/playlist?lis
    Deezer : link.deezer.com/s/30dyH3RoKvN8

  25. During a busy release weekend, a planned failover exposed not technical flaws, but something more familiar: misaligned teams, unclear responsibilities, and communication that didn’t quite arrive when it should have. Production stayed safe — but confidence took a hit.

    This episode dives into how a “simple test” turned into a coordination challenge, and why resilience is just as much about people and processes as it is about systems.

    Find all links to listen on our website : ithorrorstories.eu/#ep12

    #podcast #datarecovery #failover #test #technology

    You can find our podcast on :

    Spotify : open.spotify.com/show/7LqbtykS
    Apple Music : podcasts.apple.com/us/podcast/
    YouTube : music.youtube.com/playlist?lis
    Deezer : link.deezer.com/s/30dyH3RoKvN8

  26. During a busy release weekend, a planned failover exposed not technical flaws, but something more familiar: misaligned teams, unclear responsibilities, and communication that didn’t quite arrive when it should have. Production stayed safe — but confidence took a hit.

    This episode dives into how a “simple test” turned into a coordination challenge, and why resilience is just as much about people and processes as it is about systems.

    Find all links to listen on our website : ithorrorstories.eu/#ep12

    You can find our podcast on :

    Spotify : open.spotify.com/show/7LqbtykS
    Apple Music : podcasts.apple.com/us/podcast/
    YouTube : music.youtube.com/playlist?lis
    Deezer : link.deezer.com/s/30dyH3RoKvN8

  27. [Перевод] Осваиваем replication slots в Postgres: как предотвратить разрастание WAL и другие проблемы в продакшене

    Логическая репликация в Postgres редко ломает прод внезапно — чаще она долго и методично копит проблему, пока replication slot удерживает всё больше WAL, потребитель отстаёт, а свободное место на диске начинает таять. В этой статье разбирается именно такая зона риска: как устроена работа replication slots, почему одних базовых настроек здесь недостаточно и какие практики реально помогают держать под контролем WAL, публикации, heartbeats, failover и мониторинг. Материал особенно полезен тем, кто работает с CDC, Debezium и production-инстансами Postgres, где цена ошибки измеряется уже не теорией, а стабильностью системы. Разбор PostgreSQL

    habr.com/ru/companies/otus/art

    #PostgreSQL #replication_slots #логическая_репликация #WAL #CDC #Debezium #pgoutput #failover #мониторинг_Postgres

  28. [Перевод] Осваиваем replication slots в Postgres: как предотвратить разрастание WAL и другие проблемы в продакшене

    Логическая репликация в Postgres редко ломает прод внезапно — чаще она долго и методично копит проблему, пока replication slot удерживает всё больше WAL, потребитель отстаёт, а свободное место на диске начинает таять. В этой статье разбирается именно такая зона риска: как устроена работа replication slots, почему одних базовых настроек здесь недостаточно и какие практики реально помогают держать под контролем WAL, публикации, heartbeats, failover и мониторинг. Материал особенно полезен тем, кто работает с CDC, Debezium и production-инстансами Postgres, где цена ошибки измеряется уже не теорией, а стабильностью системы. Разбор PostgreSQL

    habr.com/ru/companies/otus/art

    #PostgreSQL #replication_slots #логическая_репликация #WAL #CDC #Debezium #pgoutput #failover #мониторинг_Postgres

  29. [Перевод] Осваиваем replication slots в Postgres: как предотвратить разрастание WAL и другие проблемы в продакшене

    Логическая репликация в Postgres редко ломает прод внезапно — чаще она долго и методично копит проблему, пока replication slot удерживает всё больше WAL, потребитель отстаёт, а свободное место на диске начинает таять. В этой статье разбирается именно такая зона риска: как устроена работа replication slots, почему одних базовых настроек здесь недостаточно и какие практики реально помогают держать под контролем WAL, публикации, heartbeats, failover и мониторинг. Материал особенно полезен тем, кто работает с CDC, Debezium и production-инстансами Postgres, где цена ошибки измеряется уже не теорией, а стабильностью системы. Разбор PostgreSQL

    habr.com/ru/companies/otus/art

    #PostgreSQL #replication_slots #логическая_репликация #WAL #CDC #Debezium #pgoutput #failover #мониторинг_Postgres

  30. [Перевод] Осваиваем replication slots в Postgres: как предотвратить разрастание WAL и другие проблемы в продакшене

    Логическая репликация в Postgres редко ломает прод внезапно — чаще она долго и методично копит проблему, пока replication slot удерживает всё больше WAL, потребитель отстаёт, а свободное место на диске начинает таять. В этой статье разбирается именно такая зона риска: как устроена работа replication slots, почему одних базовых настроек здесь недостаточно и какие практики реально помогают держать под контролем WAL, публикации, heartbeats, failover и мониторинг. Материал особенно полезен тем, кто работает с CDC, Debezium и production-инстансами Postgres, где цена ошибки измеряется уже не теорией, а стабильностью системы. Разбор PostgreSQL

    habr.com/ru/companies/otus/art

    #PostgreSQL #replication_slots #логическая_репликация #WAL #CDC #Debezium #pgoutput #failover #мониторинг_Postgres

  31. Мониторинг SQL Server Always On в Zabbix

    Если у вас стоит Always On Availability Groups, вы наверняка бывали в такой ситуации: в SSMS всё зелёное, дашборд показывает «Synchronized», а пользователи звонят с жалобами на тормоза. Смотришь на secondary — а там redo_queue_size 600 МБ, реплика отстаёт на полчаса. Ни одного алерта. У нас это случилось на продуктивном кластере с 1С: secondary молча отвалился в SYNCHRONIZING, а мы узнали только при плановом переключении. Полтора часа redo queue. Стало понятно, что встроенный дашборд SSMS — это не мониторинг. Дальше — как мы это закрыли Zabbix'ом за вечер.

    habr.com/ru/companies/cloud4y/

    #SQL_Server #Always_On #Zabbix #мониторинг #DMV #WSFC #кворум #failover #DBA

  32. Мониторинг SQL Server Always On в Zabbix

    Если у вас стоит Always On Availability Groups, вы наверняка бывали в такой ситуации: в SSMS всё зелёное, дашборд показывает «Synchronized», а пользователи звонят с жалобами на тормоза. Смотришь на secondary — а там redo_queue_size 600 МБ, реплика отстаёт на полчаса. Ни одного алерта. У нас это случилось на продуктивном кластере с 1С: secondary молча отвалился в SYNCHRONIZING, а мы узнали только при плановом переключении. Полтора часа redo queue. Стало понятно, что встроенный дашборд SSMS — это не мониторинг. Дальше — как мы это закрыли Zabbix'ом за вечер.

    habr.com/ru/companies/cloud4y/

    #SQL_Server #Always_On #Zabbix #мониторинг #DMV #WSFC #кворум #failover #DBA

  33. Мониторинг SQL Server Always On в Zabbix

    Если у вас стоит Always On Availability Groups, вы наверняка бывали в такой ситуации: в SSMS всё зелёное, дашборд показывает «Synchronized», а пользователи звонят с жалобами на тормоза. Смотришь на secondary — а там redo_queue_size 600 МБ, реплика отстаёт на полчаса. Ни одного алерта. У нас это случилось на продуктивном кластере с 1С: secondary молча отвалился в SYNCHRONIZING, а мы узнали только при плановом переключении. Полтора часа redo queue. Стало понятно, что встроенный дашборд SSMS — это не мониторинг. Дальше — как мы это закрыли Zabbix'ом за вечер.

    habr.com/ru/companies/cloud4y/

    #SQL_Server #Always_On #Zabbix #мониторинг #DMV #WSFC #кворум #failover #DBA

  34. Мониторинг SQL Server Always On в Zabbix

    Если у вас стоит Always On Availability Groups, вы наверняка бывали в такой ситуации: в SSMS всё зелёное, дашборд показывает «Synchronized», а пользователи звонят с жалобами на тормоза. Смотришь на secondary — а там redo_queue_size 600 МБ, реплика отстаёт на полчаса. Ни одного алерта. У нас это случилось на продуктивном кластере с 1С: secondary молча отвалился в SYNCHRONIZING, а мы узнали только при плановом переключении. Полтора часа redo queue. Стало понятно, что встроенный дашборд SSMS — это не мониторинг. Дальше — как мы это закрыли Zabbix'ом за вечер.

    habr.com/ru/companies/cloud4y/

    #SQL_Server #Always_On #Zabbix #мониторинг #DMV #WSFC #кворум #failover #DBA

  35. And suddenly the NAS had switched itself off. It's up and running again but this is not good. Glad I have Nastig set up and ready to take over if the NAS is dying.

    #recovery #NAS #failover

  36. And suddenly the NAS had switched itself off. It's up and running again but this is not good. Glad I have Nastig set up and ready to take over if the NAS is dying.

    #recovery #NAS #failover

  37. And suddenly the NAS had switched itself off. It's up and running again but this is not good. Glad I have Nastig set up and ready to take over if the NAS is dying.

    #recovery #NAS #failover

  38. And suddenly the NAS had switched itself off. It's up and running again but this is not good. Glad I have Nastig set up and ready to take over if the NAS is dying.

    #recovery #NAS #failover

  39. And suddenly the NAS had switched itself off. It's up and running again but this is not good. Glad I have Nastig set up and ready to take over if the NAS is dying.

    #recovery #NAS #failover

  40. #throwback What really happens inside a PostgreSQL cluster after failover? 🔄 David Pech dives deep into failover, switchover, split-brain scenarios, and recovery strategies—manually breaking down how tools like Patroni work.

    ▶️ Watch the video now! lnkd.in/dQiiBvXX

    #PostgreSQL #PGDay #PPDD #Failover #HighAvailability

  41. #throwback What really happens inside a PostgreSQL cluster after failover? 🔄 David Pech dives deep into failover, switchover, split-brain scenarios, and recovery strategies—manually breaking down how tools like Patroni work.

    ▶️ Watch the video now! lnkd.in/dQiiBvXX

    #PostgreSQL #PGDay #PPDD #Failover #HighAvailability