home.social

#fail-over — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #fail-over, aggregated by home.social.

fetched live
  1. [ Blog ] Veeam High Availability Cluster: and automation - pt.2

    Once the Veeam High Availability has been created, there are two ways to perform the failover: manual and automated through Veeam ONE.

    Manual failover does not require additional components to be installed, whereas automatic failover requires Veeam ONE to be installed and configured within your rviv.ly/yhouMN

  2. Строим шину данных для микросервисов на ZeroMQ: failover, гарантии доставки и E2E-шифрование

    Асинхронная клиент-серверная библиотека для обмена сообщениями между микросервисами на базе ZeroMQ. Реализует гарантированную доставку сообщений (At-Least-Once) с персистентной файловой очередью при обрывах связи, автоматический failover сервера переадресации (клиенты могут подхватывать роль сервера на лету) и два уровня защиты: шифрование канала (CurveZMQ) и сквозное шифрование сообщений (HMAC). Лёгкая альтернатива брокерам вроде RabbitMQ, не требующая отдельного сервера.

    habr.com/ru/articles/1030020/

    #python #zeromq #zmq #failover #atleastonce #endtoend_шифрование #микросервисы #распределенные_системы #hmac #криптография

  3. Строим шину данных для микросервисов на ZeroMQ: failover, гарантии доставки и E2E-шифрование

    Асинхронная клиент-серверная библиотека для обмена сообщениями между микросервисами на базе ZeroMQ. Реализует гарантированную доставку сообщений (At-Least-Once) с персистентной файловой очередью при обрывах связи, автоматический failover сервера переадресации (клиенты могут подхватывать роль сервера на лету) и два уровня защиты: шифрование канала (CurveZMQ) и сквозное шифрование сообщений (HMAC). Лёгкая альтернатива брокерам вроде RabbitMQ, не требующая отдельного сервера.

    habr.com/ru/articles/1030020/

    #python #zeromq #zmq #failover #atleastonce #endtoend_шифрование #микросервисы #распределенные_системы #hmac #криптография

  4. Строим шину данных для микросервисов на ZeroMQ: failover, гарантии доставки и E2E-шифрование

    Асинхронная клиент-серверная библиотека для обмена сообщениями между микросервисами на базе ZeroMQ. Реализует гарантированную доставку сообщений (At-Least-Once) с персистентной файловой очередью при обрывах связи, автоматический failover сервера переадресации (клиенты могут подхватывать роль сервера на лету) и два уровня защиты: шифрование канала (CurveZMQ) и сквозное шифрование сообщений (HMAC). Лёгкая альтернатива брокерам вроде RabbitMQ, не требующая отдельного сервера.

    habr.com/ru/articles/1030020/

    #python #zeromq #zmq #failover #atleastonce #endtoend_шифрование #микросервисы #распределенные_системы #hmac #криптография

  5. Строим шину данных для микросервисов на ZeroMQ: failover, гарантии доставки и E2E-шифрование

    Асинхронная клиент-серверная библиотека для обмена сообщениями между микросервисами на базе ZeroMQ. Реализует гарантированную доставку сообщений (At-Least-Once) с персистентной файловой очередью при обрывах связи, автоматический failover сервера переадресации (клиенты могут подхватывать роль сервера на лету) и два уровня защиты: шифрование канала (CurveZMQ) и сквозное шифрование сообщений (HMAC). Лёгкая альтернатива брокерам вроде RabbitMQ, не требующая отдельного сервера.

    habr.com/ru/articles/1030020/

    #python #zeromq #zmq #failover #atleastonce #endtoend_шифрование #микросервисы #распределенные_системы #hmac #криптография

  6. Turns out, failover success is subjective. Apparently, being ‘active’ just means you get tested harder. Ever wondered how ‘best intentions’ can invent new incidents? Let’s talk IT wisdom in the replies.

    Find out more in Episode 12 : The Failover That Failed Successfully

    youtube.com/shorts/L3s3K2E4-1I

    Listen here : ithorrorstories.eu/#ep12

    All other things : links.ithorrorstories.eu/

    #podcasts #failover #drtest #disaster #technology #operationalreadyness #tech

  7. Turns out, failover success is subjective. Apparently, being ‘active’ just means you get tested harder. Ever wondered how ‘best intentions’ can invent new incidents? Let’s talk IT wisdom in the replies.

    Find out more in Episode 12 : The Failover That Failed Successfully

    youtube.com/shorts/L3s3K2E4-1I

    Listen here : ithorrorstories.eu/#ep12

    All other things : links.ithorrorstories.eu/

    #podcasts #failover #drtest #disaster #technology #operationalreadyness #tech

  8. Turns out, failover success is subjective. Apparently, being ‘active’ just means you get tested harder. Ever wondered how ‘best intentions’ can invent new incidents? Let’s talk IT wisdom in the replies.

    Find out more in Episode 12 : The Failover That Failed Successfully

    youtube.com/shorts/L3s3K2E4-1I

    Listen here : ithorrorstories.eu/#ep12

    All other things : links.ithorrorstories.eu/

    #podcasts #failover #drtest #disaster #technology #operationalreadyness #tech

  9. Turns out, failover success is subjective. Apparently, being ‘active’ just means you get tested harder. Ever wondered how ‘best intentions’ can invent new incidents? Let’s talk IT wisdom in the replies.

    Find out more in Episode 12 : The Failover That Failed Successfully

    youtube.com/shorts/L3s3K2E4-1I

    Listen here : ithorrorstories.eu/#ep12

    All other things : links.ithorrorstories.eu/

    #podcasts #failover #drtest #disaster #technology #operationalreadyness #tech

  10. Turns out, failover success is subjective. Apparently, being ‘active’ just means you get tested harder. Ever wondered how ‘best intentions’ can invent new incidents? Let’s talk IT wisdom in the replies.

    Find out more in Episode 12 : The Failover That Failed Successfully

    youtube.com/shorts/L3s3K2E4-1I

    Listen here : ithorrorstories.eu/#ep12

    All other things : links.ithorrorstories.eu/

  11. Ever run a failover test that worked perfectly… and still felt like everything was falling apart?

    In Episode 12, we take you into a disaster recovery test during a busy release weekend — where the tech held up, but communication didn’t.

    Subcontractors weren’t aligned, assumptions didn’t match reality, and suddenly a ‘simple test’ turned into a full coordination puzzle.

    No production impact — but plenty of lessons.

    Because resilience isn’t just about systems… it’s about people, timing, and actually talking to each other.

    Listen now to IT Horror Stories with Jack Smith
    You can find us on Spotify, Apple Music, Youtube, Deezer and of course at ITHorrorStories.eu

    You are one of us.

    youtube.com/shorts/k_SyFbQ71TU

    #podcast #technology #failover #failure #techlife

  12. Ever run a failover test that worked perfectly… and still felt like everything was falling apart?

    In Episode 12, we take you into a disaster recovery test during a busy release weekend — where the tech held up, but communication didn’t.

    Subcontractors weren’t aligned, assumptions didn’t match reality, and suddenly a ‘simple test’ turned into a full coordination puzzle.

    No production impact — but plenty of lessons.

    Because resilience isn’t just about systems… it’s about people, timing, and actually talking to each other.

    Listen now to IT Horror Stories with Jack Smith
    You can find us on Spotify, Apple Music, Youtube, Deezer and of course at ITHorrorStories.eu

    You are one of us.

    youtube.com/shorts/k_SyFbQ71TU

    #podcast #technology #failover #failure #techlife

  13. Ever run a failover test that worked perfectly… and still felt like everything was falling apart?

    In Episode 12, we take you into a disaster recovery test during a busy release weekend — where the tech held up, but communication didn’t.

    Subcontractors weren’t aligned, assumptions didn’t match reality, and suddenly a ‘simple test’ turned into a full coordination puzzle.

    No production impact — but plenty of lessons.

    Because resilience isn’t just about systems… it’s about people, timing, and actually talking to each other.

    Listen now to IT Horror Stories with Jack Smith
    You can find us on Spotify, Apple Music, Youtube, Deezer and of course at ITHorrorStories.eu

    You are one of us.

    youtube.com/shorts/k_SyFbQ71TU

    #podcast #technology #failover #failure #techlife

  14. Ever run a failover test that worked perfectly… and still felt like everything was falling apart?

    In Episode 12, we take you into a disaster recovery test during a busy release weekend — where the tech held up, but communication didn’t.

    Subcontractors weren’t aligned, assumptions didn’t match reality, and suddenly a ‘simple test’ turned into a full coordination puzzle.

    No production impact — but plenty of lessons.

    Because resilience isn’t just about systems… it’s about people, timing, and actually talking to each other.

    Listen now to IT Horror Stories with Jack Smith
    You can find us on Spotify, Apple Music, Youtube, Deezer and of course at ITHorrorStories.eu

    You are one of us.

    youtube.com/shorts/k_SyFbQ71TU

    #podcast #technology #failover #failure #techlife

  15. Ever run a failover test that worked perfectly… and still felt like everything was falling apart?

    In Episode 12, we take you into a disaster recovery test during a busy release weekend — where the tech held up, but communication didn’t.

    Subcontractors weren’t aligned, assumptions didn’t match reality, and suddenly a ‘simple test’ turned into a full coordination puzzle.

    No production impact — but plenty of lessons.

    Because resilience isn’t just about systems… it’s about people, timing, and actually talking to each other.

    Listen now to IT Horror Stories with Jack Smith
    You can find us on Spotify, Apple Music, Youtube, Deezer and of course at ITHorrorStories.eu

    You are one of us.

    youtube.com/shorts/k_SyFbQ71TU

  16. For those who run #ProsodyIM as #xmpp server, I did something simple but effective in my failover architecture:

    • 2 Prosody instances in two different regions in a datacenter
    • lsyncd syncing from primary to stand by instance all data
    • an entrypoint script supervising Prosody execution
    • a lock file controlling if entrypoint script can up Prosody
    • a daemon checking if floating ip is linked to hosts and controlling the lock file and the lsyncd execution and configuration to primary/standby modes

    Perfect solution? Of course not.
    Effective solution? Hell yeah.

    :isacloud: :isacloudim:

    #xmpp #failover #container #vrrp #prosodyim #prosodyim

  17. For those who run #ProsodyIM as #xmpp server, I did something simple but effective in my failover architecture:

    • 2 Prosody instances in two different regions in a datacenter
    • lsyncd syncing from primary to stand by instance all data
    • an entrypoint script supervising Prosody execution
    • a lock file controlling if entrypoint script can up Prosody
    • a daemon checking if floating ip is linked to hosts and controlling the lock file and the lsyncd execution and configuration to primary/standby modes

    Perfect solution? Of course not.
    Effective solution? Hell yeah.

    :isacloud: :isacloudim:

    #xmpp #failover #container #vrrp #prosodyim #prosodyim

  18. For those who run #ProsodyIM as #xmpp server, I did something simple but effective in my failover architecture:

    • 2 Prosody instances in two different regions in a datacenter
    • lsyncd syncing from primary to stand by instance all data
    • an entrypoint script supervising Prosody execution
    • a lock file controlling if entrypoint script can up Prosody
    • a daemon checking if floating ip is linked to hosts and controlling the lock file and the lsyncd execution and configuration to primary/standby modes

    Perfect solution? Of course not.
    Effective solution? Hell yeah.

    :isacloud: :isacloudim:

    #xmpp #failover #container #vrrp #prosodyim #prosodyim

  19. For those who run #ProsodyIM as #xmpp server, I did something simple but effective in my failover architecture:

    • 2 Prosody instances in two different regions in a datacenter
    • lsyncd syncing from primary to stand by instance all data
    • an entrypoint script supervising Prosody execution
    • a lock file controlling if entrypoint script can up Prosody
    • a daemon checking if floating ip is linked to hosts and controlling the lock file and the lsyncd execution and configuration to primary/standby modes

    Perfect solution? Of course not.
    Effective solution? Hell yeah.

    :isacloud: :isacloudim:

    #xmpp #failover #container #vrrp #prosodyim #prosodyim

  20. For those who run #ProsodyIM as #xmpp server, I did something simple but effective in my failover architecture:

    • 2 Prosody instances in two different regions in a datacenter
    • lsyncd syncing from primary to stand by instance all data
    • an entrypoint script supervising Prosody execution
    • a lock file controlling if entrypoint script can up Prosody
    • a daemon checking if floating ip is linked to hosts and controlling the lock file and the lsyncd execution and configuration to primary/standby modes

    Perfect solution? Of course not.
    Effective solution? Hell yeah.

    :isacloud: :isacloudim:

    #xmpp #failover #container #vrrp #prosodyim #prosodyim

  21. During a busy release weekend, a planned failover exposed not technical flaws, but something more familiar: misaligned teams, unclear responsibilities, and communication that didn’t quite arrive when it should have. Production stayed safe — but confidence took a hit.

    This episode dives into how a “simple test” turned into a coordination challenge, and why resilience is just as much about people and processes as it is about systems.

    Find all links to listen on our website : ithorrorstories.eu/#ep12

    #podcast #datarecovery #failover #test #technology

    You can find our podcast on :

    Spotify : open.spotify.com/show/7LqbtykS
    Apple Music : podcasts.apple.com/us/podcast/
    YouTube : music.youtube.com/playlist?lis
    Deezer : link.deezer.com/s/30dyH3RoKvN8

  22. During a busy release weekend, a planned failover exposed not technical flaws, but something more familiar: misaligned teams, unclear responsibilities, and communication that didn’t quite arrive when it should have. Production stayed safe — but confidence took a hit.

    This episode dives into how a “simple test” turned into a coordination challenge, and why resilience is just as much about people and processes as it is about systems.

    Find all links to listen on our website : ithorrorstories.eu/#ep12

    #podcast #datarecovery #failover #test #technology

    You can find our podcast on :

    Spotify : open.spotify.com/show/7LqbtykS
    Apple Music : podcasts.apple.com/us/podcast/
    YouTube : music.youtube.com/playlist?lis
    Deezer : link.deezer.com/s/30dyH3RoKvN8

  23. During a busy release weekend, a planned failover exposed not technical flaws, but something more familiar: misaligned teams, unclear responsibilities, and communication that didn’t quite arrive when it should have. Production stayed safe — but confidence took a hit.

    This episode dives into how a “simple test” turned into a coordination challenge, and why resilience is just as much about people and processes as it is about systems.

    Find all links to listen on our website : ithorrorstories.eu/#ep12

    #podcast #datarecovery #failover #test #technology

    You can find our podcast on :

    Spotify : open.spotify.com/show/7LqbtykS
    Apple Music : podcasts.apple.com/us/podcast/
    YouTube : music.youtube.com/playlist?lis
    Deezer : link.deezer.com/s/30dyH3RoKvN8

  24. During a busy release weekend, a planned failover exposed not technical flaws, but something more familiar: misaligned teams, unclear responsibilities, and communication that didn’t quite arrive when it should have. Production stayed safe — but confidence took a hit.

    This episode dives into how a “simple test” turned into a coordination challenge, and why resilience is just as much about people and processes as it is about systems.

    Find all links to listen on our website : ithorrorstories.eu/#ep12

    #podcast #datarecovery #failover #test #technology

    You can find our podcast on :

    Spotify : open.spotify.com/show/7LqbtykS
    Apple Music : podcasts.apple.com/us/podcast/
    YouTube : music.youtube.com/playlist?lis
    Deezer : link.deezer.com/s/30dyH3RoKvN8

  25. During a busy release weekend, a planned failover exposed not technical flaws, but something more familiar: misaligned teams, unclear responsibilities, and communication that didn’t quite arrive when it should have. Production stayed safe — but confidence took a hit.

    This episode dives into how a “simple test” turned into a coordination challenge, and why resilience is just as much about people and processes as it is about systems.

    Find all links to listen on our website : ithorrorstories.eu/#ep12

    You can find our podcast on :

    Spotify : open.spotify.com/show/7LqbtykS
    Apple Music : podcasts.apple.com/us/podcast/
    YouTube : music.youtube.com/playlist?lis
    Deezer : link.deezer.com/s/30dyH3RoKvN8

  26. [Перевод] Осваиваем replication slots в Postgres: как предотвратить разрастание WAL и другие проблемы в продакшене

    Логическая репликация в Postgres редко ломает прод внезапно — чаще она долго и методично копит проблему, пока replication slot удерживает всё больше WAL, потребитель отстаёт, а свободное место на диске начинает таять. В этой статье разбирается именно такая зона риска: как устроена работа replication slots, почему одних базовых настроек здесь недостаточно и какие практики реально помогают держать под контролем WAL, публикации, heartbeats, failover и мониторинг. Материал особенно полезен тем, кто работает с CDC, Debezium и production-инстансами Postgres, где цена ошибки измеряется уже не теорией, а стабильностью системы. Разбор PostgreSQL

    habr.com/ru/companies/otus/art

    #PostgreSQL #replication_slots #логическая_репликация #WAL #CDC #Debezium #pgoutput #failover #мониторинг_Postgres

  27. [Перевод] Осваиваем replication slots в Postgres: как предотвратить разрастание WAL и другие проблемы в продакшене

    Логическая репликация в Postgres редко ломает прод внезапно — чаще она долго и методично копит проблему, пока replication slot удерживает всё больше WAL, потребитель отстаёт, а свободное место на диске начинает таять. В этой статье разбирается именно такая зона риска: как устроена работа replication slots, почему одних базовых настроек здесь недостаточно и какие практики реально помогают держать под контролем WAL, публикации, heartbeats, failover и мониторинг. Материал особенно полезен тем, кто работает с CDC, Debezium и production-инстансами Postgres, где цена ошибки измеряется уже не теорией, а стабильностью системы. Разбор PostgreSQL

    habr.com/ru/companies/otus/art

    #PostgreSQL #replication_slots #логическая_репликация #WAL #CDC #Debezium #pgoutput #failover #мониторинг_Postgres

  28. [Перевод] Осваиваем replication slots в Postgres: как предотвратить разрастание WAL и другие проблемы в продакшене

    Логическая репликация в Postgres редко ломает прод внезапно — чаще она долго и методично копит проблему, пока replication slot удерживает всё больше WAL, потребитель отстаёт, а свободное место на диске начинает таять. В этой статье разбирается именно такая зона риска: как устроена работа replication slots, почему одних базовых настроек здесь недостаточно и какие практики реально помогают держать под контролем WAL, публикации, heartbeats, failover и мониторинг. Материал особенно полезен тем, кто работает с CDC, Debezium и production-инстансами Postgres, где цена ошибки измеряется уже не теорией, а стабильностью системы. Разбор PostgreSQL

    habr.com/ru/companies/otus/art

    #PostgreSQL #replication_slots #логическая_репликация #WAL #CDC #Debezium #pgoutput #failover #мониторинг_Postgres

  29. [Перевод] Осваиваем replication slots в Postgres: как предотвратить разрастание WAL и другие проблемы в продакшене

    Логическая репликация в Postgres редко ломает прод внезапно — чаще она долго и методично копит проблему, пока replication slot удерживает всё больше WAL, потребитель отстаёт, а свободное место на диске начинает таять. В этой статье разбирается именно такая зона риска: как устроена работа replication slots, почему одних базовых настроек здесь недостаточно и какие практики реально помогают держать под контролем WAL, публикации, heartbeats, failover и мониторинг. Материал особенно полезен тем, кто работает с CDC, Debezium и production-инстансами Postgres, где цена ошибки измеряется уже не теорией, а стабильностью системы. Разбор PostgreSQL

    habr.com/ru/companies/otus/art

    #PostgreSQL #replication_slots #логическая_репликация #WAL #CDC #Debezium #pgoutput #failover #мониторинг_Postgres

  30. Мониторинг SQL Server Always On в Zabbix

    Если у вас стоит Always On Availability Groups, вы наверняка бывали в такой ситуации: в SSMS всё зелёное, дашборд показывает «Synchronized», а пользователи звонят с жалобами на тормоза. Смотришь на secondary — а там redo_queue_size 600 МБ, реплика отстаёт на полчаса. Ни одного алерта. У нас это случилось на продуктивном кластере с 1С: secondary молча отвалился в SYNCHRONIZING, а мы узнали только при плановом переключении. Полтора часа redo queue. Стало понятно, что встроенный дашборд SSMS — это не мониторинг. Дальше — как мы это закрыли Zabbix'ом за вечер.

    habr.com/ru/companies/cloud4y/

    #SQL_Server #Always_On #Zabbix #мониторинг #DMV #WSFC #кворум #failover #DBA

  31. Мониторинг SQL Server Always On в Zabbix

    Если у вас стоит Always On Availability Groups, вы наверняка бывали в такой ситуации: в SSMS всё зелёное, дашборд показывает «Synchronized», а пользователи звонят с жалобами на тормоза. Смотришь на secondary — а там redo_queue_size 600 МБ, реплика отстаёт на полчаса. Ни одного алерта. У нас это случилось на продуктивном кластере с 1С: secondary молча отвалился в SYNCHRONIZING, а мы узнали только при плановом переключении. Полтора часа redo queue. Стало понятно, что встроенный дашборд SSMS — это не мониторинг. Дальше — как мы это закрыли Zabbix'ом за вечер.

    habr.com/ru/companies/cloud4y/

    #SQL_Server #Always_On #Zabbix #мониторинг #DMV #WSFC #кворум #failover #DBA

  32. Мониторинг SQL Server Always On в Zabbix

    Если у вас стоит Always On Availability Groups, вы наверняка бывали в такой ситуации: в SSMS всё зелёное, дашборд показывает «Synchronized», а пользователи звонят с жалобами на тормоза. Смотришь на secondary — а там redo_queue_size 600 МБ, реплика отстаёт на полчаса. Ни одного алерта. У нас это случилось на продуктивном кластере с 1С: secondary молча отвалился в SYNCHRONIZING, а мы узнали только при плановом переключении. Полтора часа redo queue. Стало понятно, что встроенный дашборд SSMS — это не мониторинг. Дальше — как мы это закрыли Zabbix'ом за вечер.

    habr.com/ru/companies/cloud4y/

    #SQL_Server #Always_On #Zabbix #мониторинг #DMV #WSFC #кворум #failover #DBA

  33. Мониторинг SQL Server Always On в Zabbix

    Если у вас стоит Always On Availability Groups, вы наверняка бывали в такой ситуации: в SSMS всё зелёное, дашборд показывает «Synchronized», а пользователи звонят с жалобами на тормоза. Смотришь на secondary — а там redo_queue_size 600 МБ, реплика отстаёт на полчаса. Ни одного алерта. У нас это случилось на продуктивном кластере с 1С: secondary молча отвалился в SYNCHRONIZING, а мы узнали только при плановом переключении. Полтора часа redo queue. Стало понятно, что встроенный дашборд SSMS — это не мониторинг. Дальше — как мы это закрыли Zabbix'ом за вечер.

    habr.com/ru/companies/cloud4y/

    #SQL_Server #Always_On #Zabbix #мониторинг #DMV #WSFC #кворум #failover #DBA

  34. And suddenly the NAS had switched itself off. It's up and running again but this is not good. Glad I have Nastig set up and ready to take over if the NAS is dying.

    #recovery #NAS #failover

  35. And suddenly the NAS had switched itself off. It's up and running again but this is not good. Glad I have Nastig set up and ready to take over if the NAS is dying.

    #recovery #NAS #failover

  36. And suddenly the NAS had switched itself off. It's up and running again but this is not good. Glad I have Nastig set up and ready to take over if the NAS is dying.

    #recovery #NAS #failover

  37. And suddenly the NAS had switched itself off. It's up and running again but this is not good. Glad I have Nastig set up and ready to take over if the NAS is dying.

    #recovery #NAS #failover

  38. And suddenly the NAS had switched itself off. It's up and running again but this is not good. Glad I have Nastig set up and ready to take over if the NAS is dying.

    #recovery #NAS #failover

  39. #throwback What really happens inside a PostgreSQL cluster after failover? 🔄 David Pech dives deep into failover, switchover, split-brain scenarios, and recovery strategies—manually breaking down how tools like Patroni work.

    ▶️ Watch the video now! lnkd.in/dQiiBvXX

    #PostgreSQL #PGDay #PPDD #Failover #HighAvailability

  40. #throwback What really happens inside a PostgreSQL cluster after failover? 🔄 David Pech dives deep into failover, switchover, split-brain scenarios, and recovery strategies—manually breaking down how tools like Patroni work.

    ▶️ Watch the video now! lnkd.in/dQiiBvXX

    #PostgreSQL #PGDay #PPDD #Failover #HighAvailability

  41. #throwback What really happens inside a PostgreSQL cluster after failover? 🔄 David Pech dives deep into failover, switchover, split-brain scenarios, and recovery strategies—manually breaking down how tools like Patroni work.

    ▶️ Watch the video now! lnkd.in/dQiiBvXX

    #PostgreSQL #PGDay #PPDD #Failover #HighAvailability

  42. #throwback What really happens inside a PostgreSQL cluster after failover? 🔄 David Pech dives deep into failover, switchover, split-brain scenarios, and recovery strategies—manually breaking down how tools like Patroni work.

    ▶️ Watch the video now! lnkd.in/dQiiBvXX

    #PostgreSQL #PGDay #PPDD #Failover #HighAvailability

  43. #throwback What really happens inside a PostgreSQL cluster after failover? 🔄 David Pech dives deep into failover, switchover, split-brain scenarios, and recovery strategies—manually breaking down how tools like Patroni work.

    ▶️ Watch the video now! lnkd.in/dQiiBvXX

    #PostgreSQL #PGDay #PPDD #Failover #HighAvailability

  44. Giới thiệu pg-status — microservice nhẹ giúp kiểm tra trạng thái PostgreSQL host, xác định master và replica đồng bộ, hỗ trợ failover và cân bằng tải. Dễ triển khai dạng sidecar, viết bằng C, hiệu năng cao (1500 RPS), API đơn giản qua HTTP. Hỗ trợ đo độ trễ theo thời gian/bytes, tích hợp với libpq hoặc proxy. Phù hợp cho hệ thống cần độ tin cậy cao và phản ứng nhanh với sự cố. #PostgreSQL #Database #DevOps #Microservice #C #HighAvailability #pgstatus #sidecar #replication #failover #trạng_thái_C

  45. Я наконец-то понял, как открытость может помешать — и отчёт об аварии

    В прошлый понедельник у нас случилась очередная крайне идиотская авария. Идиоты тут мы, если что, и сейчас я расскажу детали. Пострадало четыре сервера из всего ЦОДа — и все наши публичные коммуникации. Потому что владельцы виртуальных машин пришли под все посты и везде оставили комментарии. Параллельно была ещё одна история — под статьёй про то, что случалось за год, написал человек, мол, чего у вас всё постоянно ломается. Я вот размещаюсь у регионального провайдера, и у него за 7 лет ни одной проблемы. Так вот. Разница в том, что мы про всё это рассказываем. Тот провайдер наверняка уже раз 10 падал, останавливался и оставался без сети, но грамотно заталкивал косяки под ковёр. Это значит — никаких блогов на Хабре, никаких публичных коммуникаций с комментариями (типа канала в Телеграме), никаких объяснений кроме лицемерных ответов от службы поддержки и т.п. И тогда, внезапно, вас будут воспринимать более стабильным и надёжным. Наверное. Ну а я продолжаю рассказывать, что у нас происходило. Добро пожаловать в очередной RCA, где главное в поиске root cause было не выйти на самих себя. Но мы вышли!

    habr.com/ru/companies/ruvds/ar

    #ruvds_статьи #цод #авария #rca #ибп #резервное_питание #дизельгенераторные_установки #клиентский_сервис #failover

  46. Я наконец-то понял, как открытость может помешать — и отчёт об аварии

    В прошлый понедельник у нас случилась очередная крайне идиотская авария. Идиоты тут мы, если что, и сейчас я расскажу детали. Пострадало четыре сервера из всего ЦОДа — и все наши публичные коммуникации. Потому что владельцы виртуальных машин пришли под все посты и везде оставили комментарии. Параллельно была ещё одна история — под статьёй про то, что случалось за год, написал человек, мол, чего у вас всё постоянно ломается. Я вот размещаюсь у регионального провайдера, и у него за 7 лет ни одной проблемы. Так вот. Разница в том, что мы про всё это рассказываем. Тот провайдер наверняка уже раз 10 падал, останавливался и оставался без сети, но грамотно заталкивал косяки под ковёр. Это значит — никаких блогов на Хабре, никаких публичных коммуникаций с комментариями (типа канала в Телеграме), никаких объяснений кроме лицемерных ответов от службы поддержки и т.п. И тогда, внезапно, вас будут воспринимать более стабильным и надёжным. Наверное. Ну а я продолжаю рассказывать, что у нас происходило. Добро пожаловать в очередной RCA, где главное в поиске root cause было не выйти на самих себя. Но мы вышли!

    habr.com/ru/companies/ruvds/ar

    #ruvds_статьи #цод #авария #rca #ибп #резервное_питание #дизельгенераторные_установки #клиентский_сервис #failover