#disaster_recovery — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-14 · 11:42 UTC

Как построить и проверить катастрофоустойчивость в облаке: от плана до Game Day

Довольно много компаний при работе в облаке выстраивают катастрофоустойчивость, ориентируясь на условные «лучшие практики»: составляют планы, предусматривают резервные площадки, настраивают репликацию. Вместе с тем во время реальных инцидентов многие сталкиваются с тем, что все предусмотренное не работает или работает не так, как ожидалось: восстановление занимает часы вместо минут, данные теряются в критическом для бизнеса объеме, а команды оказываются не готовы к действиям в условиях стресса. Причина часто кроется в том, что меры обеспечения катастрофоустойчивости либо обеспечиваются формально («чтобы было»), либо проектируются без учета полного цикла рисков — от технических ограничений до организационной готовности. В статье разберем, как проектировать решения, которые переживают не отдельные сбои, а крупные аварии.

https://habr.com/ru/companies/vktech/articles/1034702/

#катастрофоустойчивость #облачные_технологии #disaster_recovery #high_availability #rto #rpo #cloud_native #отказоустойчивость #kubernetes #vk_tech

#vk_tech #kubernetes #отказоустойчивость #cloud_native #rpo #rto

Habr @[email protected] · 2026-05-14 · 11:42 UTC

Как построить и проверить катастрофоустойчивость в облаке: от плана до Game Day

Довольно много компаний при работе в облаке выстраивают катастрофоустойчивость, ориентируясь на условные «лучшие практики»: составляют планы, предусматривают резервные площадки, настраивают репликацию. Вместе с тем во время реальных инцидентов многие сталкиваются с тем, что все предусмотренное не работает или работает не так, как ожидалось: восстановление занимает часы вместо минут, данные теряются в критическом для бизнеса объеме, а команды оказываются не готовы к действиям в условиях стресса. Причина часто кроется в том, что меры обеспечения катастрофоустойчивости либо обеспечиваются формально («чтобы было»), либо проектируются без учета полного цикла рисков — от технических ограничений до организационной готовности. В статье разберем, как проектировать решения, которые переживают не отдельные сбои, а крупные аварии.

https://habr.com/ru/companies/vktech/articles/1034702/

#катастрофоустойчивость #облачные_технологии #disaster_recovery #high_availability #rto #rpo #cloud_native #отказоустойчивость #kubernetes #vk_tech

#vk_tech #kubernetes #отказоустойчивость #cloud_native #rpo #rto

Habr @[email protected] · 2026-05-14 · 11:42 UTC

Как построить и проверить катастрофоустойчивость в облаке: от плана до Game Day

Довольно много компаний при работе в облаке выстраивают катастрофоустойчивость, ориентируясь на условные «лучшие практики»: составляют планы, предусматривают резервные площадки, настраивают репликацию. Вместе с тем во время реальных инцидентов многие сталкиваются с тем, что все предусмотренное не работает или работает не так, как ожидалось: восстановление занимает часы вместо минут, данные теряются в критическом для бизнеса объеме, а команды оказываются не готовы к действиям в условиях стресса. Причина часто кроется в том, что меры обеспечения катастрофоустойчивости либо обеспечиваются формально («чтобы было»), либо проектируются без учета полного цикла рисков — от технических ограничений до организационной готовности. В статье разберем, как проектировать решения, которые переживают не отдельные сбои, а крупные аварии.

https://habr.com/ru/companies/vktech/articles/1034702/

#катастрофоустойчивость #облачные_технологии #disaster_recovery #high_availability #rto #rpo #cloud_native #отказоустойчивость #kubernetes #vk_tech

#vk_tech #kubernetes #отказоустойчивость #cloud_native #rpo #rto

Habr @[email protected] · 2026-05-14 · 11:42 UTC

Как построить и проверить катастрофоустойчивость в облаке: от плана до Game Day

Довольно много компаний при работе в облаке выстраивают катастрофоустойчивость, ориентируясь на условные «лучшие практики»: составляют планы, предусматривают резервные площадки, настраивают репликацию. Вместе с тем во время реальных инцидентов многие сталкиваются с тем, что все предусмотренное не работает или работает не так, как ожидалось: восстановление занимает часы вместо минут, данные теряются в критическом для бизнеса объеме, а команды оказываются не готовы к действиям в условиях стресса. Причина часто кроется в том, что меры обеспечения катастрофоустойчивости либо обеспечиваются формально («чтобы было»), либо проектируются без учета полного цикла рисков — от технических ограничений до организационной готовности. В статье разберем, как проектировать решения, которые переживают не отдельные сбои, а крупные аварии.

https://habr.com/ru/companies/vktech/articles/1034702/

#катастрофоустойчивость #облачные_технологии #disaster_recovery #high_availability #rto #rpo #cloud_native #отказоустойчивость #kubernetes #vk_tech

#катастрофоустойчивость #облачные_технологии #disaster_recovery #high_availability #rto #rpo

Habr @[email protected] · 2026-02-20 · 14:52 UTC

План аварийного восстановления (Disaster Recovery Plan, DRP) DWH — зачем он нужен и как работает

В статье рассказываем, зачем при сбоях в DWH нужен полноценный план аварийного восстановления, чем он отличается от резервного копирования данных и как выглядит на практике - на примере проекта для крупного ритейлера.

https://habr.com/ru/articles/1001966/

#dwh #drp #disaster_recovery_planning #disaster_recovery #план_аварийного_восстановления #аварийное_восстановление #data_warehouse

#data_warehouse #аварийное_восстановление #план_аварийного_восстановления #disaster_recovery #disaster_recovery_planning #drp

Habr @[email protected] · 2026-02-12 · 10:02 UTC

Акура-тное приземление. 5 ошибок бэкапа, которые могут стоить вам инфраструктуры

Представьте: вы прыгаете с парашютом, дергаете кольцо, а из ранца вместо купола вылетает записка: «404: Not Found». В ИТ-инфраструктуре бэкап — именно такой парашют. И проблема в том, что 90% инженеров уверены: раз ранец за спиной висит, значит, гравитация им не страшна. Мало кто проверяет его «укладку» (валидацию) и тренирует само приземление (DR). Чаще всего процесс строится либо на слепой вере в собственную память, либо на тотальном доверии древним скриптам, которые DevOps-археолог написал еще пять лет назад. В момент свободного падения времени на исправление конфигов этих скриптов уже не будет. Поэтому под катом — краткая инструкция по «укладке парашюта»: быстро и без воды про классические ошибки и как их обойти. Дернуть кольцо

https://habr.com/ru/companies/hstx/articles/995750/

#бэкап #резервное_копирование #Disaster_Recovery #системное_администрирование #информационная_безопасность #RPO #автоматизация #RTO #отказоустойчивость #репликация_данных

#репликация_данных #отказоустойчивость #rto #автоматизация #rpo #информационная_безопасность

Habr @[email protected] · 2026-02-12 · 10:02 UTC

Акура-тное приземление. 5 ошибок бэкапа, которые могут стоить вам инфраструктуры

Представьте: вы прыгаете с парашютом, дергаете кольцо, а из ранца вместо купола вылетает записка: «404: Not Found». В ИТ-инфраструктуре бэкап — именно такой парашют. И проблема в том, что 90% инженеров уверены: раз ранец за спиной висит, значит, гравитация им не страшна. Мало кто проверяет его «укладку» (валидацию) и тренирует само приземление (DR). Чаще всего процесс строится либо на слепой вере в собственную память, либо на тотальном доверии древним скриптам, которые DevOps-археолог написал еще пять лет назад. В момент свободного падения времени на исправление конфигов этих скриптов уже не будет. Поэтому под катом — краткая инструкция по «укладке парашюта»: быстро и без воды про классические ошибки и как их обойти. Дернуть кольцо

https://habr.com/ru/companies/hstx/articles/995750/

#бэкап #резервное_копирование #Disaster_Recovery #системное_администрирование #информационная_безопасность #RPO #автоматизация #RTO #отказоустойчивость #репликация_данных

#репликация_данных #отказоустойчивость #rto #автоматизация #rpo #информационная_безопасность

Habr @[email protected] · 2026-02-12 · 10:02 UTC

Акура-тное приземление. 5 ошибок бэкапа, которые могут стоить вам инфраструктуры

Представьте: вы прыгаете с парашютом, дергаете кольцо, а из ранца вместо купола вылетает записка: «404: Not Found». В ИТ-инфраструктуре бэкап — именно такой парашют. И проблема в том, что 90% инженеров уверены: раз ранец за спиной висит, значит, гравитация им не страшна. Мало кто проверяет его «укладку» (валидацию) и тренирует само приземление (DR). Чаще всего процесс строится либо на слепой вере в собственную память, либо на тотальном доверии древним скриптам, которые DevOps-археолог написал еще пять лет назад. В момент свободного падения времени на исправление конфигов этих скриптов уже не будет. Поэтому под катом — краткая инструкция по «укладке парашюта»: быстро и без воды про классические ошибки и как их обойти. Дернуть кольцо

https://habr.com/ru/companies/hstx/articles/995750/

#бэкап #резервное_копирование #Disaster_Recovery #системное_администрирование #информационная_безопасность #RPO #автоматизация #RTO #отказоустойчивость #репликация_данных

#репликация_данных #отказоустойчивость #rto #автоматизация #rpo #информационная_безопасность

Habr @[email protected] · 2026-02-12 · 10:02 UTC

Акура-тное приземление. 5 ошибок бэкапа, которые могут стоить вам инфраструктуры

Представьте: вы прыгаете с парашютом, дергаете кольцо, а из ранца вместо купола вылетает записка: «404: Not Found». В ИТ-инфраструктуре бэкап — именно такой парашют. И проблема в том, что 90% инженеров уверены: раз ранец за спиной висит, значит, гравитация им не страшна. Мало кто проверяет его «укладку» (валидацию) и тренирует само приземление (DR). Чаще всего процесс строится либо на слепой вере в собственную память, либо на тотальном доверии древним скриптам, которые DevOps-археолог написал еще пять лет назад. В момент свободного падения времени на исправление конфигов этих скриптов уже не будет. Поэтому под катом — краткая инструкция по «укладке парашюта»: быстро и без воды про классические ошибки и как их обойти. Дернуть кольцо

https://habr.com/ru/companies/hstx/articles/995750/

#бэкап #резервное_копирование #Disaster_Recovery #системное_администрирование #информационная_безопасность #RPO #автоматизация #RTO #отказоустойчивость #репликация_данных

#бэкап #резервное_копирование #disaster_recovery #системное_администрирование #информационная_безопасность #rpo

Habr @[email protected] · 2025-12-18 · 16:42 UTC

Не ждать у моря API. Предсказуемая миграция без интеграций под каждую платформу

Привет Хабр! Я Виктор, в Хайстекс руковожу отделом разработки. Сегодня расскажу про фичу, которая снимает ложную дилемму «API или универсальность», потому что теперь оба сценария можно применять параллельно. При переносе виртуальных машин между облаками и частными контурами API-интеграция обычно даёт максимум автоматизации. Но как только целевых площадок становится больше одной-двух или появляется «собранная на коленке» платформа, выясняется, что у этой автоматизации есть цена. Миграция через API превращается в отдельный проект на недели разработки и тестирования. Этот пост — для инженеров и архитекторов, которые занимаются миграциями ВМ и упираются в стоимость и сроки поддержки API-интеграций под каждую новую целевую площадку. Под катом — как сделать целевую сторону миграции воспроизводимой без зависимости от API конкретного облака и без ожидания поддержки со стороны платформы. API vs D2T

https://habr.com/ru/companies/hstx/articles/978250/

#проектирование_api #миграция_в_облако #виртуализация #iaas #vm #api #devops #облачная_инфраструктура #migration #disaster_recovery

#disaster_recovery #migration #облачная_инфраструктура #devops #api #vm

Habr @[email protected] · 2025-12-16 · 09:52 UTC

Как выглядит идеальный шторм в облаках, или насколько надежны современные облачные сервисы

Привет, Хабр! Меня зовут Роман Путилов. Последние восемь лет я занимаюсь облачной инфраструктурой. SRE-процессы, SLA «пять девяток», регулярные инциденты и постмортемы – часть моей работы, а не только новостная повестка. За последние годы несколько крупных инцидентов в облаках показали, что одна ошибка может вырубить сразу несколько глобальных сервисов. На кейсах VK, ЕГРН, Яндекса, AWS, Google Cloud и CrowdStrike я разбираю, ведет ли консолидация инфраструктуры к цифровой катастрофе – идеальному шторму, где простая ошибка и несколько неудачных совпадений окажут такой разрушительный эффект, от которого уже нельзя будет оправиться. Будет полезно SRE, архитекторам, IT- и ИБ-руководителям.

https://habr.com/ru/companies/cloud_ru/articles/976912/

#cloud_computing #disaster_recovery #incident #цод #авария #облако #windows

#windows #облако #авария #цод #incident #disaster_recovery

Habr @[email protected] · 2025-11-25 · 11:12 UTC

Мы так привыкли к Disaster Recovery у VMware, что разработали свою

Пожар в ЦОДе, авария на подстанции, разорванный во время ремонта кабель между площадками — таких инцидентов за последние годы хватает. Например, в конце этого сентября пожар в государственном дата-центре Южной Кореи парализовал сотни госсервисов и уничтожил свыше 800 терабайтов данных без резервных копий. Единственная реальная защита от таких сценариев — геораспределенные инсталляции с Disaster Recovery (DR). Система автоматически перекидывает нагрузку на резервную, если основная упала. Большинство российских ИТ-инфраструктур виртуализированы, сервисы работают в виртуальных машинах, и заказчикам нужны DR-сценарии именно для виртуализации. Поэтому мы в Orion soft разработали модуль DR для собственной платформы виртуализации zVirt. Он обеспечивает программную репликацию на уровне гипервизора (без агентов внутри гостевых ОС) и аппаратную на уровне СХД. Я Александр Гавриленко, директор технического пресейла zVirt. В этой статье расскажу, как мы воспроизвели привычную функциональность VMware и что адаптировали в решении под специфику российского рынка.

https://habr.com/ru/companies/orion_soft/articles/968802/

#disaster_recovery #zvirt #vmware

Habr @[email protected] · 2025-06-30 · 10:42 UTC

Подход к оценке “живой” инфраструктуры и построению disaster recovery

Большинство проектов не имеют нормального плана восстановления после падений. Если план и присутствует, скорее всего, в нем покрыты не все кейсы, и часть из них, возможно, устарела. При этом задач на подготовку восстановительных процедур никто не ставит. Зато сразу после падений начинаются вопросы к технарям: почему вы не заботитесь о сервисах как следует? На самом деле создать disaster recovery план — т.е. набор документов и инструкций, в которых указано, как именно восстанавливать сервис — не так сложно. Как это сделать, читайте в статье.

https://habr.com/ru/articles/911240/

#аудит_файловых_серверов #метрики #восстановление_файлов #карта_связей #микросервисы #slo #мониторинг_сервера #disaster_recovery #disaster_recovery_planning

#аудит_файловых_серверов #метрики #восстановление_файлов #карта_связей #микросервисы #slo

Habr @[email protected] · 2024-11-24 · 16:02 UTC

«Это катастрофа, шеф!» — как облако помогает организовать Disaster Recovery

Привет, Хабр! Рассказываем, на что обратить внимание при планировании аварийного восстановления: что может сделать сама компания, а где поможет облачный провайдер. А также обсуждаем, какие установки мешают компаниям грамотно организовать

https://habr.com/ru/companies/mws/articles/860910/

#disaster_recovery #катастрофоустойчивость #mws

#mws #катастрофоустойчивость #disaster_recovery

Habr @[email protected] · 2024-06-14 · 14:12 UTC

Концентрат хардкор-инфры в стаканах для нетворкинга: чем запомнился infra.conf 2024

4 июня состоялась infra.conf 2024 — конференция про создание инфраструктуры и эксплуатацию высоконагруженных систем от команды Yandex Infrastructure. На мероприятии мы попросили поделиться своими инфраструктурными историями инженеров не только Яндекса, но и Ozon.Tech, T1, MTS Web Services, Т‑Банка, SberDevices, Альфа‑банка, «Лаборатории Касперского», Selectel, Postgres Pro, СберМаркета и Авито. В результате, по отзывам участников, «хардкор‑концентрат железа и DevOps зашкаливал и летал прямо в воздухе». В этой статье мы собрали самые интересные моменты по тем докладам, которые вызвали наибольшую реакцию и восторг от полезности в кулуарах и чатах, — чтобы вам было проще сориентироваться, что стоит пересмотреть.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/821859/

#ydb #bare_metal #disaster_recovery #сетевая_инфраструктура #dnsданные #s3 #объектное_хранилище #автотестирование #development_tools #inmemory_database

#inmemory_database #development_tools #автотестирование #объектное_хранилище #s3 #dnsданные

Habr @[email protected] · 2024-03-25 · 11:32 UTC

Disaster Recovery Plan: Как правильно заваривать чай, когда горит серверная

Компания у на full-remote, поэтому заседание кружка параноиков мы проводим как-то так. Иногда под банджо в углу. В жизни любого проекта наступает катастрофа. Мы не можем заранее знать, что именно это будет - короткое замыкание в серверной, инженер, дропнувший центральную БД или нашествие бобров. Тем не менее, оно обязательно случится, причем по предельно идиотской причине. Насчет бобров, я, кстати, не шутил. В Канаде они перегрызли кабель и оставили целый район Tumbler Ridge без оптоволоконной связи. Причем, животные, как мне кажется, делают все для того, чтобы внезапно лишить вас доступа к вашим ресурсам: Макаки жуют провода . Цикады принимают кабели за ветки, и расковыривают их, чтобы отложить внутрь яйца. Акулы жуют трансатлантические кабели Google . А в топе источника проблем для крупной телекоммуникационной компании Level 3 Communications вообще были белки . Короче, рано или поздно, кто-то обязательно что-то сломает, уронит, или зальет неверный конфиг в самый неподходящий момент. И вот тут появляется то, что отличает компании, которые успешно переживают фатальную аварию от тех, кто бегает кругами и пытается восстановить рассыпавшуюся инфраструктуру - DRP. Вот о том, как правильно написать Disaster Recovery Plan я сегодня вам и расскажу.

https://habr.com/ru/companies/wiseops/articles/802701/

#Блог_компании_WiseOPS #информационная_безопасность #анализ_и_проектирование_систем #itинфраструктура #devops #drp #disaster_recovery

#disaster_recovery #drp #devops #itинфраструктура #анализ_и_проектирование_систем #информационная_безопасность

Habr @[email protected] · 2024-02-27 · 07:22 UTC

DR, SDN, V2V: обзор свежего релиза платформы виртуализации zVirt 4.1

Хабр, привет! На связи Алексей Зотов из К2Тех, и сегодня я хочу поговорить об одном из российских решений для виртуализации. Сегмент этот в каком-то смысле уникален. Если в целом по рынку заказчик выбирает между 5–6 отечественными продуктами для решения задачи импортозамещения (например, это ярко видно на примере СРК или служб каталога). То в сегменте виртуализации мы насчитали уже более трех десятков конкурирующих платформ! В предыдущих статьях про тестирование серверов Inferit и Аквариус , а также про создание суперкомпьютера я упоминал платформу zVirt. Мы с этим продуктом работаем уже довольно давно, неплохо его изучили и можем оценить его развитие. Тем более, вендор Orion soft позиционирует zVirt как конкурентную альтернативу VMware. Пора проверить это заявление. Я решил испытать этот продукт и протестировать новые фичи, которые появились в zVirt 4.1: Disaster Recovery (DR), V2V-миграция из VMware, управление сетями SDN. Результаты, впечатления от платформы и кейсы наших клиентов – под катом.

https://habr.com/ru/companies/k2tech/articles/796415/

#zvirt #алексей_зотов_к2тех #итинфраструктура_к2тех #серверная_виртуализация #импортозамещение_vmware #альтернатива_vmware #v2v #sdn #disaster_recovery

#disaster_recovery #sdn #v2v #альтернатива_vmware #импортозамещение_vmware #серверная_виртуализация

Habr @[email protected] · 2024-02-27 · 07:22 UTC

DR, SDN, V2V: обзор свежего релиза платформы виртуализации zVirt 4.1

Хабр, привет! На связи Алексей Зотов из К2Тех, и сегодня я хочу поговорить об одном из российских решений для виртуализации. Сегмент этот в каком-то смысле уникален. Если в целом по рынку заказчик выбирает между 5–6 отечественными продуктами для решения задачи импортозамещения (например, это ярко видно на примере СРК или служб каталога). То в сегменте виртуализации мы насчитали уже более трех десятков конкурирующих платформ! В предыдущих статьях про тестирование серверов Inferit и Аквариус , а также про создание суперкомпьютера я упоминал платформу zVirt. Мы с этим продуктом работаем уже довольно давно, неплохо его изучили и можем оценить его развитие. Тем более, вендор Orion soft позиционирует zVirt как конкурентную альтернативу VMware. Пора проверить это заявление. Я решил испытать этот продукт и протестировать новые фичи, которые появились в zVirt 4.1: Disaster Recovery (DR), V2V-миграция из VMware, управление сетями SDN. Результаты, впечатления от платформы и кейсы наших клиентов – под катом.

https://habr.com/ru/companies/k2tech/articles/796415/

#zvirt #алексей_зотов_к2тех #итинфраструктура_к2тех #серверная_виртуализация #импортозамещение_vmware #альтернатива_vmware #v2v #sdn #disaster_recovery

#disaster_recovery #sdn #v2v #альтернатива_vmware #импортозамещение_vmware #серверная_виртуализация