home.social

#катастрофоустойчивость — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #катастрофоустойчивость, aggregated by home.social.

  1. Как построить и проверить катастрофоустойчивость в облаке: от плана до Game Day

    Довольно много компаний при работе в облаке выстраивают катастрофоустойчивость, ориентируясь на условные «лучшие практики»: составляют планы, предусматривают резервные площадки, настраивают репликацию. Вместе с тем во время реальных инцидентов многие сталкиваются с тем, что все предусмотренное не работает или работает не так, как ожидалось: восстановление занимает часы вместо минут, данные теряются в критическом для бизнеса объеме, а команды оказываются не готовы к действиям в условиях стресса. Причина часто кроется в том, что меры обеспечения катастрофоустойчивости либо обеспечиваются формально («чтобы было»), либо проектируются без учета полного цикла рисков — от технических ограничений до организационной готовности. В статье разберем, как проектировать решения, которые переживают не отдельные сбои, а крупные аварии.

    habr.com/ru/companies/vktech/a

    #катастрофоустойчивость #облачные_технологии #disaster_recovery #high_availability #rto #rpo #cloud_native #отказоустойчивость #kubernetes #vk_tech

  2. Как построить и проверить катастрофоустойчивость в облаке: от плана до Game Day

    Довольно много компаний при работе в облаке выстраивают катастрофоустойчивость, ориентируясь на условные «лучшие практики»: составляют планы, предусматривают резервные площадки, настраивают репликацию. Вместе с тем во время реальных инцидентов многие сталкиваются с тем, что все предусмотренное не работает или работает не так, как ожидалось: восстановление занимает часы вместо минут, данные теряются в критическом для бизнеса объеме, а команды оказываются не готовы к действиям в условиях стресса. Причина часто кроется в том, что меры обеспечения катастрофоустойчивости либо обеспечиваются формально («чтобы было»), либо проектируются без учета полного цикла рисков — от технических ограничений до организационной готовности. В статье разберем, как проектировать решения, которые переживают не отдельные сбои, а крупные аварии.

    habr.com/ru/companies/vktech/a

    #катастрофоустойчивость #облачные_технологии #disaster_recovery #high_availability #rto #rpo #cloud_native #отказоустойчивость #kubernetes #vk_tech

  3. Как построить и проверить катастрофоустойчивость в облаке: от плана до Game Day

    Довольно много компаний при работе в облаке выстраивают катастрофоустойчивость, ориентируясь на условные «лучшие практики»: составляют планы, предусматривают резервные площадки, настраивают репликацию. Вместе с тем во время реальных инцидентов многие сталкиваются с тем, что все предусмотренное не работает или работает не так, как ожидалось: восстановление занимает часы вместо минут, данные теряются в критическом для бизнеса объеме, а команды оказываются не готовы к действиям в условиях стресса. Причина часто кроется в том, что меры обеспечения катастрофоустойчивости либо обеспечиваются формально («чтобы было»), либо проектируются без учета полного цикла рисков — от технических ограничений до организационной готовности. В статье разберем, как проектировать решения, которые переживают не отдельные сбои, а крупные аварии.

    habr.com/ru/companies/vktech/a

    #катастрофоустойчивость #облачные_технологии #disaster_recovery #high_availability #rto #rpo #cloud_native #отказоустойчивость #kubernetes #vk_tech

  4. Как построить и проверить катастрофоустойчивость в облаке: от плана до Game Day

    Довольно много компаний при работе в облаке выстраивают катастрофоустойчивость, ориентируясь на условные «лучшие практики»: составляют планы, предусматривают резервные площадки, настраивают репликацию. Вместе с тем во время реальных инцидентов многие сталкиваются с тем, что все предусмотренное не работает или работает не так, как ожидалось: восстановление занимает часы вместо минут, данные теряются в критическом для бизнеса объеме, а команды оказываются не готовы к действиям в условиях стресса. Причина часто кроется в том, что меры обеспечения катастрофоустойчивости либо обеспечиваются формально («чтобы было»), либо проектируются без учета полного цикла рисков — от технических ограничений до организационной готовности. В статье разберем, как проектировать решения, которые переживают не отдельные сбои, а крупные аварии.

    habr.com/ru/companies/vktech/a

    #катастрофоустойчивость #облачные_технологии #disaster_recovery #high_availability #rto #rpo #cloud_native #отказоустойчивость #kubernetes #vk_tech

  5. Сценарии «Судного дня»: чему реальные катастрофы научили архитекторов резервного копирования

    В ИТ любят слово «отказоустойчивость». Оно звучит инженерно и успокаивающе. Кластеры, зеркала, репликации — всё это создаёт ощущение контролируемости. Но последние десять лет показали неприятную вещь: большинство катастроф происходят не потому, что что-то сломалось, а потому что инфраструктуру целенаправленно уничтожили. Бла-бла-бла.

    habr.com/ru/articles/1021280/

    #изоляция_резервных_копий #неизменяемые_копии #офлайнкопии_данных #воздушный_зазор #катастрофоустойчивость #архитектурные_подходы #стратегия_восстановления #архитектура_системы

  6. Как обеспечить отказоустойчивость почтового сервера Exim под нагрузкой 1 000 000 писем/мин. с помощью FUSE и Tarantool

    Привет, Хабр! Меня зовут Максим Уймин, в этой статье я расскажу про почту, про распределенные очереди, немножко про FUSE и файловые системы.

    habr.com/ru/companies/vk/artic

    #отказоустойчивость #highload #fuse #tarantool #k8s #mail #exim #си #lua #катастрофоустойчивость

  7. Уронили, отключили, обрубили, сломали: четыре сценария отказа метрокластера в прямом эфире

    Привет, Хабр! Когда речь заходит об отказоустойчивости между ЦОДами, метрокластер — почти всегда первое, что приходит в голову. Раньше это был стандарт: один ЦОД падает — второй подхватывает. Все работает, данные не теряются. Вместе с уходом западных вендоров их решения ушли вместе с ними либо появились огромные трудности с их конфигурированием и поддержкой. С 2024 года у нас на тестовом стенде стоят системы хранения AQ440 от «Аэродиск» . Мы их активно «мучаем»: имитируем отказы, нагружаем, меряем задержки, устраиваем испытания на выживание. Наш выбор связан с тем, что это единственное решение (на данный момент), у которого есть поддержка метрокластера. И основной фокус сегодняшнего рассказа — описать сценарии работы этой технологии. Не имитацию, не полумеру, а рабочую схему с реальным переключением между площадками, отказами и всем, что из этого следует.

    habr.com/ru/companies/jetinfos

    #метрокластер #схд #катастрофоустойчивость #цод_и_хранение_данных #тестовые_стенды #отказоустойчивость #отказоустойчивый_кластер #аэродиск

  8. Уронили, отключили, обрубили, сломали: четыре сценария отказа метрокластера в прямом эфире

    Привет, Хабр! Когда речь заходит об отказоустойчивости между ЦОДами, метрокластер — почти всегда первое, что приходит в голову. Раньше это был стандарт: один ЦОД падает — второй подхватывает. Все работает, данные не теряются. Вместе с уходом западных вендоров их решения ушли вместе с ними либо появились огромные трудности с их конфигурированием и поддержкой. С 2024 года у нас на тестовом стенде стоят системы хранения AQ440 от «Аэродиск» . Мы их активно «мучаем»: имитируем отказы, нагружаем, меряем задержки, устраиваем испытания на выживание. Наш выбор связан с тем, что это единственное решение (на данный момент), у которого есть поддержка метрокластера. И основной фокус сегодняшнего рассказа — описать сценарии работы этой технологии. Не имитацию, не полумеру, а рабочую схему с реальным переключением между площадками, отказами и всем, что из этого следует.

    habr.com/ru/companies/jetinfos

    #метрокластер #схд #катастрофоустойчивость #цод_и_хранение_данных #тестовые_стенды #отказоустойчивость #отказоустойчивый_кластер #аэродиск

  9. Уронили, отключили, обрубили, сломали: четыре сценария отказа метрокластера в прямом эфире

    Привет, Хабр! Когда речь заходит об отказоустойчивости между ЦОДами, метрокластер — почти всегда первое, что приходит в голову. Раньше это был стандарт: один ЦОД падает — второй подхватывает. Все работает, данные не теряются. Вместе с уходом западных вендоров их решения ушли вместе с ними либо появились огромные трудности с их конфигурированием и поддержкой. С 2024 года у нас на тестовом стенде стоят системы хранения AQ440 от «Аэродиск» . Мы их активно «мучаем»: имитируем отказы, нагружаем, меряем задержки, устраиваем испытания на выживание. Наш выбор связан с тем, что это единственное решение (на данный момент), у которого есть поддержка метрокластера. И основной фокус сегодняшнего рассказа — описать сценарии работы этой технологии. Не имитацию, не полумеру, а рабочую схему с реальным переключением между площадками, отказами и всем, что из этого следует.

    habr.com/ru/companies/jetinfos

    #метрокластер #схд #катастрофоустойчивость #цод_и_хранение_данных #тестовые_стенды #отказоустойчивость #отказоустойчивый_кластер #аэродиск

  10. Уронили, отключили, обрубили, сломали: четыре сценария отказа метрокластера в прямом эфире

    Привет, Хабр! Когда речь заходит об отказоустойчивости между ЦОДами, метрокластер — почти всегда первое, что приходит в голову. Раньше это был стандарт: один ЦОД падает — второй подхватывает. Все работает, данные не теряются. Вместе с уходом западных вендоров их решения ушли вместе с ними либо появились огромные трудности с их конфигурированием и поддержкой. С 2024 года у нас на тестовом стенде стоят системы хранения AQ440 от «Аэродиск» . Мы их активно «мучаем»: имитируем отказы, нагружаем, меряем задержки, устраиваем испытания на выживание. Наш выбор связан с тем, что это единственное решение (на данный момент), у которого есть поддержка метрокластера. И основной фокус сегодняшнего рассказа — описать сценарии работы этой технологии. Не имитацию, не полумеру, а рабочую схему с реальным переключением между площадками, отказами и всем, что из этого следует.

    habr.com/ru/companies/jetinfos

    #метрокластер #схд #катастрофоустойчивость #цод_и_хранение_данных #тестовые_стенды #отказоустойчивость #отказоустойчивый_кластер #аэродиск

  11. Maipu MPS5580G2: разгадали секреты функционала от QoS до безопасности

    Привет, Хабр! Это вторая часть с результатами наших тестов китайского массива. В первом посте мы рассказали, как проходили нагрузочные испытания и проверка на отказоустойчивость. В этой части поделимся результатами функциональных тестов модели Maipu MPS5580G2. Разберем его ключевые возможности: репликацию, метрокластер, QoS, снепшоты, мониторинг и безопасность. Ведь именно для этого в тест мы взяли не один массив, а сразу два!

    habr.com/ru/companies/jetinfos

    #maipu #метрокластер #срк #резервное_копирование #катастрофоустойчивость #отказоустойчивость #дисковый_массив #тестирование #снэпшоты #qos

  12. Вы просили катастрофоустойчивость в почте? Мы сделали. Рассказываем про релиз Mailion 1.9

    От сбоев и аварий любого масштаба не застрахована ни одна крупная ИТ-система, однако их последствия можно сделать незначительными для работы компании. Именно поэтому, основной упор в новой версии корпоративной почты Mailion 1.9 мы сделали на катастрофоустойчивости – защите данных в любой непредвиденной ситуации. Другие новые функции в этом релизе упрощают миграцию из Exchange и дают возможность контролировать перенос и синхронизацию всей важной информации. Под катом детально разберём реализацию катастрофоустойчивости и остальные улучшения в релизе 1.9.

    habr.com/ru/companies/ncloudte

    #мойофис #mailion #почта #отечественное_по #обновление #почтовая_система #отечественный_софт #катастрофоустойчивость #миграция

  13. Мультирегиональность в Selectel S3: работаем с регионами SPB и MSK из Python

    Катастрофоустойчивое хранение данных — одна из актуальных задач при построении IT-инфраструктуры. Но ее решение может завести в тупик. Как оптимальнее организовать хранение данных, исключив домены отказа? Как разместить определенные данные ближе к целевой нагрузке или части аудитории? Как организовать асинхронную репликацию данных между Москвой и Санкт-Петербургом? Всем привет! Меня зовут Гришин Александр, я продакт-менеджер в Selectel и отвечаю за развитие

    habr.com/ru/companies/selectel

    #selectel #python #s3 #объектное_хранилище #катастрофоустойчивость #мультирегиональность

  14. «Это катастрофа, шеф!» — как облако помогает организовать Disaster Recovery

    Привет, Хабр! Рассказываем, на что обратить внимание при планировании аварийного восстановления: что может сделать сама компания, а где поможет облачный провайдер. А также обсуждаем, какие установки мешают компаниям грамотно организовать

    habr.com/ru/companies/mws/arti

    #disaster_recovery #катастрофоустойчивость #mws

  15. Управление IT-инфраструктурой: бюджетирование, риски, отказоустойчивость и катастрофоустойчивость

    Привет! Сегодня рассмотрим управление IT-инфраструктурой с точки зрения руководителя IT-отдела, для которого бюджетирование и расчёт времени простоя — неотъемлемая часть работы. Говорить будем о том, как выстраивать отказоустойчивую и катастрофоустойчивую IT-систему, чтобы избежать убытков при сбоях. Сразу заметим, что эти изыскания актуальны на определённом уровне развития компании. То есть ларьку с шаурмой они явно не нужны, а вот для сети шаурмичных из 200 объектов уже актуальны.

    habr.com/ru/companies/cloud4y/

    #мнение #инфраструктура #катастрофоустойчивость #отказоустойчивость

  16. От сирен до SIEM: разбираем архитектуру и защиту локальных систем оповещения

    9 марта 2023 года в российском теле- и радиоэфире прозвучало объявление о воздушной тревоге. Пугающий знак радиационной опасности, звук сирены на заднем фоне, напряженный синтетический голос, призывающий спрятаться в укрытии… Спустя несколько часов в МЧС отчитались о том, что тревога была ложной: трансляцию запустили хакеры, взломавшие сервера нескольких радиостанций и телеканалов. Ситуация, прямо скажем, не из приятных. Еще более неприятным может оказаться взлом ЛСО — локальных систем оповещения на предприятиях. В этом сценарии атаки есть все, что может сделать больно бизнесу: репутационные и финансовые потери, риск лишиться лицензии на дальнейшую деятельность, угроза жизни и здоровью людей. В статье расскажу функциях ЛСО и о том, как спроектировать защиту подобной системы на производстве.

    habr.com/ru/companies/bastion/

    #система_оповещения #критическая_инфраструктура #критически_важные_системы #катастрофоустойчивость #чрезвычайные_ситуации #локальная_система #гражданская_оборона #фстэк #сирены #проектирование_систем_безопасности