home.social

#отказоустойчивость_сетей — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #отказоустойчивость_сетей, aggregated by home.social.

  1. Ночь с пятницы на понедельник: борьба за устойчивость, когда облако дало сбой

    …Был обычный ноябрьский вечер, 2024 год шёл к своему завершению: на носу была «чёрная пятница». Я вернулся домой в Новосибирск из почти двухнедельной командировки, пробыв в пути 12 часов и поспав часа четыре. В 19:07 алерт сообщил мне о падении одного из контроллеров. В целом, проблема не критичная, так как сервисы зарезервированы. Но всё же одним глазом я заглянул в чат с разбором. Через час ситуация стремительно ухудшилась: каскадом начали отказывать узлы, отвечающие за внешнюю связность. А затем развитие событий приняло фатальный оборот — в какой‑то момент одновременно отказали сервисы внешней связности сразу в двух зонах доступности… Это был один из самых крупных региональных инцидентов в облаке, после которого мы многое изменили в сети, чтобы сделать её устойчивее . С того момента прошло больше года, так что пришла пора рассказать эту историю от начала и до конца. В прошлой статье я уже показал наши основные подходы к повышению отказоустойчивости в этой ситуации. Однако за кадром остался сам процесс разработки новых решений и то, как мы мыслили, чтобы найти наилучший выход. Сегодня расскажу об этом подробнее. Статья основана на моём недавнем выступлении на Highload++ и дополнена по следам дальнейших расследований инцидентов.

    habr.com/ru/companies/yandex/a

    #надежность #sla #отказоустойчивость #инцидентменеджмент #инциденты #отказоустойчивые_системы #отказоустойчивость_сетей

  2. 40 000 тегов и ни одного пароля: как мы спасли завод от остановки

    Представьте, что нужно заменить двигатель самолета прямо в полете. Примерно в такой ситуации мы оказались, когда взялись за локализацию производственных систем одного российского завода. Черный ящик вместо системы управления, запароленный доступ, отсутствие документации и невозможность останавливать производство — весь джентльменский набор подводных камней после 2022 года. Я Иван Балашов, в интеграторе К2Тех руковожу направлением цифрового производства и внедряю цифровые решения в промышленности. В этом кейсе расскажу, как мы собирали пазл из обрывков информации о настройках систем, внедряли российскую SCADA взамен западной, мигрировали функционал MES, и все это без остановки производства. Если вы когда-нибудь окажетесь перед задачей импортозамещения критически важных производственных систем, эта история может дать представление о типичных подводных камнях и способах их обхода.

    habr.com/ru/companies/k2tech/a

    #Управление_производством #MES #scada #импортозамещение #отказоустойчивость_сетей #автоматизация_производства #цифровизация_производства

  3. Чем заменить F5 и А10? Обзор рынка балансировщиков нагрузки и наши рекомендации по выбору решения

    Без балансировщиков нагрузки не может стабильно работать ни одно высоконагруженное приложение. Поэтому уход с рынка западных вендоров, решениями которых все спокойно пользовались, озадачил огромное число заказчиков. Нас, как интегратора, признаться, тоже. Чтобы понимать, что дальше предлагать компаниям, мы постоянно следим за рынком и составляем свои шорт-листы производителей, которые сопоставимы по уровню своей продукции с ушедшими вендорами и активно развивают свои продукты. У нас есть испытательная лаборатория, где мы тестируем оборудование и ПО в сценариях наших клиентов. И, конечно, многие решения мы уже внедряем в проектах. В этой статье я расскажу, какие продукты сейчас вообще есть на рынке, приведу сравнение ключевых вендоров и поделюсь нашим мнением о том, как выбрать оптимальное решения под свои задачи.

    habr.com/ru/companies/k2tech/a

    #балансировщик_нагрузки #отказоустойчивость_сетей #импортозамещение #тестирование #сетевой_трафик #f5

  4. Экстремально отказоустойчивые сети для офиса на базе фабрики BGP EVPN VXLAN: решение, которым гордился бы Скайнет

    К миллиону продолжений «Терминатора» есть много вопросиков. Мой личный топ кринж — в «Терминатор. Генезис», когда Скайнет теряет ядро сети (там реально звучит слово «ядро») и все боты вырубаются . Между тем, отказоустойчивые сетевые конфигурации начали строить ещё мы, кожаные мешки, в первой половине 21 века. В кампусных сетях отказоустойчивость ядра мы чаще всего реализуем за счёт объединения коммутаторов ядра в стек. Это защищает ядро от сбоев и выхода из строя оборудования. В ЦОДах же отказоустойчивость сети реализуется на основе MLAG либо же за счёт развертывания сети в виде фабрики BGP EVPN VXLAN — набора из коммутаторов уровня spine и leaf. Такие конфигурации защищены не только от сбоев оборудования, но и от ошибок в коде и конфигурациях ПО. Я уверен, что инфраструктура сети Скайнет реализована как минимум в одной из этих конфигураций, причём с геораспределением. Так что показанное в кино — бред (впрочем, как и многое другое). А вот для обычных кампусных сетей такая архитектура — оверкил, её используют очень редко и в специфических обстоятельствах. Сегодня именно о таких кейсах из своей практики я расскажу в этой статье: как архитектура BGP EVPN VXLAN защищает от ошибок на уровне ПО и позволяет реализовать геораспределённую катастрофоустойчивость, какие с ней связаны подводные камни и в каких случаях компании считают такое решение целесообразным.

    habr.com/ru/companies/k2tech/a

    #сетевая_фабрика #отказоустойчивость_сетей #кампусные_сети #mlag #vxlan #сетевая_архитектура

  5. Экстремально отказоустойчивые сети для офиса на базе фабрики BGP EVPN VXLAN: решение, которым гордился бы Скайнет

    К миллиону продолжений «Терминатора» есть много вопросиков. Мой личный топ кринж — в «Терминатор. Генезис», когда Скайнет теряет ядро сети (там реально звучит слово «ядро») и все боты вырубаются . Между тем, отказоустойчивые сетевые конфигурации начали строить ещё мы, кожаные мешки, в первой половине 21 века. В кампусных сетях отказоустойчивость ядра мы чаще всего реализуем за счёт объединения коммутаторов ядра в стек. Это защищает ядро от сбоев и выхода из строя оборудования. В ЦОДах же отказоустойчивость сети реализуется на основе MLAG либо же за счёт развертывания сети в виде фабрики BGP EVPN VXLAN — набора из коммутаторов уровня spine и leaf. Такие конфигурации защищены не только от сбоев оборудования, но и от ошибок в коде и конфигурациях ПО. Я уверен, что инфраструктура сети Скайнет реализована как минимум в одной из этих конфигураций, причём с геораспределением. Так что показанное в кино — бред (впрочем, как и многое другое). А вот для обычных кампусных сетей такая архитектура — оверкил, её используют очень редко и в специфических обстоятельствах. Сегодня именно о таких кейсах из своей практики я расскажу в этой статье: как архитектура BGP EVPN VXLAN защищает от ошибок на уровне ПО и позволяет реализовать геораспределённую катастрофоустойчивость, какие с ней связаны подводные камни и в каких случаях компании считают такое решение целесообразным.

    habr.com/ru/companies/k2tech/a

    #сетевая_фабрика #отказоустойчивость_сетей #кампусные_сети #mlag #vxlan #сетевая_архитектура

  6. Экстремально отказоустойчивые сети для офиса на базе фабрики BGP EVPN VXLAN: решение, которым гордился бы Скайнет

    К миллиону продолжений «Терминатора» есть много вопросиков. Мой личный топ кринж — в «Терминатор. Генезис», когда Скайнет теряет ядро сети (там реально звучит слово «ядро») и все боты вырубаются . Между тем, отказоустойчивые сетевые конфигурации начали строить ещё мы, кожаные мешки, в первой половине 21 века. В кампусных сетях отказоустойчивость ядра мы чаще всего реализуем за счёт объединения коммутаторов ядра в стек. Это защищает ядро от сбоев и выхода из строя оборудования. В ЦОДах же отказоустойчивость сети реализуется на основе MLAG либо же за счёт развертывания сети в виде фабрики BGP EVPN VXLAN — набора из коммутаторов уровня spine и leaf. Такие конфигурации защищены не только от сбоев оборудования, но и от ошибок в коде и конфигурациях ПО. Я уверен, что инфраструктура сети Скайнет реализована как минимум в одной из этих конфигураций, причём с геораспределением. Так что показанное в кино — бред (впрочем, как и многое другое). А вот для обычных кампусных сетей такая архитектура — оверкил, её используют очень редко и в специфических обстоятельствах. Сегодня именно о таких кейсах из своей практики я расскажу в этой статье: как архитектура BGP EVPN VXLAN защищает от ошибок на уровне ПО и позволяет реализовать геораспределённую катастрофоустойчивость, какие с ней связаны подводные камни и в каких случаях компании считают такое решение целесообразным.

    habr.com/ru/companies/k2tech/a

    #сетевая_фабрика #отказоустойчивость_сетей #кампусные_сети #mlag #vxlan #сетевая_архитектура

  7. Экстремально отказоустойчивые сети для офиса на базе фабрики BGP EVPN VXLAN: решение, которым гордился бы Скайнет

    К миллиону продолжений «Терминатора» есть много вопросиков. Мой личный топ кринж — в «Терминатор. Генезис», когда Скайнет теряет ядро сети (там реально звучит слово «ядро») и все боты вырубаются . Между тем, отказоустойчивые сетевые конфигурации начали строить ещё мы, кожаные мешки, в первой половине 21 века. В кампусных сетях отказоустойчивость ядра мы чаще всего реализуем за счёт объединения коммутаторов ядра в стек. Это защищает ядро от сбоев и выхода из строя оборудования. В ЦОДах же отказоустойчивость сети реализуется на основе MLAG либо же за счёт развертывания сети в виде фабрики BGP EVPN VXLAN — набора из коммутаторов уровня spine и leaf. Такие конфигурации защищены не только от сбоев оборудования, но и от ошибок в коде и конфигурациях ПО. Я уверен, что инфраструктура сети Скайнет реализована как минимум в одной из этих конфигураций, причём с геораспределением. Так что показанное в кино — бред (впрочем, как и многое другое). А вот для обычных кампусных сетей такая архитектура — оверкил, её используют очень редко и в специфических обстоятельствах. Сегодня именно о таких кейсах из своей практики я расскажу в этой статье: как архитектура BGP EVPN VXLAN защищает от ошибок на уровне ПО и позволяет реализовать геораспределённую катастрофоустойчивость, какие с ней связаны подводные камни и в каких случаях компании считают такое решение целесообразным.

    habr.com/ru/companies/k2tech/a

    #сетевая_фабрика #отказоустойчивость_сетей #кампусные_сети #mlag #vxlan #сетевая_архитектура