home.social

#высокие_нагрузки — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #высокие_нагрузки, aggregated by home.social.

  1. Запустить легко, эксплуатировать сложно: год жизни SOC «Газпром-Медиа Холдинга»

    В 2024 году мы рассказывали , как развернули масштабный центр мониторинга безопасности над «Газпром-Медиа». Тогда даже позволили себе тезис о том, что способны подключить любой актив к мониторингу за одни сутки. Это правда, но опытный инженер, прошедший через реалии корпоративной среды, скажет вам, что запустить систему в продакшен — это всего лишь начало. А вот эксплуатировать ее на живой, постоянно изменяющейся инфраструктуре, где каждый день меняются сетевые доступы и появляются новые сервисы, — долгосрочная задача повышенной сложности. Что происходит, когда центр мониторинга безопасности федерального холдинга превышает отметку в 100 000 событий в секунду? Когда стандартные решения начинают буксовать, а инфраструктура разрастается до 100 сервисов? В 2025 году наша команда столкнулась именно с такими вызовами. В этой статье расскажем, как мы решали архитектурные «головоломки» высоконагруженного SIEM, боролись с экзотическими форматами логов медийных систем, создавали кастомные коннекторы и как Purple Team-учения помогли обнаружить настоящих злодеев.

    habr.com/ru/companies/bastion/

    #soc #SIEM #информационная_безопасность #мониторинг #ClickHouse #KUMA #incident_response #высокие_нагрузки #корпоративная_безопасность #логирование

  2. Запустить легко, эксплуатировать сложно: год жизни SOC «Газпром-Медиа Холдинга»

    В 2024 году мы рассказывали , как развернули масштабный центр мониторинга безопасности над «Газпром-Медиа». Тогда даже позволили себе тезис о том, что способны подключить любой актив к мониторингу за одни сутки. Это правда, но опытный инженер, прошедший через реалии корпоративной среды, скажет вам, что запустить систему в продакшен — это всего лишь начало. А вот эксплуатировать ее на живой, постоянно изменяющейся инфраструктуре, где каждый день меняются сетевые доступы и появляются новые сервисы, — долгосрочная задача повышенной сложности. Что происходит, когда центр мониторинга безопасности федерального холдинга превышает отметку в 100 000 событий в секунду? Когда стандартные решения начинают буксовать, а инфраструктура разрастается до 100 сервисов? В 2025 году наша команда столкнулась именно с такими вызовами. В этой статье расскажем, как мы решали архитектурные «головоломки» высоконагруженного SIEM, боролись с экзотическими форматами логов медийных систем, создавали кастомные коннекторы и как Purple Team-учения помогли обнаружить настоящих злодеев.

    habr.com/ru/companies/bastion/

    #soc #SIEM #информационная_безопасность #мониторинг #ClickHouse #KUMA #incident_response #высокие_нагрузки #корпоративная_безопасность #логирование

  3. Запустить легко, эксплуатировать сложно: год жизни SOC «Газпром-Медиа Холдинга»

    В 2024 году мы рассказывали , как развернули масштабный центр мониторинга безопасности над «Газпром-Медиа». Тогда даже позволили себе тезис о том, что способны подключить любой актив к мониторингу за одни сутки. Это правда, но опытный инженер, прошедший через реалии корпоративной среды, скажет вам, что запустить систему в продакшен — это всего лишь начало. А вот эксплуатировать ее на живой, постоянно изменяющейся инфраструктуре, где каждый день меняются сетевые доступы и появляются новые сервисы, — долгосрочная задача повышенной сложности. Что происходит, когда центр мониторинга безопасности федерального холдинга превышает отметку в 100 000 событий в секунду? Когда стандартные решения начинают буксовать, а инфраструктура разрастается до 100 сервисов? В 2025 году наша команда столкнулась именно с такими вызовами. В этой статье расскажем, как мы решали архитектурные «головоломки» высоконагруженного SIEM, боролись с экзотическими форматами логов медийных систем, создавали кастомные коннекторы и как Purple Team-учения помогли обнаружить настоящих злодеев.

    habr.com/ru/companies/bastion/

    #soc #SIEM #информационная_безопасность #мониторинг #ClickHouse #KUMA #incident_response #высокие_нагрузки #корпоративная_безопасность #логирование

  4. Запустить легко, эксплуатировать сложно: год жизни SOC «Газпром-Медиа Холдинга»

    В 2024 году мы рассказывали , как развернули масштабный центр мониторинга безопасности над «Газпром-Медиа». Тогда даже позволили себе тезис о том, что способны подключить любой актив к мониторингу за одни сутки. Это правда, но опытный инженер, прошедший через реалии корпоративной среды, скажет вам, что запустить систему в продакшен — это всего лишь начало. А вот эксплуатировать ее на живой, постоянно изменяющейся инфраструктуре, где каждый день меняются сетевые доступы и появляются новые сервисы, — долгосрочная задача повышенной сложности. Что происходит, когда центр мониторинга безопасности федерального холдинга превышает отметку в 100 000 событий в секунду? Когда стандартные решения начинают буксовать, а инфраструктура разрастается до 100 сервисов? В 2025 году наша команда столкнулась именно с такими вызовами. В этой статье расскажем, как мы решали архитектурные «головоломки» высоконагруженного SIEM, боролись с экзотическими форматами логов медийных систем, создавали кастомные коннекторы и как Purple Team-учения помогли обнаружить настоящих злодеев.

    habr.com/ru/companies/bastion/

    #soc #SIEM #информационная_безопасность #мониторинг #ClickHouse #KUMA #incident_response #высокие_нагрузки #корпоративная_безопасность #логирование

  5. Не рейт-лимитером единым: как управлять нагрузкой в микросервисах

    У каждого, кто работает с высоконагруженными системами, своя коллекция боевых шрамов. Знаете эти истории про инциденты, когда всё идёт совсем не по плану? У меня тоже есть такая — очень показательная. Правильные инструменты, лучшие практики, опытная команда — и всё равно куча проблем. Это хороший повод рассказать, почему даже самых продвинутых инструментов может быть недостаточно, когда не видишь всей картины. В этой статье я разберу различные проблемы, связанные с нагрузкой, и методы борьбы с ними, а потом покажу, как всё это рассыпалось при столкновении с реальностью. Поехали!

    habr.com/ru/companies/yandex/a

    #инцидент #факап #высокие_нагрузки #инженерные_практики #highload++ #highload #микросервисы #микросервисная_архитектура #best_practice #deadline_propagation

  6. Не рейт-лимитером единым: как управлять нагрузкой в микросервисах

    У каждого, кто работает с высоконагруженными системами, своя коллекция боевых шрамов. Знаете эти истории про инциденты, когда всё идёт совсем не по плану? У меня тоже есть такая — очень показательная. Правильные инструменты, лучшие практики, опытная команда — и всё равно куча проблем. Это хороший повод рассказать, почему даже самых продвинутых инструментов может быть недостаточно, когда не видишь всей картины. В этой статье я разберу различные проблемы, связанные с нагрузкой, и методы борьбы с ними, а потом покажу, как всё это рассыпалось при столкновении с реальностью. Поехали!

    habr.com/ru/companies/yandex/a

    #инцидент #факап #высокие_нагрузки #инженерные_практики #highload++ #highload #микросервисы #микросервисная_архитектура #best_practice #deadline_propagation

  7. Не рейт-лимитером единым: как управлять нагрузкой в микросервисах

    У каждого, кто работает с высоконагруженными системами, своя коллекция боевых шрамов. Знаете эти истории про инциденты, когда всё идёт совсем не по плану? У меня тоже есть такая — очень показательная. Правильные инструменты, лучшие практики, опытная команда — и всё равно куча проблем. Это хороший повод рассказать, почему даже самых продвинутых инструментов может быть недостаточно, когда не видишь всей картины. В этой статье я разберу различные проблемы, связанные с нагрузкой, и методы борьбы с ними, а потом покажу, как всё это рассыпалось при столкновении с реальностью. Поехали!

    habr.com/ru/companies/yandex/a

    #инцидент #факап #высокие_нагрузки #инженерные_практики #highload++ #highload #микросервисы #микросервисная_архитектура #best_practice #deadline_propagation

  8. Не рейт-лимитером единым: как управлять нагрузкой в микросервисах

    У каждого, кто работает с высоконагруженными системами, своя коллекция боевых шрамов. Знаете эти истории про инциденты, когда всё идёт совсем не по плану? У меня тоже есть такая — очень показательная. Правильные инструменты, лучшие практики, опытная команда — и всё равно куча проблем. Это хороший повод рассказать, почему даже самых продвинутых инструментов может быть недостаточно, когда не видишь всей картины. В этой статье я разберу различные проблемы, связанные с нагрузкой, и методы борьбы с ними, а потом покажу, как всё это рассыпалось при столкновении с реальностью. Поехали!

    habr.com/ru/companies/yandex/a

    #инцидент #факап #высокие_нагрузки #инженерные_практики #highload++ #highload #микросервисы #микросервисная_архитектура #best_practice #deadline_propagation

  9. [Перевод] Как Netflix добивается корректной атрибуции в журналах сетевых потоков eBPF

    Один неправильно «пришитый» IP — и рождается фантомная зависимость. Netflix на масштабе ≈5 млн TCP-потоков/с отказался от событийного учёта адресов и построил атрибуцию на наблюдаемых таймлайнах владения IP: eBPF-сайдкар точно метит локальную нагрузку (включая Titus и связку IPv6→IPv4 по паре IP+порт), а FlowCollector держит интервалы в памяти и рассылает их через Kafka, форвардя межрегиональные кейсы по trie из VPC-CIDR. Задержка — ~1 мин вместо 15, ложных совпадений — ноль по проверке на Zuul. В итоге flow logs стали источником истины о зависимостях и «здоровье» сети.

    habr.com/ru/companies/otus/art

    #ebpf #flow_logs #журналы_потоков #heartbeats #наблюдаемость #observability #devops #высокие_нагрузки

  10. [Перевод] Как Netflix добивается корректной атрибуции в журналах сетевых потоков eBPF

    Один неправильно «пришитый» IP — и рождается фантомная зависимость. Netflix на масштабе ≈5 млн TCP-потоков/с отказался от событийного учёта адресов и построил атрибуцию на наблюдаемых таймлайнах владения IP: eBPF-сайдкар точно метит локальную нагрузку (включая Titus и связку IPv6→IPv4 по паре IP+порт), а FlowCollector держит интервалы в памяти и рассылает их через Kafka, форвардя межрегиональные кейсы по trie из VPC-CIDR. Задержка — ~1 мин вместо 15, ложных совпадений — ноль по проверке на Zuul. В итоге flow logs стали источником истины о зависимостях и «здоровье» сети.

    habr.com/ru/companies/otus/art

    #ebpf #flow_logs #журналы_потоков #heartbeats #наблюдаемость #observability #devops #высокие_нагрузки

  11. [Перевод] Как Netflix добивается корректной атрибуции в журналах сетевых потоков eBPF

    Один неправильно «пришитый» IP — и рождается фантомная зависимость. Netflix на масштабе ≈5 млн TCP-потоков/с отказался от событийного учёта адресов и построил атрибуцию на наблюдаемых таймлайнах владения IP: eBPF-сайдкар точно метит локальную нагрузку (включая Titus и связку IPv6→IPv4 по паре IP+порт), а FlowCollector держит интервалы в памяти и рассылает их через Kafka, форвардя межрегиональные кейсы по trie из VPC-CIDR. Задержка — ~1 мин вместо 15, ложных совпадений — ноль по проверке на Zuul. В итоге flow logs стали источником истины о зависимостях и «здоровье» сети.

    habr.com/ru/companies/otus/art

    #ebpf #flow_logs #журналы_потоков #heartbeats #наблюдаемость #observability #devops #высокие_нагрузки

  12. [Перевод] Как Netflix добивается корректной атрибуции в журналах сетевых потоков eBPF

    Один неправильно «пришитый» IP — и рождается фантомная зависимость. Netflix на масштабе ≈5 млн TCP-потоков/с отказался от событийного учёта адресов и построил атрибуцию на наблюдаемых таймлайнах владения IP: eBPF-сайдкар точно метит локальную нагрузку (включая Titus и связку IPv6→IPv4 по паре IP+порт), а FlowCollector держит интервалы в памяти и рассылает их через Kafka, форвардя межрегиональные кейсы по trie из VPC-CIDR. Задержка — ~1 мин вместо 15, ложных совпадений — ноль по проверке на Zuul. В итоге flow logs стали источником истины о зависимостях и «здоровье» сети.

    habr.com/ru/companies/otus/art

    #ebpf #flow_logs #журналы_потоков #heartbeats #наблюдаемость #observability #devops #высокие_нагрузки

  13. Как настроить веб-приложение под высокие нагрузки

    Привет, меня зовут Александр Ададуров . Я — руководитель проектов ФГБУ «Центр информационно-технического обеспечения». В этой статье я опишу опыт настройки сайта с образовательным контентом под нагрузку в пиках до 15 000 запросов в секунду или до нескольких миллионов пользователей в день. Образовательный контент сайта представлял собой иллюстрированные HTML-страницы, видеоуроки и различные интерактивные задания, преимущественно на JavaScript, которые проверяли правильность выполнения заданий запросами к бэкенду. Сайт жил спокойной жизнью и вяло развивался до введения локдаунов в связи с распространением COVID-19. Первые месяцы карантина существенно изменили код приложения, его архитектуру и даже серверную инфраструктуру, на которой оно располагалось.

    habr.com/ru/companies/beeline_

    #Высокие_нагрузки #масштабирование #кеширование #мониторинг #оптимизация #архитектура_по #логирование

  14. [Перевод] Путь к масштабированию PostgreSQL: от теории к практике

    "Postgres масштабируется" - нет других двух слов, которые вызывали бы больше споров. По крайней мере, в кругах, где я общаюсь, в подвале компании, где инфраструктурные эльфы заставляют Rails-приложение работать. Многие верят, вопреки всему и маркетинговым кампаниям Big NoSQL, что знакомая технология лучше, чем новый неизвестный инструмент, о котором только что рассказали на совещании руководства. Честно говоря, я понимаю их позицию. Заставить Postgres писать больше данных может быть сложно. Вам нужно больше оборудования. В большинстве случаев его можно получить, просто нажав кнопку "Обновить". Но когда вы дошли до экземпляра r5.24xlarge с 5 репликами такого же размера, и ваши процессы vacuum всё ещё отстают от графика, ситуация становится довольно пугающей. Именно здесь начинается испытание для настоящего инженера. На пределе возможностей. Я говорю не о WebAssembly . Я говорю об инженерном духе, который смотрит на проблему под давлением руководства и вместо того, чтобы бежать к ближайшей команде продаж с большими обещаниями (но малым количеством фактов о вашем конкретном случае), решает её, используя базовые принципы. А базовый принцип говорит нам, что нам нужно. У Postgres закончилась пропускная способность для записи. Либо из-за блокировок при работе с WAL , либо что-то застопорило vacuum. Вероятно, это та неактивная транзакция, которая открыта уже 45 секунд, пока приложение делает запрос к Stripe, но это не наша забота. Мы - инфраструктурная команда, и наша задача - заставить базу данных работать.

    habr.com/ru/articles/891122/

    #postgresql #шардинг #масштабирование_postgresql #репликация_базы_данных #отказоустойчивость #высокие_нагрузки #базы_данных #devops #оптимизация #инфраструктура