home.social

#инциденты — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #инциденты, aggregated by home.social.

  1. Между нами SLA: как бизнесу и поддержке договориться до первого инцидента

    Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает без лишних споров переживать такие моменты.

    habr.com/ru/articles/1032878/

    #системное_администрирование #devops #sla #техническая_поддержка #мониторинг_сервера #инциденты #ревью_кода #рефакторинг #аварийное_восстановление #аварийные_ситуации

  2. Между нами SLA: как бизнесу и поддержке договориться до первого инцидента

    Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает без лишних споров переживать такие моменты.

    habr.com/ru/articles/1032878/

    #системное_администрирование #devops #sla #техническая_поддержка #мониторинг_сервера #инциденты #ревью_кода #рефакторинг #аварийное_восстановление #аварийные_ситуации

  3. Между нами SLA: как бизнесу и поддержке договориться до первого инцидента

    Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает без лишних споров переживать такие моменты.

    habr.com/ru/articles/1032878/

    #системное_администрирование #devops #sla #техническая_поддержка #мониторинг_сервера #инциденты #ревью_кода #рефакторинг #аварийное_восстановление #аварийные_ситуации

  4. Между нами SLA: как бизнесу и поддержке договориться до первого инцидента

    Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает без лишних споров переживать такие моменты.

    habr.com/ru/articles/1032878/

    #системное_администрирование #devops #sla #техническая_поддержка #мониторинг_сервера #инциденты #ревью_кода #рефакторинг #аварийное_восстановление #аварийные_ситуации

  5. Как понять, что мониторинг в ЦОДе шумит

    Днём на работе вокруг всегда коллеги, созвоны, обсуждения в чатах. Если что-то непонятно, можно быстро спросить совета у более опытных инженеров. Ночью всё по-другому. Дежурный остаётся один на один с системой оповещений, и разбираться приходится самостоятельно. Наверное, поэтому одна из самых странных вещей в мониторинге проявляется именно ночью. На одном из дежурств мне за несколько часов пришло больше десятка уведомлений. То температура в стойке подскочила на пару градусов. То CPU неожиданно преодолел порог. То один из дисков выдал предупреждение SMART. Конечно, я проверял каждый сигнал, смотрел графики, открывал логи и переключался между дашбордами. Но метрики и без этого возвращались к исходным значениям, и всё продолжало работать как обычно. К утру инфраструктура так и не полыхнула синим пламенем, зато система оповещений просто разрывалась. Так я впервые узнал об «усталости от алертов» и начал искать способ справиться с этой проблемой.

    habr.com/ru/companies/X5Tech/a

    #цод #мониторинг #алертинг #oncall #дежурства #инфраструктура #runbook #инциденты #резервирование #latency

  6. Не просто дашборд: как DORA-метрики помогли нам сократить инциденты на 80%

    DORA-метрики легко обсуждать как что-то довольно очевидное: выбрал четыре показателя, подключил данные, построил графики — готово. На практике все интересное начинается в тот момент, когда пытаешься сделать это не в презентации, а в живой компании с сотнями сервисов, разными сценариями деплоя и командами, у каждой из которых свой способ довозить код до прода. В Островке из этой задачи в итоге вырос отдельный сервис: он собирает события о релизах, связывает их с изменениями в GitLab, сопоставляет с инцидентами и отдаёт данные в Grafana. На MVP мы покрыли 90% проектов, а после регулярного разбора метрик и автоматизации узких мест количество критичных сбоев по последним данным снизилось на 80% . Под катом — история о том, как мы к этому пришли: откуда брали данные для DORA-метрик, как считали их в условиях очень разных релизных процессов и почему самой сложной частью оказалось не нарисовать графики, а вообще договориться с реальностью.

    habr.com/ru/companies/ostrovok

    #dora_metrics #django #backend #метрики #инциденты #стабильность #деплой #python #gitlab

  7. Хроники Облачного княжества: как я приручал монолит‑дракона: Орден SLO и игла Кощея

    Часть 3. Самая опасная магия в IT — это магия целей. Потому что цель легко обещает, а потом требует процентами отчёта. Есть особый вид страха, который появляется у инженера, когда два календаря совпадают.

    habr.com/ru/articles/1024126/

    #инциденты #продакшн #DevOps #SRE #мониторинг #микросервисы #база_данных #отказоустойчивость #постмортем

  8. Хроники Облачного княжества: как я приручал монолит‑дракона: Ночной алерт и инквизиция безопасности

    Часть 2. Если вам кажется, что инцидент — это про баги, вы просто ещё не видели, как баги превращаются в совещания. Первый ночной алерт приходит в момент, когда организм ещё верит, что сон — это базовая потребность, а не роскошь уровня «enterprise». Пейджер‑амулет (теперь уже и на моём поясе) запел так, будто ему лично не понравилось моё решение спать. Текст был коротким:

    habr.com/ru/articles/1022760/

    #инциденты #продакшн #DevOps #SRE #мониторинг #микросервисы #база_данных #отказоустойчивость #постмортем

  9. Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.

    По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.

    Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.

    #роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures

    bastyon.com/svalmon37?ref=PJ51

  10. Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.

    По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.

    Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.

    #роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures

    bastyon.com/svalmon37?ref=PJ51

  11. Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.

    По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.

    Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.

    #роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures

    bastyon.com/svalmon37?ref=PJ51

  12. Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.

    По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.

    Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.

    #роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures

    bastyon.com/svalmon37?ref=PJ51

  13. Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.

    По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.

    Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.

    #роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures

    bastyon.com/svalmon37?ref=PJ51

  14. [Перевод] LLM вместо «прочитаем потом»: анализ постмортемов и паттерны инцидентов

    Инциденты копятся годами, постмортемы пылятся в архивах, а стратегические выводы растворяются в операционной рутине. В Zalando решили проверить, можно ли превратить этот массив опыта в инструмент для принятия инженерных решений – с помощью LLM и многоэтапного анализа. В статье – практический разбор пайплайна, ограничений моделей и того, как связка SRE и ИИ помогает техническому руководителю видеть системные риски раньше, чем они снова выйдут в прод.

    habr.com/ru/companies/otus/art

    #sre #постмортемы #инциденты #управление_надёжностью #LLM #галлюцинации #humanintheloop

  15. Ночь с пятницы на понедельник: борьба за устойчивость, когда облако дало сбой

    …Был обычный ноябрьский вечер, 2024 год шёл к своему завершению: на носу была «чёрная пятница». Я вернулся домой в Новосибирск из почти двухнедельной командировки, пробыв в пути 12 часов и поспав часа четыре. В 19:07 алерт сообщил мне о падении одного из контроллеров. В целом, проблема не критичная, так как сервисы зарезервированы. Но всё же одним глазом я заглянул в чат с разбором. Через час ситуация стремительно ухудшилась: каскадом начали отказывать узлы, отвечающие за внешнюю связность. А затем развитие событий приняло фатальный оборот — в какой‑то момент одновременно отказали сервисы внешней связности сразу в двух зонах доступности… Это был один из самых крупных региональных инцидентов в облаке, после которого мы многое изменили в сети, чтобы сделать её устойчивее . С того момента прошло больше года, так что пришла пора рассказать эту историю от начала и до конца. В прошлой статье я уже показал наши основные подходы к повышению отказоустойчивости в этой ситуации. Однако за кадром остался сам процесс разработки новых решений и то, как мы мыслили, чтобы найти наилучший выход. Сегодня расскажу об этом подробнее. Статья основана на моём недавнем выступлении на Highload++ и дополнена по следам дальнейших расследований инцидентов.

    habr.com/ru/companies/yandex/a

    #надежность #sla #отказоустойчивость #инцидентменеджмент #инциденты #отказоустойчивые_системы #отказоустойчивость_сетей

  16. Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

    Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать. В декабре, перед самым Новым годом, наше приложение начало вести себя так, будто вот-вот рухнет. С ростом пользователей посыпались алерты, вырос трафик, а из команды мониторинга сообщили, что поды в Kubernetes перезагружаются. Пока не падают, но выглядят плохо. В этот момент я занимался архитектурой и оптимизацией Node.js в музыкальном стриминге. Открыл графики и увидел явный рост памяти, который уходил в пик и приводил к перезапуску подов. Так началась «классическая предновогодняя история». Next.js в Kubernetes внезапно начал есть память так, будто у него внутри чёрная дыра.

    habr.com/ru/companies/X5Tech/a

    #nextjs #nodejs #kubernetes #утечка_памяти #ram #heap #page_cache #prometheus #grafana #инциденты

  17. Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

    Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать. В декабре, перед самым Новым годом, наше приложение начало вести себя так, будто вот-вот рухнет. С ростом пользователей посыпались алерты, вырос трафик, а из команды мониторинга сообщили, что поды в Kubernetes перезагружаются. Пока не падают, но выглядят плохо. В этот момент я занимался архитектурой и оптимизацией Node.js в музыкальном стриминге. Открыл графики и увидел явный рост памяти, который уходил в пик и приводил к перезапуску подов. Так началась «классическая предновогодняя история». Next.js в Kubernetes внезапно начал есть память так, будто у него внутри чёрная дыра.

    habr.com/ru/companies/X5Tech/a

    #nextjs #nodejs #kubernetes #утечка_памяти #ram #heap #page_cache #prometheus #grafana #инциденты

  18. Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

    Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать. В декабре, перед самым Новым годом, наше приложение начало вести себя так, будто вот-вот рухнет. С ростом пользователей посыпались алерты, вырос трафик, а из команды мониторинга сообщили, что поды в Kubernetes перезагружаются. Пока не падают, но выглядят плохо. В этот момент я занимался архитектурой и оптимизацией Node.js в музыкальном стриминге. Открыл графики и увидел явный рост памяти, который уходил в пик и приводил к перезапуску подов. Так началась «классическая предновогодняя история». Next.js в Kubernetes внезапно начал есть память так, будто у него внутри чёрная дыра.

    habr.com/ru/companies/X5Tech/a

    #nextjs #nodejs #kubernetes #утечка_памяти #ram #heap #page_cache #prometheus #grafana #инциденты

  19. Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

    Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать. В декабре, перед самым Новым годом, наше приложение начало вести себя так, будто вот-вот рухнет. С ростом пользователей посыпались алерты, вырос трафик, а из команды мониторинга сообщили, что поды в Kubernetes перезагружаются. Пока не падают, но выглядят плохо. В этот момент я занимался архитектурой и оптимизацией Node.js в музыкальном стриминге. Открыл графики и увидел явный рост памяти, который уходил в пик и приводил к перезапуску подов. Так началась «классическая предновогодняя история». Next.js в Kubernetes внезапно начал есть память так, будто у него внутри чёрная дыра.

    habr.com/ru/companies/X5Tech/a

    #nextjs #nodejs #kubernetes #утечка_памяти #ram #heap #page_cache #prometheus #grafana #инциденты

  20. Кибербезопасность за 30 дней. Чек-лист для руководителей

    Дверь кабинета распахнулась в три часа ночи. Бледный технический директор, голос дрожит: « Всё. Системы мертвы. Они требуют два миллиона в биткоинах ». В голове мелькнула мысль: « Это же фильм какой-то... » Но на мониторах уже мигали красные надписи, а в телефоне зашкаливало количество звонков от клиентов, партнёров, регуляторов. А когда расследование показало, что хакеры вошли через устаревшую версию WordPress и учётную запись менеджера с правами администратора, он схватился за голову. Не суперхакеры взломали миллиардный бизнес. Его развалили банальные человеческие ошибки и пренебрежение рутиной. Те самые «мелочи», ради которых ИТ-специалисты годами просили внимания.

    habr.com/ru/articles/980290/

    #кибербезопасность #уязвимости #доступ #аудит #данные #риски #защита #инциденты #контроль #восстановление

  21. Побойтесь ДевОпса сударь…

    Как-то, у нашей компании накопился ряд задач, связанных с администрированием наших серверов, и руководство приняло решение, что всё-таки нам нужен DevOps, который закроет наши вопросы и будет в долгую сопровождать нашу команду. Решились. Разместили на hh.ru/ вакансию. Нашли человека в городе М.. Руководству было важно, чтобы он был с того же города, где и компания. Но мы никак не могли предположить, что этот человек, который проработал с нами буквально 6 месяцев, чуть не потопил всю нашу компанию. Но, обо всём по порядку.

    habr.com/ru/articles/977526/

    #девопс #devops #proxmox #администрирование_серверов #инциденты #человеческий_фактор #внутренние_угрозы #резервное_копирование #rbac #iam

  22. Свод знаний ITIL для управления ИТ-услугами в ERP-проектах

    Программное обеспечение прошло долгий путь от набора команд до комплексных софтверных человеко-технических систем. Небольшие программные разработки, призванные решать локальные задачи, постепенно превратились в набор приложений, далее появились программные системы, включающие организационную составляющую, а позже – информационные системы как совокупность человека, техники и программных продуктов. Логическую последовательность завершили корпоративные информационные системы, объединившие в себе множество информационных систем [1]. Корпоративные информационные системы позволяют автоматизировать набор бизнес-процессов. Чем больше процессов, тем представительнее стандарт, цифровизирующий их. Так наиболее известным и востребованным классом систем является ERP [2]. ERP-системы охватывают практические все административно-хозяйственные операции компании и представляют средства для их автоматизации. Помимо ERP доступен широкий набор прочих классов: MRP, TMS, WMS, APS, BI, MES и др. Если раньше идея объединить все стандарты в единый класс казалась обоснованной, то на текущий момент – это утопия, так как слишком стремительно развиваются технологии и появляются новые виды систем. Потребность в управлении различными классами программных систем, являющихся основой функционирования современного предприятия, становится все более востребованной и незаменимой: достижение стратегических целей компании тесно связано с вопросом цифровизации бизнес-процессов. Среди множества сводов знаний, применимых к информационным системам: PMBoK, BABoK, BPM CBoK, DAMA-DMBoK, EABoK/TOGAF, SWEBoK, ITIL [3-9], последние два являются наиболее релевантными тематике данной статьи. Свод знаний по программной инженерии, SWEBoK, охватывает весь жизненный цикл информационной системы, в то время как лучшие практики по управлению ИТ-услугами, заданные в ITIL, не ограничиваются рассмотрением только софтверных решений, а представляют все многообразие ИТ-продуктов.

    habr.com/ru/articles/974724/

    #sla #itil4 #ит_услуга #поддержка_по #развитие_по #инцидентменеджмент #инциденты #дефекты #программа #проект

  23. DNS-хаос, зомби-поды и майнеры в кластере: самые невероятные случаи при работе с Kubernetes

    Kubernetes — мощный и одновременно сложный инструмент, работа с которым неизбежно порождает… инциденты. И на практике DNS виновата далеко не всегда. Иногда всё ломает слишком длинное имя деплоймента, протухший CA-сертификат или сбой сетевой карты, из-за которого TCP-пакеты просто отбрасываются. В статье вас ждут самые интересные и поучительные инженерные истории с Reddit.

    habr.com/ru/companies/flant/ar

    #kubernetes #dns #майнеры #зомбиподы #cni #kubedns #stickyсессии #etcd #argo_cd #инциденты

  24. DNS-хаос, зомби-поды и майнеры в кластере: самые невероятные случаи при работе с Kubernetes

    Kubernetes — мощный и одновременно сложный инструмент, работа с которым неизбежно порождает… инциденты. И на практике DNS виновата далеко не всегда. Иногда всё ломает слишком длинное имя деплоймента, протухший CA-сертификат или сбой сетевой карты, из-за которого TCP-пакеты просто отбрасываются. В статье вас ждут самые интересные и поучительные инженерные истории с Reddit.

    habr.com/ru/companies/flant/ar

    #kubernetes #dns #майнеры #зомбиподы #cni #kubedns #stickyсессии #etcd #argo_cd #инциденты

  25. DNS-хаос, зомби-поды и майнеры в кластере: самые невероятные случаи при работе с Kubernetes

    Kubernetes — мощный и одновременно сложный инструмент, работа с которым неизбежно порождает… инциденты. И на практике DNS виновата далеко не всегда. Иногда всё ломает слишком длинное имя деплоймента, протухший CA-сертификат или сбой сетевой карты, из-за которого TCP-пакеты просто отбрасываются. В статье вас ждут самые интересные и поучительные инженерные истории с Reddit.

    habr.com/ru/companies/flant/ar

    #kubernetes #dns #майнеры #зомбиподы #cni #kubedns #stickyсессии #etcd #argo_cd #инциденты

  26. DNS-хаос, зомби-поды и майнеры в кластере: самые невероятные случаи при работе с Kubernetes

    Kubernetes — мощный и одновременно сложный инструмент, работа с которым неизбежно порождает… инциденты. И на практике DNS виновата далеко не всегда. Иногда всё ломает слишком длинное имя деплоймента, протухший CA-сертификат или сбой сетевой карты, из-за которого TCP-пакеты просто отбрасываются. В статье вас ждут самые интересные и поучительные инженерные истории с Reddit.

    habr.com/ru/companies/flant/ar

    #kubernetes #dns #майнеры #зомбиподы #cni #kubedns #stickyсессии #etcd #argo_cd #инциденты

  27. Почему мониторинг — это ещё не всё. История появления статус пейджей в Statuser

    Привет! Меня зовут Михаил Шпаков, я разрабатываю Statuser — платформу для мониторинга доступности сайтов, приложений и серверов. Делаю всё один, по вечерам, без команды. В этой статье я расскажу, как появилась функциональность, которая была в планах с самого начала — публичные страницы статуса . Эта идея зрела давно, и запросы от первых клиентов только ускорили её появление. Объясню, как всё устроено внутри, с какими техническими решениями пришлось столкнуться и почему статус-пейджи — это логичное продолжение любого хорошего мониторинга .

    habr.com/ru/companies/timeweb/

    #мониторинг #статусстраницы #доступность #инциденты #аптайм #уведомления #кастомные_домены #DevOps #Statuser #timeweb_статьи

  28. Как я по вечерам разрабатывал Statuser — платформу для мониторинга доступности приложений

    Привет, меня зовут Михаил Шпаков, я руковожу разработкой в Timeweb Cloud — это крупный облачный провайдер с большой командой и множеством внутренних и внешних продуктов. Последние несколько лет в работе стало больше менеджмента: процессы, планирование, встречи, координация команд. Со временем я начал ловить себя на мысли, что очень хочется что-то поделать руками . Вернуться к коду, попробовать собрать продукт от начала и до конца, пройти путь не как менеджер, а как разработчик и автор идеи. Заодно — погрузиться в продуктовую часть, потрогать всё: интерфейсы, фичи, маркетинг, пользовательский опыт. Так родился statuser.cloud — простой сервис для мониторинга доступности сайтов и серверов. Я хотел сделать его: — с минималистичным и понятным интерфейсом, — ориентированным в первую очередь на разработчиков, девопсов, админов , — с набором действительно нужных фич, ничего лишнего. В этой статье я расскажу, как вечерами и на выходных делал Statuser (и продолжаю делать): с какими проблемами сталкивался, как выбирал стек, как не бросил проект на полпути — и что получилось в итоге.

    habr.com/ru/companies/timeweb/

    #statuser #мониторинг #инфраструктура #nestjs #nextjs #инциденты #уведомления #пользователи #отчеты #timeweb_статьи

  29. Сбой с вероятностью один раз в 20 лет: о мартовском инциденте в дата-центре

    30 марта сервисы, размещённые в одном из наших основных дата‑центров, оказались недоступны. К инциденту привела авария на опорной подстанции, которая спровоцировала отказ сразу двух вводов питания и последующий каскадный сбой оборудования. В этой статье подробно покажем, какие именно риски сработали — а для этого объясним, как устроено энергоснабжение в дата‑центре и на что это влияет. С этой точки зрения посмотрим, как развивались события в этот день и что бывает в дата‑центре, когда случаются ситуации, вероятность которых оценивается как «один на десятилетия». В завершение расскажем, что планируем делать дальше, чтобы не допустить повторения, и какой урок из этого могут извлечь другие инженеры.

    habr.com/ru/companies/yandex/a

    #datacenters #датацентры #цод #инциденты #инцидентменеджмент #аварийные_ситуации #аварии_в_датацентрах #аварии_на_цод

  30. Решаем проблемы роста нагрузки в умных домах

    Всем привет! Меня зовут Вадим Трегубов, я техлид бекэнда платформы умного дома в SberDevices. Я расскажу о проблемах роста нагрузки, возникающие у проектов интернета вещей и решениях, помогают их избежать. Всё началось с того, что мы хотели избавиться от vendor-lock. К 2022 году мы уже наработали свои платформенные сервисы: управление голосом, создание сценария автоматизации. Хотелось их использовать еще шире, глубже и качественнее. Плюс ко всему, мы бы имели полный цикл поддержки устройств: выпуск их на рынок, обновление прошивок, докатка и улучшение пользовательского опыта. Учитывая особенности работы с IoT, мы сформулировали требования к архитектуре... Читать дальше

    habr.com/ru/companies/oleg-bun

    #golang #iot #vendor_lock #архитектура #nats #mqtt #инциденты #tcp #github #нагрузка

  31. Повышение качества выпускаемого ПО путем работы с инцидентами

    Всем привет! Меня зовут Даша Мельникова, я ведущий релиз-менеджер в МКБ. В рамках этой статьи буду говорить об инцидентах, которые переходят на третью линию (на команду разработки). А еще о такой сущности, как инцидент ЗНО. Это сервисный запрос, обращение пользователя, в рамках которого мы лишь консультируем человека, а не правим код, то есть просто даем советы. Но если в рамках консультации возникает необходимость что-то доработать, то это выливается в создание новой фичи.

    habr.com/ru/companies/mkb/arti

    #инциденты #инцидентменеджмент #отказоустойчивые_системы #стабильность_системы

  32. Agile-романтика: Kanban доска для счастливых отношений

    Жизнь в ИТ не простая, работа, таски, дедлайны, мониторинг серверов, случайные падения кластера среди ночи... и где-то в этом хаосе есть ещё и личная жизнь. Проблема в том, что если в проде у тебя всегда есть система мониторинга, то в отношениях её нет. Или есть, то только в виде пассивно-агрессивного вопроса перед сном "Тебе не кажется, что ты мало времени уделяешь семье?". Поэтому, сейчас мы разберёмся как можно сделать Kanban-доску в Taiga и попробуем сделать из хаоса порядок. Ведь мы можем поддерживать 99.99% аптайма в проде, почему бы не попытаться добиться хотя бы 80% в личной жизни?

    habr.com/ru/companies/aeza/art

    #devops #Kanban #taiga #мониторинг #инциденты #автоматизация #Ретроспектива #Отношения #aglie #cicd

  33. Detection is easy. Устанавливаем OPNSense и настраиваем NetFlow

    Продолжаем серию статей. - Detection is easy , посвященных Detection engineering (DE), о чем я пишу в одноименном Telegram-канале . Сегодня мы рассмотрим установку OPNSense на Proxmox и настройку отправки NetFlow на коллектор ElastiFlow, который мы настроили в прошлой статье . Для начала подключимся к Proxmox VE и создадим виртуальную машину с двумя интерфейсами.

    habr.com/ru/articles/873382/

    #информационная_безопасность #мониторинг #мониторинг_сети #инцидент_кибербезопасности #инциденты_иб #инциденты_безопасности #инцидент #инциденты #обнаружение_атак #обнаружение_аномалий