#инциденты — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-08 · 07:42 UTC

Между нами SLA: как бизнесу и поддержке договориться до первого инцидента

Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает без лишних споров переживать такие моменты.

https://habr.com/ru/articles/1032878/

#системное_администрирование #devops #sla #техническая_поддержка #мониторинг_сервера #инциденты #ревью_кода #рефакторинг #аварийное_восстановление #аварийные_ситуации

#аварийные_ситуации #аварийное_восстановление #рефакторинг #ревью_кода #инциденты #мониторинг_сервера

Habr @[email protected] · 2026-05-08 · 07:42 UTC

Между нами SLA: как бизнесу и поддержке договориться до первого инцидента

Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает без лишних споров переживать такие моменты.

https://habr.com/ru/articles/1032878/

#системное_администрирование #devops #sla #техническая_поддержка #мониторинг_сервера #инциденты #ревью_кода #рефакторинг #аварийное_восстановление #аварийные_ситуации

#аварийные_ситуации #аварийное_восстановление #рефакторинг #ревью_кода #инциденты #мониторинг_сервера

Habr @[email protected] · 2026-05-08 · 07:42 UTC

Между нами SLA: как бизнесу и поддержке договориться до первого инцидента

Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает без лишних споров переживать такие моменты.

https://habr.com/ru/articles/1032878/

#системное_администрирование #devops #sla #техническая_поддержка #мониторинг_сервера #инциденты #ревью_кода #рефакторинг #аварийное_восстановление #аварийные_ситуации

#аварийные_ситуации #аварийное_восстановление #рефакторинг #ревью_кода #инциденты #мониторинг_сервера

Habr @[email protected] · 2026-05-08 · 07:42 UTC

Между нами SLA: как бизнесу и поддержке договориться до первого инцидента

Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает без лишних споров переживать такие моменты.

https://habr.com/ru/articles/1032878/

#системное_администрирование #devops #sla #техническая_поддержка #мониторинг_сервера #инциденты #ревью_кода #рефакторинг #аварийное_восстановление #аварийные_ситуации

#системное_администрирование #devops #sla #техническая_поддержка #мониторинг_сервера #инциденты

Habr @[email protected] · 2026-04-28 · 09:12 UTC

Как понять, что мониторинг в ЦОДе шумит

Днём на работе вокруг всегда коллеги, созвоны, обсуждения в чатах. Если что-то непонятно, можно быстро спросить совета у более опытных инженеров. Ночью всё по-другому. Дежурный остаётся один на один с системой оповещений, и разбираться приходится самостоятельно. Наверное, поэтому одна из самых странных вещей в мониторинге проявляется именно ночью. На одном из дежурств мне за несколько часов пришло больше десятка уведомлений. То температура в стойке подскочила на пару градусов. То CPU неожиданно преодолел порог. То один из дисков выдал предупреждение SMART. Конечно, я проверял каждый сигнал, смотрел графики, открывал логи и переключался между дашбордами. Но метрики и без этого возвращались к исходным значениям, и всё продолжало работать как обычно. К утру инфраструктура так и не полыхнула синим пламенем, зато система оповещений просто разрывалась. Так я впервые узнал об «усталости от алертов» и начал искать способ справиться с этой проблемой.

https://habr.com/ru/companies/X5Tech/articles/1027518/

#цод #мониторинг #алертинг #oncall #дежурства #инфраструктура #runbook #инциденты #резервирование #latency

#latency #резервирование #инциденты #runbook #инфраструктура #дежурства

Habr @[email protected] · 2026-04-17 · 12:52 UTC

Не просто дашборд: как DORA-метрики помогли нам сократить инциденты на 80%

DORA-метрики легко обсуждать как что-то довольно очевидное: выбрал четыре показателя, подключил данные, построил графики — готово. На практике все интересное начинается в тот момент, когда пытаешься сделать это не в презентации, а в живой компании с сотнями сервисов, разными сценариями деплоя и командами, у каждой из которых свой способ довозить код до прода. В Островке из этой задачи в итоге вырос отдельный сервис: он собирает события о релизах, связывает их с изменениями в GitLab, сопоставляет с инцидентами и отдаёт данные в Grafana. На MVP мы покрыли 90% проектов, а после регулярного разбора метрик и автоматизации узких мест количество критичных сбоев по последним данным снизилось на 80% . Под катом — история о том, как мы к этому пришли: откуда брали данные для DORA-метрик, как считали их в условиях очень разных релизных процессов и почему самой сложной частью оказалось не нарисовать графики, а вообще договориться с реальностью.

https://habr.com/ru/companies/ostrovok/articles/1024148/

#dora_metrics #django #backend #метрики #инциденты #стабильность #деплой #python #gitlab

#gitlab #python #деплой #стабильность #инциденты #метрики

Habr @[email protected] · 2026-04-16 · 10:12 UTC

Хроники Облачного княжества: как я приручал монолит‑дракона: Орден SLO и игла Кощея

Часть 3. Самая опасная магия в IT — это магия целей. Потому что цель легко обещает, а потом требует процентами отчёта. Есть особый вид страха, который появляется у инженера, когда два календаря совпадают.

https://habr.com/ru/articles/1024126/

#инциденты #продакшн #DevOps #SRE #мониторинг #микросервисы #база_данных #отказоустойчивость #постмортем

#постмортем #отказоустойчивость #база_данных #микросервисы #мониторинг #sre

Habr @[email protected] · 2026-04-13 · 09:42 UTC

Хроники Облачного княжества: как я приручал монолит‑дракона: Ночной алерт и инквизиция безопасности

Часть 2. Если вам кажется, что инцидент — это про баги, вы просто ещё не видели, как баги превращаются в совещания. Первый ночной алерт приходит в момент, когда организм ещё верит, что сон — это базовая потребность, а не роскошь уровня «enterprise». Пейджер‑амулет (теперь уже и на моём поясе) запел так, будто ему лично не понравилось моё решение спать. Текст был коротким:

https://habr.com/ru/articles/1022760/

#инциденты #продакшн #DevOps #SRE #мониторинг #микросервисы #база_данных #отказоустойчивость #постмортем

#постмортем #отказоустойчивость #база_данных #микросервисы #мониторинг #sre

Alterego_Midshipman @[email protected] · 2026-03-29 · 10:04 UTC

Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.

По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.

Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.

#роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures

https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#роботы #искусственныйинтеллект #технобезопасность #unitree #робототехника #aiриски

Alterego_Midshipman @[email protected] · 2026-03-29 · 10:04 UTC

Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.

По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.

Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.

#роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures

https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#роботы #искусственныйинтеллект #технобезопасность #unitree #робототехника #aiриски

Alterego_Midshipman @[email protected] · 2026-03-29 · 10:04 UTC

Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.

По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.

Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.

#роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures

https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#роботы #искусственныйинтеллект #технобезопасность #unitree #робототехника #aiриски

Alterego_Midshipman @[email protected] · 2026-03-29 · 10:04 UTC

Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.

По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.

Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.

#роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures

https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#failures #safetyengineering #humanrobotinteraction #рискиии #роботика #ai

Alterego_Midshipman @[email protected] · 2026-03-29 · 10:04 UTC

Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.

По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.

Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.

#роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures

https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

#роботы #искусственныйинтеллект #технобезопасность #unitree #робототехника #aiриски

Habr @[email protected] · 2026-02-17 · 09:22 UTC

[Перевод] LLM вместо «прочитаем потом»: анализ постмортемов и паттерны инцидентов

Инциденты копятся годами, постмортемы пылятся в архивах, а стратегические выводы растворяются в операционной рутине. В Zalando решили проверить, можно ли превратить этот массив опыта в инструмент для принятия инженерных решений – с помощью LLM и многоэтапного анализа. В статье – практический разбор пайплайна, ограничений моделей и того, как связка SRE и ИИ помогает техническому руководителю видеть системные риски раньше, чем они снова выйдут в прод.

https://habr.com/ru/companies/otus/articles/1000366/

#sre #постмортемы #инциденты #управление_надёжностью #LLM #галлюцинации #humanintheloop

#humanintheloop #галлюцинации #llm #управление_надёжностью #инциденты #постмортемы

Habr @[email protected] · 2026-02-05 · 06:02 UTC

Ночь с пятницы на понедельник: борьба за устойчивость, когда облако дало сбой

…Был обычный ноябрьский вечер, 2024 год шёл к своему завершению: на носу была «чёрная пятница». Я вернулся домой в Новосибирск из почти двухнедельной командировки, пробыв в пути 12 часов и поспав часа четыре. В 19:07 алерт сообщил мне о падении одного из контроллеров. В целом, проблема не критичная, так как сервисы зарезервированы. Но всё же одним глазом я заглянул в чат с разбором. Через час ситуация стремительно ухудшилась: каскадом начали отказывать узлы, отвечающие за внешнюю связность. А затем развитие событий приняло фатальный оборот — в какой‑то момент одновременно отказали сервисы внешней связности сразу в двух зонах доступности… Это был один из самых крупных региональных инцидентов в облаке, после которого мы многое изменили в сети, чтобы сделать её устойчивее . С того момента прошло больше года, так что пришла пора рассказать эту историю от начала и до конца. В прошлой статье я уже показал наши основные подходы к повышению отказоустойчивости в этой ситуации. Однако за кадром остался сам процесс разработки новых решений и то, как мы мыслили, чтобы найти наилучший выход. Сегодня расскажу об этом подробнее. Статья основана на моём недавнем выступлении на Highload++ и дополнена по следам дальнейших расследований инцидентов.

https://habr.com/ru/companies/yandex/articles/992520/

#надежность #sla #отказоустойчивость #инцидентменеджмент #инциденты #отказоустойчивые_системы #отказоустойчивость_сетей

#отказоустойчивость_сетей #отказоустойчивые_системы #инциденты #инцидентменеджмент #отказоустойчивость #sla

Habr @[email protected] · 2025-12-25 · 10:22 UTC

Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать. В декабре, перед самым Новым годом, наше приложение начало вести себя так, будто вот-вот рухнет. С ростом пользователей посыпались алерты, вырос трафик, а из команды мониторинга сообщили, что поды в Kubernetes перезагружаются. Пока не падают, но выглядят плохо. В этот момент я занимался архитектурой и оптимизацией Node.js в музыкальном стриминге. Открыл графики и увидел явный рост памяти, который уходил в пик и приводил к перезапуску подов. Так началась «классическая предновогодняя история». Next.js в Kubernetes внезапно начал есть память так, будто у него внутри чёрная дыра.

https://habr.com/ru/companies/X5Tech/articles/976808/

#nextjs #nodejs #kubernetes #утечка_памяти #ram #heap #page_cache #prometheus #grafana #инциденты

#инциденты #grafana #prometheus #page_cache #heap #ram

Habr @[email protected] · 2025-12-25 · 10:22 UTC

Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать. В декабре, перед самым Новым годом, наше приложение начало вести себя так, будто вот-вот рухнет. С ростом пользователей посыпались алерты, вырос трафик, а из команды мониторинга сообщили, что поды в Kubernetes перезагружаются. Пока не падают, но выглядят плохо. В этот момент я занимался архитектурой и оптимизацией Node.js в музыкальном стриминге. Открыл графики и увидел явный рост памяти, который уходил в пик и приводил к перезапуску подов. Так началась «классическая предновогодняя история». Next.js в Kubernetes внезапно начал есть память так, будто у него внутри чёрная дыра.

https://habr.com/ru/companies/X5Tech/articles/976808/

#nextjs #nodejs #kubernetes #утечка_памяти #ram #heap #page_cache #prometheus #grafana #инциденты

#инциденты #grafana #prometheus #page_cache #heap #ram

Habr @[email protected] · 2025-12-25 · 10:22 UTC

Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать. В декабре, перед самым Новым годом, наше приложение начало вести себя так, будто вот-вот рухнет. С ростом пользователей посыпались алерты, вырос трафик, а из команды мониторинга сообщили, что поды в Kubernetes перезагружаются. Пока не падают, но выглядят плохо. В этот момент я занимался архитектурой и оптимизацией Node.js в музыкальном стриминге. Открыл графики и увидел явный рост памяти, который уходил в пик и приводил к перезапуску подов. Так началась «классическая предновогодняя история». Next.js в Kubernetes внезапно начал есть память так, будто у него внутри чёрная дыра.

https://habr.com/ru/companies/X5Tech/articles/976808/

#nextjs #nodejs #kubernetes #утечка_памяти #ram #heap #page_cache #prometheus #grafana #инциденты

#инциденты #grafana #prometheus #page_cache #heap #ram

Habr @[email protected] · 2025-12-25 · 10:22 UTC

Утечка, которой не было: как Next.js раздувает RAM в Kubernetes

Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать. В декабре, перед самым Новым годом, наше приложение начало вести себя так, будто вот-вот рухнет. С ростом пользователей посыпались алерты, вырос трафик, а из команды мониторинга сообщили, что поды в Kubernetes перезагружаются. Пока не падают, но выглядят плохо. В этот момент я занимался архитектурой и оптимизацией Node.js в музыкальном стриминге. Открыл графики и увидел явный рост памяти, который уходил в пик и приводил к перезапуску подов. Так началась «классическая предновогодняя история». Next.js в Kubernetes внезапно начал есть память так, будто у него внутри чёрная дыра.

https://habr.com/ru/companies/X5Tech/articles/976808/

#nextjs #nodejs #kubernetes #утечка_памяти #ram #heap #page_cache #prometheus #grafana #инциденты

#nextjs #nodejs #kubernetes #утечка_памяти #ram #heap

Habr @[email protected] · 2025-12-24 · 22:22 UTC

Кибербезопасность за 30 дней. Чек-лист для руководителей

Дверь кабинета распахнулась в три часа ночи. Бледный технический директор, голос дрожит: « Всё. Системы мертвы. Они требуют два миллиона в биткоинах ». В голове мелькнула мысль: « Это же фильм какой-то... » Но на мониторах уже мигали красные надписи, а в телефоне зашкаливало количество звонков от клиентов, партнёров, регуляторов. А когда расследование показало, что хакеры вошли через устаревшую версию WordPress и учётную запись менеджера с правами администратора, он схватился за голову. Не суперхакеры взломали миллиардный бизнес. Его развалили банальные человеческие ошибки и пренебрежение рутиной. Те самые «мелочи», ради которых ИТ-специалисты годами просили внимания.

https://habr.com/ru/articles/980290/

#кибербезопасность #уязвимости #доступ #аудит #данные #риски #защита #инциденты #контроль #восстановление

#восстановление #контроль #инциденты #защита #риски #данные

Habr @[email protected] · 2025-12-16 · 22:52 UTC

Побойтесь ДевОпса сударь…

Как-то, у нашей компании накопился ряд задач, связанных с администрированием наших серверов, и руководство приняло решение, что всё-таки нам нужен DevOps, который закроет наши вопросы и будет в долгую сопровождать нашу команду. Решились. Разместили на https://hh.ru/ вакансию. Нашли человека в городе М.. Руководству было важно, чтобы он был с того же города, где и компания. Но мы никак не могли предположить, что этот человек, который проработал с нами буквально 6 месяцев, чуть не потопил всю нашу компанию. Но, обо всём по порядку.

https://habr.com/ru/articles/977526/

#девопс #devops #proxmox #администрирование_серверов #инциденты #человеческий_фактор #внутренние_угрозы #резервное_копирование #rbac #iam

#iam #rbac #резервное_копирование #внутренние_угрозы #человеческий_фактор #инциденты

Habr @[email protected] · 2025-12-09 · 07:22 UTC

Свод знаний ITIL для управления ИТ-услугами в ERP-проектах

Программное обеспечение прошло долгий путь от набора команд до комплексных софтверных человеко-технических систем. Небольшие программные разработки, призванные решать локальные задачи, постепенно превратились в набор приложений, далее появились программные системы, включающие организационную составляющую, а позже – информационные системы как совокупность человека, техники и программных продуктов. Логическую последовательность завершили корпоративные информационные системы, объединившие в себе множество информационных систем [1]. Корпоративные информационные системы позволяют автоматизировать набор бизнес-процессов. Чем больше процессов, тем представительнее стандарт, цифровизирующий их. Так наиболее известным и востребованным классом систем является ERP [2]. ERP-системы охватывают практические все административно-хозяйственные операции компании и представляют средства для их автоматизации. Помимо ERP доступен широкий набор прочих классов: MRP, TMS, WMS, APS, BI, MES и др. Если раньше идея объединить все стандарты в единый класс казалась обоснованной, то на текущий момент – это утопия, так как слишком стремительно развиваются технологии и появляются новые виды систем. Потребность в управлении различными классами программных систем, являющихся основой функционирования современного предприятия, становится все более востребованной и незаменимой: достижение стратегических целей компании тесно связано с вопросом цифровизации бизнес-процессов. Среди множества сводов знаний, применимых к информационным системам: PMBoK, BABoK, BPM CBoK, DAMA-DMBoK, EABoK/TOGAF, SWEBoK, ITIL [3-9], последние два являются наиболее релевантными тематике данной статьи. Свод знаний по программной инженерии, SWEBoK, охватывает весь жизненный цикл информационной системы, в то время как лучшие практики по управлению ИТ-услугами, заданные в ITIL, не ограничиваются рассмотрением только софтверных решений, а представляют все многообразие ИТ-продуктов.

https://habr.com/ru/articles/974724/

#sla #itil4 #ит_услуга #поддержка_по #развитие_по #инцидентменеджмент #инциденты #дефекты #программа #проект

#sla #itil4 #ит_услуга #поддержка_по #развитие_по #инцидентменеджмент

:rss: Информационное агентство @[email protected] · 2025-10-29 · 06:47 UTC

Взрыв в Хмельницком: под завалами многоэтажки обнаружили тела двух погибших
https://www.unian.net/incidents/vzryv-v-hmelnickom-v-rezultate-incidenta-pogibli-dva-cheloveka-13178454.html
#unian #новостиУкраина #Хмельницкий #взрыв #погибшие #инциденты #смерть #ГСЧС

#unian #новостиукраина #хмельницкий #взрыв #погибшие #инциденты

:rss: Информационное агентство @[email protected] · 2025-10-29 · 06:47 UTC

Взрыв в Хмельницком: под завалами многоэтажки обнаружили тела двух погибших
https://www.unian.net/incidents/vzryv-v-hmelnickom-v-rezultate-incidenta-pogibli-dva-cheloveka-13178454.html
#unian #новостиУкраина #Хмельницкий #взрыв #погибшие #инциденты #смерть #ГСЧС

#гсчс #смерть #инциденты #погибшие #взрыв #хмельницкий

:rss: Информационное агентство @[email protected] · 2025-09-08 · 18:39 UTC

В Виннице трем женщинам грозит тюремный срок до 8 лет за стычки с работниками ТЦК
https://www.unian.net/incidents/konflikty-s-tck-v-vinnice-trem-zhenshchinam-grozit-do-8-let-zaklyucheniya-13124313.html
#unian #новостиУкраина #Винница #инциденты #ТЦК #акция #наказание #подозрение #ТЦКиСП #стычки

#unian #новостиукраина #винница #инциденты #тцк #акция

:rss: Информационное агентство @[email protected] · 2025-09-08 · 18:39 UTC

В Виннице трем женщинам грозит тюремный срок до 8 лет за стычки с работниками ТЦК
https://www.unian.net/incidents/konflikty-s-tck-v-vinnice-trem-zhenshchinam-grozit-do-8-let-zaklyucheniya-13124313.html
#unian #новостиУкраина #Винница #инциденты #ТЦК #акция #наказание #подозрение #ТЦКиСП #стычки

#стычки #тцкисп #подозрение #наказание #акция #тцк

Habr @[email protected] · 2025-08-01 · 05:02 UTC

DNS-хаос, зомби-поды и майнеры в кластере: самые невероятные случаи при работе с Kubernetes

Kubernetes — мощный и одновременно сложный инструмент, работа с которым неизбежно порождает… инциденты. И на практике DNS виновата далеко не всегда. Иногда всё ломает слишком длинное имя деплоймента, протухший CA-сертификат или сбой сетевой карты, из-за которого TCP-пакеты просто отбрасываются. В статье вас ждут самые интересные и поучительные инженерные истории с Reddit.

https://habr.com/ru/companies/flant/articles/931902/

#kubernetes #dns #майнеры #зомбиподы #cni #kubedns #stickyсессии #etcd #argo_cd #инциденты

#инциденты #argo_cd #etcd #stickyсессии #kubedns #cni

Habr @[email protected] · 2025-08-01 · 05:02 UTC

DNS-хаос, зомби-поды и майнеры в кластере: самые невероятные случаи при работе с Kubernetes

Kubernetes — мощный и одновременно сложный инструмент, работа с которым неизбежно порождает… инциденты. И на практике DNS виновата далеко не всегда. Иногда всё ломает слишком длинное имя деплоймента, протухший CA-сертификат или сбой сетевой карты, из-за которого TCP-пакеты просто отбрасываются. В статье вас ждут самые интересные и поучительные инженерные истории с Reddit.

https://habr.com/ru/companies/flant/articles/931902/

#kubernetes #dns #майнеры #зомбиподы #cni #kubedns #stickyсессии #etcd #argo_cd #инциденты

#инциденты #argo_cd #etcd #stickyсессии #kubedns #cni

Habr @[email protected] · 2025-08-01 · 05:02 UTC

DNS-хаос, зомби-поды и майнеры в кластере: самые невероятные случаи при работе с Kubernetes

Kubernetes — мощный и одновременно сложный инструмент, работа с которым неизбежно порождает… инциденты. И на практике DNS виновата далеко не всегда. Иногда всё ломает слишком длинное имя деплоймента, протухший CA-сертификат или сбой сетевой карты, из-за которого TCP-пакеты просто отбрасываются. В статье вас ждут самые интересные и поучительные инженерные истории с Reddit.

https://habr.com/ru/companies/flant/articles/931902/

#kubernetes #dns #майнеры #зомбиподы #cni #kubedns #stickyсессии #etcd #argo_cd #инциденты

#инциденты #argo_cd #etcd #stickyсессии #kubedns #cni

Habr @[email protected] · 2025-08-01 · 05:02 UTC

DNS-хаос, зомби-поды и майнеры в кластере: самые невероятные случаи при работе с Kubernetes

Kubernetes — мощный и одновременно сложный инструмент, работа с которым неизбежно порождает… инциденты. И на практике DNS виновата далеко не всегда. Иногда всё ломает слишком длинное имя деплоймента, протухший CA-сертификат или сбой сетевой карты, из-за которого TCP-пакеты просто отбрасываются. В статье вас ждут самые интересные и поучительные инженерные истории с Reddit.

https://habr.com/ru/companies/flant/articles/931902/

#kubernetes #dns #майнеры #зомбиподы #cni #kubedns #stickyсессии #etcd #argo_cd #инциденты

#kubernetes #dns #майнеры #зомбиподы #cni #kubedns

Habr @[email protected] · 2025-07-31 · 08:42 UTC

Почему мониторинг — это ещё не всё. История появления статус пейджей в Statuser

Привет! Меня зовут Михаил Шпаков, я разрабатываю Statuser — платформу для мониторинга доступности сайтов, приложений и серверов. Делаю всё один, по вечерам, без команды. В этой статье я расскажу, как появилась функциональность, которая была в планах с самого начала — публичные страницы статуса . Эта идея зрела давно, и запросы от первых клиентов только ускорили её появление. Объясню, как всё устроено внутри, с какими техническими решениями пришлось столкнуться и почему статус-пейджи — это логичное продолжение любого хорошего мониторинга .

https://habr.com/ru/companies/timeweb/articles/932594/

#мониторинг #статусстраницы #доступность #инциденты #аптайм #уведомления #кастомные_домены #DevOps #Statuser #timeweb_статьи

#timeweb_статьи #statuser #devops #кастомные_домены #уведомления #аптайм

:rss: Информационное агентство @[email protected] · 2025-06-06 · 19:54 UTC

В Одесской области работник ТЦК погиб в результате взрыва автомобиля,
https://www.unian.net/incidents/novosti-odesskoy-oblasti-v-berezovskom-rayone-iz-za-vzryva-avto-pogib-chelovek-novosti-odessy-13030716.html
#unian #новостиУкраина #Одесскаяобласть #новостиОдесскойобласти #инциденты #взрыв #ТЦК #полиция

#unian #новостиукраина #одесскаяобласть #новостиодесскойобласти #инциденты #взрыв

:rss: Информационное агентство @[email protected] · 2025-06-06 · 19:54 UTC

В Одесской области работник ТЦК погиб в результате взрыва автомобиля,
https://www.unian.net/incidents/novosti-odesskoy-oblasti-v-berezovskom-rayone-iz-za-vzryva-avto-pogib-chelovek-novosti-odessy-13030716.html
#unian #новостиУкраина #Одесскаяобласть #новостиОдесскойобласти #инциденты #взрыв #ТЦК #полиция

#полиция #тцк #взрыв #инциденты #новостиодесскойобласти #одесскаяобласть

:rss: Информационное агентство @[email protected] · 2025-06-04 · 09:13 UTC

На Львовщине судили девушку, которая вылезла на дорожный знак и сняла видео под музыку РФ
https://www.unian.net/incidents/na-lvovshchine-devushka-snimala-video-pod-rossiyskuyu-muzyku-chto-reshil-sud-novosti-lvova-13028064.html
#unian #новостиУкраина #Львовскаяобласть #Рава_Русская #войнавУкраине #русскаямузыка #инциденты

#unian #новостиукраина #львовскаяобласть #рава_русская #войнавукраине #русскаямузыка

:rss: Информационное агентство @[email protected] · 2025-06-04 · 09:13 UTC

На Львовщине судили девушку, которая вылезла на дорожный знак и сняла видео под музыку РФ
https://www.unian.net/incidents/na-lvovshchine-devushka-snimala-video-pod-rossiyskuyu-muzyku-chto-reshil-sud-novosti-lvova-13028064.html
#unian #новостиУкраина #Львовскаяобласть #Рава_Русская #войнавУкраине #русскаямузыка #инциденты

#инциденты #русскаямузыка #войнавукраине #рава_русская #львовскаяобласть #новостиукраина

Habr @[email protected] · 2025-06-03 · 06:12 UTC

Как я по вечерам разрабатывал Statuser — платформу для мониторинга доступности приложений

Привет, меня зовут Михаил Шпаков, я руковожу разработкой в Timeweb Cloud — это крупный облачный провайдер с большой командой и множеством внутренних и внешних продуктов. Последние несколько лет в работе стало больше менеджмента: процессы, планирование, встречи, координация команд. Со временем я начал ловить себя на мысли, что очень хочется что-то поделать руками . Вернуться к коду, попробовать собрать продукт от начала и до конца, пройти путь не как менеджер, а как разработчик и автор идеи. Заодно — погрузиться в продуктовую часть, потрогать всё: интерфейсы, фичи, маркетинг, пользовательский опыт. Так родился statuser.cloud — простой сервис для мониторинга доступности сайтов и серверов. Я хотел сделать его: — с минималистичным и понятным интерфейсом, — ориентированным в первую очередь на разработчиков, девопсов, админов , — с набором действительно нужных фич, ничего лишнего. В этой статье я расскажу, как вечерами и на выходных делал Statuser (и продолжаю делать): с какими проблемами сталкивался, как выбирал стек, как не бросил проект на полпути — и что получилось в итоге.

https://habr.com/ru/companies/timeweb/articles/914594/

#statuser #мониторинг #инфраструктура #nestjs #nextjs #инциденты #уведомления #пользователи #отчеты #timeweb_статьи

#timeweb_статьи #отчеты #пользователи #уведомления #инциденты #nextjs

:rss: Информационное агентство @[email protected] · 2025-04-29 · 12:58 UTC

В Чехии во время митинга напали на парня, который держал украинский флаг
https://www.unian.net/incidents/napadenie-na-parnya-v-chehii-stali-izvestny-podrobnosti-incidenta-12993123.html
#unian #новостиУкраина #нападение #Чехия #митинг #инциденты #преступление #полиция

#unian #новостиукраина #нападение #чехия #митинг #инциденты

:rss: Информационное агентство @[email protected] · 2025-04-29 · 12:58 UTC

В Чехии во время митинга напали на парня, который держал украинский флаг
https://www.unian.net/incidents/napadenie-na-parnya-v-chehii-stali-izvestny-podrobnosti-incidenta-12993123.html
#unian #новостиУкраина #нападение #Чехия #митинг #инциденты #преступление #полиция

#полиция #преступление #инциденты #митинг #чехия #нападение

Habr @[email protected] · 2025-04-07 · 05:02 UTC

Сбой с вероятностью один раз в 20 лет: о мартовском инциденте в дата-центре

30 марта сервисы, размещённые в одном из наших основных дата‑центров, оказались недоступны. К инциденту привела авария на опорной подстанции, которая спровоцировала отказ сразу двух вводов питания и последующий каскадный сбой оборудования. В этой статье подробно покажем, какие именно риски сработали — а для этого объясним, как устроено энергоснабжение в дата‑центре и на что это влияет. С этой точки зрения посмотрим, как развивались события в этот день и что бывает в дата‑центре, когда случаются ситуации, вероятность которых оценивается как «один на десятилетия». В завершение расскажем, что планируем делать дальше, чтобы не допустить повторения, и какой урок из этого могут извлечь другие инженеры.

https://habr.com/ru/companies/yandex/articles/897626/

#datacenters #датацентры #цод #инциденты #инцидентменеджмент #аварийные_ситуации #аварии_в_датацентрах #аварии_на_цод

#datacenters #датацентры #цод #инциденты #инцидентменеджмент #аварийные_ситуации

:rss: Информационное агентство @[email protected] · 2025-04-03 · 12:29 UTC

В Киеве прогремели несколько взрывов: погибли два человека
https://www.unian.net/incidents/vzryv-v-kieve-na-rynke-yunost-sdetoniroval-gazovyy-ballon-novosti-kieva-12965376.html
#unian #новостиУкраина #Киев #инциденты #взрыв #новостиКиева

#unian #новостиукраина #киев #инциденты #взрыв #новостикиева

:rss: Информационное агентство @[email protected] · 2025-04-03 · 12:29 UTC

В Киеве прогремели несколько взрывов: погибли два человека
https://www.unian.net/incidents/vzryv-v-kieve-na-rynke-yunost-sdetoniroval-gazovyy-ballon-novosti-kieva-12965376.html
#unian #новостиУкраина #Киев #инциденты #взрыв #новостиКиева

#новостикиева #взрыв #инциденты #киев #новостиукраина #unian

:rss: Информационное агентство @[email protected] · 2025-04-03 · 12:09 UTC

На столичном рынке "Юность" произошел взрыв: есть погибший
https://www.unian.net/incidents/vzryv-v-kieve-na-rynke-yunost-sdetoniroval-gazovyy-ballon-novosti-kieva-12965376.html
#unian #новостиУкраина #Киев #инциденты #взрыв #новостиКиева

#unian #новостиукраина #киев #инциденты #взрыв #новостикиева

:rss: Информационное агентство @[email protected] · 2025-04-03 · 12:09 UTC

На столичном рынке "Юность" произошел взрыв: есть погибший
https://www.unian.net/incidents/vzryv-v-kieve-na-rynke-yunost-sdetoniroval-gazovyy-ballon-novosti-kieva-12965376.html
#unian #новостиУкраина #Киев #инциденты #взрыв #новостиКиева

#новостикиева #взрыв #инциденты #киев #новостиукраина #unian

Habr @[email protected] · 2025-04-03 · 11:02 UTC

Решаем проблемы роста нагрузки в умных домах

Всем привет! Меня зовут Вадим Трегубов, я техлид бекэнда платформы умного дома в SberDevices. Я расскажу о проблемах роста нагрузки, возникающие у проектов интернета вещей и решениях, помогают их избежать. Всё началось с того, что мы хотели избавиться от vendor-lock. К 2022 году мы уже наработали свои платформенные сервисы: управление голосом, создание сценария автоматизации. Хотелось их использовать еще шире, глубже и качественнее. Плюс ко всему, мы бы имели полный цикл поддержки устройств: выпуск их на рынок, обновление прошивок, докатка и улучшение пользовательского опыта. Учитывая особенности работы с IoT, мы сформулировали требования к архитектуре... Читать дальше

https://habr.com/ru/companies/oleg-bunin/articles/896872/

#golang #iot #vendor_lock #архитектура #nats #mqtt #инциденты #tcp #github #нагрузка

#golang #iot #vendor_lock #архитектура #nats #mqtt

Habr @[email protected] · 2025-03-21 · 07:52 UTC

Повышение качества выпускаемого ПО путем работы с инцидентами

Всем привет! Меня зовут Даша Мельникова, я ведущий релиз-менеджер в МКБ. В рамках этой статьи буду говорить об инцидентах, которые переходят на третью линию (на команду разработки). А еще о такой сущности, как инцидент ЗНО. Это сервисный запрос, обращение пользователя, в рамках которого мы лишь консультируем человека, а не правим код, то есть просто даем советы. Но если в рамках консультации возникает необходимость что-то доработать, то это выливается в создание новой фичи.

https://habr.com/ru/companies/mkb/articles/892962/

#инциденты #инцидентменеджмент #отказоустойчивые_системы #стабильность_системы

#стабильность_системы #отказоустойчивые_системы #инцидентменеджмент #инциденты

:rss: Информационное агентство @[email protected] · 2025-03-14 · 10:01 UTC

В Одессе застрелили известного активиста
https://www.unian.net/incidents/v-odesse-zastrelili-izvestnogo-aktivista-smi-novosti-odessy-12944991.html
#unian #новостиУкраина #ДемьянГанул #Одесса #убийство #преступления #инциденты #Нацполиция

#unian #новостиукраина #демьянганул #одесса #убийство #преступления

:rss: Информационное агентство @[email protected] · 2025-03-14 · 10:01 UTC

В Одессе застрелили известного активиста
https://www.unian.net/incidents/v-odesse-zastrelili-izvestnogo-aktivista-smi-novosti-odessy-12944991.html
#unian #новостиУкраина #ДемьянГанул #Одесса #убийство #преступления #инциденты #Нацполиция

#нацполиция #инциденты #преступления #убийство #одесса #демьянганул

Habr @[email protected] · 2025-02-13 · 20:32 UTC

Agile-романтика: Kanban доска для счастливых отношений

Жизнь в ИТ не простая, работа, таски, дедлайны, мониторинг серверов, случайные падения кластера среди ночи... и где-то в этом хаосе есть ещё и личная жизнь. Проблема в том, что если в проде у тебя всегда есть система мониторинга, то в отношениях её нет. Или есть, то только в виде пассивно-агрессивного вопроса перед сном "Тебе не кажется, что ты мало времени уделяешь семье?". Поэтому, сейчас мы разберёмся как можно сделать Kanban-доску в Taiga и попробуем сделать из хаоса порядок. Ведь мы можем поддерживать 99.99% аптайма в проде, почему бы не попытаться добиться хотя бы 80% в личной жизни?

https://habr.com/ru/companies/aeza/articles/882348/

#devops #Kanban #taiga #мониторинг #инциденты #автоматизация #Ретроспектива #Отношения #aglie #cicd

#devops #kanban #taiga #мониторинг #инциденты #автоматизация

Habr @[email protected] · 2025-01-13 · 18:22 UTC

Detection is easy. Устанавливаем OPNSense и настраиваем NetFlow

Продолжаем серию статей. - Detection is easy , посвященных Detection engineering (DE), о чем я пишу в одноименном Telegram-канале . Сегодня мы рассмотрим установку OPNSense на Proxmox и настройку отправки NetFlow на коллектор ElastiFlow, который мы настроили в прошлой статье . Для начала подключимся к Proxmox VE и создадим виртуальную машину с двумя интерфейсами.

https://habr.com/ru/articles/873382/

#информационная_безопасность #мониторинг #мониторинг_сети #инцидент_кибербезопасности #инциденты_иб #инциденты_безопасности #инцидент #инциденты #обнаружение_атак #обнаружение_аномалий