#инциденты — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #инциденты, aggregated by home.social.
-
Между нами SLA: как бизнесу и поддержке договориться до первого инцидента
Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает без лишних споров переживать такие моменты.
https://habr.com/ru/articles/1032878/
#системное_администрирование #devops #sla #техническая_поддержка #мониторинг_сервера #инциденты #ревью_кода #рефакторинг #аварийное_восстановление #аварийные_ситуации
-
Между нами SLA: как бизнесу и поддержке договориться до первого инцидента
Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает без лишних споров переживать такие моменты.
https://habr.com/ru/articles/1032878/
#системное_администрирование #devops #sla #техническая_поддержка #мониторинг_сервера #инциденты #ревью_кода #рефакторинг #аварийное_восстановление #аварийные_ситуации
-
Между нами SLA: как бизнесу и поддержке договориться до первого инцидента
Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает без лишних споров переживать такие моменты.
https://habr.com/ru/articles/1032878/
#системное_администрирование #devops #sla #техническая_поддержка #мониторинг_сервера #инциденты #ревью_кода #рефакторинг #аварийное_восстановление #аварийные_ситуации
-
Между нами SLA: как бизнесу и поддержке договориться до первого инцидента
Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает без лишних споров переживать такие моменты.
https://habr.com/ru/articles/1032878/
#системное_администрирование #devops #sla #техническая_поддержка #мониторинг_сервера #инциденты #ревью_кода #рефакторинг #аварийное_восстановление #аварийные_ситуации
-
Как понять, что мониторинг в ЦОДе шумит
Днём на работе вокруг всегда коллеги, созвоны, обсуждения в чатах. Если что-то непонятно, можно быстро спросить совета у более опытных инженеров. Ночью всё по-другому. Дежурный остаётся один на один с системой оповещений, и разбираться приходится самостоятельно. Наверное, поэтому одна из самых странных вещей в мониторинге проявляется именно ночью. На одном из дежурств мне за несколько часов пришло больше десятка уведомлений. То температура в стойке подскочила на пару градусов. То CPU неожиданно преодолел порог. То один из дисков выдал предупреждение SMART. Конечно, я проверял каждый сигнал, смотрел графики, открывал логи и переключался между дашбордами. Но метрики и без этого возвращались к исходным значениям, и всё продолжало работать как обычно. К утру инфраструктура так и не полыхнула синим пламенем, зато система оповещений просто разрывалась. Так я впервые узнал об «усталости от алертов» и начал искать способ справиться с этой проблемой.
https://habr.com/ru/companies/X5Tech/articles/1027518/
#цод #мониторинг #алертинг #oncall #дежурства #инфраструктура #runbook #инциденты #резервирование #latency
-
Не просто дашборд: как DORA-метрики помогли нам сократить инциденты на 80%
DORA-метрики легко обсуждать как что-то довольно очевидное: выбрал четыре показателя, подключил данные, построил графики — готово. На практике все интересное начинается в тот момент, когда пытаешься сделать это не в презентации, а в живой компании с сотнями сервисов, разными сценариями деплоя и командами, у каждой из которых свой способ довозить код до прода. В Островке из этой задачи в итоге вырос отдельный сервис: он собирает события о релизах, связывает их с изменениями в GitLab, сопоставляет с инцидентами и отдаёт данные в Grafana. На MVP мы покрыли 90% проектов, а после регулярного разбора метрик и автоматизации узких мест количество критичных сбоев по последним данным снизилось на 80% . Под катом — история о том, как мы к этому пришли: откуда брали данные для DORA-метрик, как считали их в условиях очень разных релизных процессов и почему самой сложной частью оказалось не нарисовать графики, а вообще договориться с реальностью.
https://habr.com/ru/companies/ostrovok/articles/1024148/
#dora_metrics #django #backend #метрики #инциденты #стабильность #деплой #python #gitlab
-
Хроники Облачного княжества: как я приручал монолит‑дракона: Орден SLO и игла Кощея
Часть 3. Самая опасная магия в IT — это магия целей. Потому что цель легко обещает, а потом требует процентами отчёта. Есть особый вид страха, который появляется у инженера, когда два календаря совпадают.
https://habr.com/ru/articles/1024126/
#инциденты #продакшн #DevOps #SRE #мониторинг #микросервисы #база_данных #отказоустойчивость #постмортем
-
Хроники Облачного княжества: как я приручал монолит‑дракона: Ночной алерт и инквизиция безопасности
Часть 2. Если вам кажется, что инцидент — это про баги, вы просто ещё не видели, как баги превращаются в совещания. Первый ночной алерт приходит в момент, когда организм ещё верит, что сон — это базовая потребность, а не роскошь уровня «enterprise». Пейджер‑амулет (теперь уже и на моём поясе) запел так, будто ему лично не понравилось моё решение спать. Текст был коротким:
https://habr.com/ru/articles/1022760/
#инциденты #продакшн #DevOps #SRE #мониторинг #микросервисы #база_данных #отказоустойчивость #постмортем
-
Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.
По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.
Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.
#роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS
-
Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.
По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.
Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.
#роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS
-
Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.
По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.
Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.
#роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS
-
Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.
По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.
Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.
#роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS
-
Инцидент с Unitree G1 — это не курьёз, а наглядная демонстрация системного риска киберфизических систем. Ошибка в софте, сенсорах или управлении в случае LLM остаётся на уровне текста; в случае роботизированной платформы она немедленно материализуется в силу, импульс и травму.
По мере масштабирования внедрения человекоподобных машин плотность таких инцидентов будет расти — это статистика, а не предположение. Следовательно, ключевой вектор — не «запретить», а ужесточить инженерные практики: fail-safe архитектуры, ограничение усилий (force limiting), безопасные режимы по умолчанию, стандарты сертификации и протоколы взаимодействия с человеком.
Иначе рынок получит не «умных помощников», а источник регулярных травм с предсказуемым репутационным и регуляторным откатом.
#роботы #искусственныйинтеллект #технобезопасность #Unitree #робототехника #AIриски #человекомашинное_взаимодействие #киберфизические_системы #автоматизация #инциденты #безопасность #технологии #будущее #LLM #AI #роботика #рискиИИ #humanrobotinteraction #safetyengineering #failures
https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS
-
[Перевод] LLM вместо «прочитаем потом»: анализ постмортемов и паттерны инцидентов
Инциденты копятся годами, постмортемы пылятся в архивах, а стратегические выводы растворяются в операционной рутине. В Zalando решили проверить, можно ли превратить этот массив опыта в инструмент для принятия инженерных решений – с помощью LLM и многоэтапного анализа. В статье – практический разбор пайплайна, ограничений моделей и того, как связка SRE и ИИ помогает техническому руководителю видеть системные риски раньше, чем они снова выйдут в прод.
https://habr.com/ru/companies/otus/articles/1000366/
#sre #постмортемы #инциденты #управление_надёжностью #LLM #галлюцинации #humanintheloop
-
Ночь с пятницы на понедельник: борьба за устойчивость, когда облако дало сбой
…Был обычный ноябрьский вечер, 2024 год шёл к своему завершению: на носу была «чёрная пятница». Я вернулся домой в Новосибирск из почти двухнедельной командировки, пробыв в пути 12 часов и поспав часа четыре. В 19:07 алерт сообщил мне о падении одного из контроллеров. В целом, проблема не критичная, так как сервисы зарезервированы. Но всё же одним глазом я заглянул в чат с разбором. Через час ситуация стремительно ухудшилась: каскадом начали отказывать узлы, отвечающие за внешнюю связность. А затем развитие событий приняло фатальный оборот — в какой‑то момент одновременно отказали сервисы внешней связности сразу в двух зонах доступности… Это был один из самых крупных региональных инцидентов в облаке, после которого мы многое изменили в сети, чтобы сделать её устойчивее . С того момента прошло больше года, так что пришла пора рассказать эту историю от начала и до конца. В прошлой статье я уже показал наши основные подходы к повышению отказоустойчивости в этой ситуации. Однако за кадром остался сам процесс разработки новых решений и то, как мы мыслили, чтобы найти наилучший выход. Сегодня расскажу об этом подробнее. Статья основана на моём недавнем выступлении на Highload++ и дополнена по следам дальнейших расследований инцидентов.
https://habr.com/ru/companies/yandex/articles/992520/
#надежность #sla #отказоустойчивость #инцидентменеджмент #инциденты #отказоустойчивые_системы #отказоустойчивость_сетей
-
Утечка, которой не было: как Next.js раздувает RAM в Kubernetes
Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать. В декабре, перед самым Новым годом, наше приложение начало вести себя так, будто вот-вот рухнет. С ростом пользователей посыпались алерты, вырос трафик, а из команды мониторинга сообщили, что поды в Kubernetes перезагружаются. Пока не падают, но выглядят плохо. В этот момент я занимался архитектурой и оптимизацией Node.js в музыкальном стриминге. Открыл графики и увидел явный рост памяти, который уходил в пик и приводил к перезапуску подов. Так началась «классическая предновогодняя история». Next.js в Kubernetes внезапно начал есть память так, будто у него внутри чёрная дыра.
https://habr.com/ru/companies/X5Tech/articles/976808/
#nextjs #nodejs #kubernetes #утечка_памяти #ram #heap #page_cache #prometheus #grafana #инциденты
-
Утечка, которой не было: как Next.js раздувает RAM в Kubernetes
Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать. В декабре, перед самым Новым годом, наше приложение начало вести себя так, будто вот-вот рухнет. С ростом пользователей посыпались алерты, вырос трафик, а из команды мониторинга сообщили, что поды в Kubernetes перезагружаются. Пока не падают, но выглядят плохо. В этот момент я занимался архитектурой и оптимизацией Node.js в музыкальном стриминге. Открыл графики и увидел явный рост памяти, который уходил в пик и приводил к перезапуску подов. Так началась «классическая предновогодняя история». Next.js в Kubernetes внезапно начал есть память так, будто у него внутри чёрная дыра.
https://habr.com/ru/companies/X5Tech/articles/976808/
#nextjs #nodejs #kubernetes #утечка_памяти #ram #heap #page_cache #prometheus #grafana #инциденты
-
Утечка, которой не было: как Next.js раздувает RAM в Kubernetes
Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать. В декабре, перед самым Новым годом, наше приложение начало вести себя так, будто вот-вот рухнет. С ростом пользователей посыпались алерты, вырос трафик, а из команды мониторинга сообщили, что поды в Kubernetes перезагружаются. Пока не падают, но выглядят плохо. В этот момент я занимался архитектурой и оптимизацией Node.js в музыкальном стриминге. Открыл графики и увидел явный рост памяти, который уходил в пик и приводил к перезапуску подов. Так началась «классическая предновогодняя история». Next.js в Kubernetes внезапно начал есть память так, будто у него внутри чёрная дыра.
https://habr.com/ru/companies/X5Tech/articles/976808/
#nextjs #nodejs #kubernetes #утечка_памяти #ram #heap #page_cache #prometheus #grafana #инциденты
-
Утечка, которой не было: как Next.js раздувает RAM в Kubernetes
Привет, Хабр! Меня зовут Вадим Королёв. Я руководитель команды разработки в X5 Tech. Очень люблю Next.js и решать проблемы, которые он приносит. С ним всегда происходит что-то интересное. Расскажу о причине утечки памяти в Node.js, которая оказалась глубже, чем можно было подумать. В декабре, перед самым Новым годом, наше приложение начало вести себя так, будто вот-вот рухнет. С ростом пользователей посыпались алерты, вырос трафик, а из команды мониторинга сообщили, что поды в Kubernetes перезагружаются. Пока не падают, но выглядят плохо. В этот момент я занимался архитектурой и оптимизацией Node.js в музыкальном стриминге. Открыл графики и увидел явный рост памяти, который уходил в пик и приводил к перезапуску подов. Так началась «классическая предновогодняя история». Next.js в Kubernetes внезапно начал есть память так, будто у него внутри чёрная дыра.
https://habr.com/ru/companies/X5Tech/articles/976808/
#nextjs #nodejs #kubernetes #утечка_памяти #ram #heap #page_cache #prometheus #grafana #инциденты
-
Кибербезопасность за 30 дней. Чек-лист для руководителей
Дверь кабинета распахнулась в три часа ночи. Бледный технический директор, голос дрожит: « Всё. Системы мертвы. Они требуют два миллиона в биткоинах ». В голове мелькнула мысль: « Это же фильм какой-то... » Но на мониторах уже мигали красные надписи, а в телефоне зашкаливало количество звонков от клиентов, партнёров, регуляторов. А когда расследование показало, что хакеры вошли через устаревшую версию WordPress и учётную запись менеджера с правами администратора, он схватился за голову. Не суперхакеры взломали миллиардный бизнес. Его развалили банальные человеческие ошибки и пренебрежение рутиной. Те самые «мелочи», ради которых ИТ-специалисты годами просили внимания.
https://habr.com/ru/articles/980290/
#кибербезопасность #уязвимости #доступ #аудит #данные #риски #защита #инциденты #контроль #восстановление
-
Побойтесь ДевОпса сударь…
Как-то, у нашей компании накопился ряд задач, связанных с администрированием наших серверов, и руководство приняло решение, что всё-таки нам нужен DevOps, который закроет наши вопросы и будет в долгую сопровождать нашу команду. Решились. Разместили на https://hh.ru/ вакансию. Нашли человека в городе М.. Руководству было важно, чтобы он был с того же города, где и компания. Но мы никак не могли предположить, что этот человек, который проработал с нами буквально 6 месяцев, чуть не потопил всю нашу компанию. Но, обо всём по порядку.
https://habr.com/ru/articles/977526/
#девопс #devops #proxmox #администрирование_серверов #инциденты #человеческий_фактор #внутренние_угрозы #резервное_копирование #rbac #iam
-
Свод знаний ITIL для управления ИТ-услугами в ERP-проектах
Программное обеспечение прошло долгий путь от набора команд до комплексных софтверных человеко-технических систем. Небольшие программные разработки, призванные решать локальные задачи, постепенно превратились в набор приложений, далее появились программные системы, включающие организационную составляющую, а позже – информационные системы как совокупность человека, техники и программных продуктов. Логическую последовательность завершили корпоративные информационные системы, объединившие в себе множество информационных систем [1]. Корпоративные информационные системы позволяют автоматизировать набор бизнес-процессов. Чем больше процессов, тем представительнее стандарт, цифровизирующий их. Так наиболее известным и востребованным классом систем является ERP [2]. ERP-системы охватывают практические все административно-хозяйственные операции компании и представляют средства для их автоматизации. Помимо ERP доступен широкий набор прочих классов: MRP, TMS, WMS, APS, BI, MES и др. Если раньше идея объединить все стандарты в единый класс казалась обоснованной, то на текущий момент – это утопия, так как слишком стремительно развиваются технологии и появляются новые виды систем. Потребность в управлении различными классами программных систем, являющихся основой функционирования современного предприятия, становится все более востребованной и незаменимой: достижение стратегических целей компании тесно связано с вопросом цифровизации бизнес-процессов. Среди множества сводов знаний, применимых к информационным системам: PMBoK, BABoK, BPM CBoK, DAMA-DMBoK, EABoK/TOGAF, SWEBoK, ITIL [3-9], последние два являются наиболее релевантными тематике данной статьи. Свод знаний по программной инженерии, SWEBoK, охватывает весь жизненный цикл информационной системы, в то время как лучшие практики по управлению ИТ-услугами, заданные в ITIL, не ограничиваются рассмотрением только софтверных решений, а представляют все многообразие ИТ-продуктов.
https://habr.com/ru/articles/974724/
#sla #itil4 #ит_услуга #поддержка_по #развитие_по #инцидентменеджмент #инциденты #дефекты #программа #проект
-
Взрыв в Хмельницком: под завалами многоэтажки обнаружили тела двух погибших
https://www.unian.net/incidents/vzryv-v-hmelnickom-v-rezultate-incidenta-pogibli-dva-cheloveka-13178454.html
#unian #новостиУкраина #Хмельницкий #взрыв #погибшие #инциденты #смерть #ГСЧС -
Взрыв в Хмельницком: под завалами многоэтажки обнаружили тела двух погибших
https://www.unian.net/incidents/vzryv-v-hmelnickom-v-rezultate-incidenta-pogibli-dva-cheloveka-13178454.html
#unian #новостиУкраина #Хмельницкий #взрыв #погибшие #инциденты #смерть #ГСЧС -
В Виннице трем женщинам грозит тюремный срок до 8 лет за стычки с работниками ТЦК
https://www.unian.net/incidents/konflikty-s-tck-v-vinnice-trem-zhenshchinam-grozit-do-8-let-zaklyucheniya-13124313.html
#unian #новостиУкраина #Винница #инциденты #ТЦК #акция #наказание #подозрение #ТЦКиСП #стычки -
В Виннице трем женщинам грозит тюремный срок до 8 лет за стычки с работниками ТЦК
https://www.unian.net/incidents/konflikty-s-tck-v-vinnice-trem-zhenshchinam-grozit-do-8-let-zaklyucheniya-13124313.html
#unian #новостиУкраина #Винница #инциденты #ТЦК #акция #наказание #подозрение #ТЦКиСП #стычки -
DNS-хаос, зомби-поды и майнеры в кластере: самые невероятные случаи при работе с Kubernetes
Kubernetes — мощный и одновременно сложный инструмент, работа с которым неизбежно порождает… инциденты. И на практике DNS виновата далеко не всегда. Иногда всё ломает слишком длинное имя деплоймента, протухший CA-сертификат или сбой сетевой карты, из-за которого TCP-пакеты просто отбрасываются. В статье вас ждут самые интересные и поучительные инженерные истории с Reddit.
https://habr.com/ru/companies/flant/articles/931902/
#kubernetes #dns #майнеры #зомбиподы #cni #kubedns #stickyсессии #etcd #argo_cd #инциденты
-
DNS-хаос, зомби-поды и майнеры в кластере: самые невероятные случаи при работе с Kubernetes
Kubernetes — мощный и одновременно сложный инструмент, работа с которым неизбежно порождает… инциденты. И на практике DNS виновата далеко не всегда. Иногда всё ломает слишком длинное имя деплоймента, протухший CA-сертификат или сбой сетевой карты, из-за которого TCP-пакеты просто отбрасываются. В статье вас ждут самые интересные и поучительные инженерные истории с Reddit.
https://habr.com/ru/companies/flant/articles/931902/
#kubernetes #dns #майнеры #зомбиподы #cni #kubedns #stickyсессии #etcd #argo_cd #инциденты
-
DNS-хаос, зомби-поды и майнеры в кластере: самые невероятные случаи при работе с Kubernetes
Kubernetes — мощный и одновременно сложный инструмент, работа с которым неизбежно порождает… инциденты. И на практике DNS виновата далеко не всегда. Иногда всё ломает слишком длинное имя деплоймента, протухший CA-сертификат или сбой сетевой карты, из-за которого TCP-пакеты просто отбрасываются. В статье вас ждут самые интересные и поучительные инженерные истории с Reddit.
https://habr.com/ru/companies/flant/articles/931902/
#kubernetes #dns #майнеры #зомбиподы #cni #kubedns #stickyсессии #etcd #argo_cd #инциденты
-
DNS-хаос, зомби-поды и майнеры в кластере: самые невероятные случаи при работе с Kubernetes
Kubernetes — мощный и одновременно сложный инструмент, работа с которым неизбежно порождает… инциденты. И на практике DNS виновата далеко не всегда. Иногда всё ломает слишком длинное имя деплоймента, протухший CA-сертификат или сбой сетевой карты, из-за которого TCP-пакеты просто отбрасываются. В статье вас ждут самые интересные и поучительные инженерные истории с Reddit.
https://habr.com/ru/companies/flant/articles/931902/
#kubernetes #dns #майнеры #зомбиподы #cni #kubedns #stickyсессии #etcd #argo_cd #инциденты
-
Почему мониторинг — это ещё не всё. История появления статус пейджей в Statuser
Привет! Меня зовут Михаил Шпаков, я разрабатываю Statuser — платформу для мониторинга доступности сайтов, приложений и серверов. Делаю всё один, по вечерам, без команды. В этой статье я расскажу, как появилась функциональность, которая была в планах с самого начала — публичные страницы статуса . Эта идея зрела давно, и запросы от первых клиентов только ускорили её появление. Объясню, как всё устроено внутри, с какими техническими решениями пришлось столкнуться и почему статус-пейджи — это логичное продолжение любого хорошего мониторинга .
https://habr.com/ru/companies/timeweb/articles/932594/
#мониторинг #статусстраницы #доступность #инциденты #аптайм #уведомления #кастомные_домены #DevOps #Statuser #timeweb_статьи
-
В Одесской области работник ТЦК погиб в результате взрыва автомобиля,
https://www.unian.net/incidents/novosti-odesskoy-oblasti-v-berezovskom-rayone-iz-za-vzryva-avto-pogib-chelovek-novosti-odessy-13030716.html
#unian #новостиУкраина #Одесскаяобласть #новостиОдесскойобласти #инциденты #взрыв #ТЦК #полиция -
В Одесской области работник ТЦК погиб в результате взрыва автомобиля,
https://www.unian.net/incidents/novosti-odesskoy-oblasti-v-berezovskom-rayone-iz-za-vzryva-avto-pogib-chelovek-novosti-odessy-13030716.html
#unian #новостиУкраина #Одесскаяобласть #новостиОдесскойобласти #инциденты #взрыв #ТЦК #полиция -
На Львовщине судили девушку, которая вылезла на дорожный знак и сняла видео под музыку РФ
https://www.unian.net/incidents/na-lvovshchine-devushka-snimala-video-pod-rossiyskuyu-muzyku-chto-reshil-sud-novosti-lvova-13028064.html
#unian #новостиУкраина #Львовскаяобласть #Рава_Русская #войнавУкраине #русскаямузыка #инциденты -
На Львовщине судили девушку, которая вылезла на дорожный знак и сняла видео под музыку РФ
https://www.unian.net/incidents/na-lvovshchine-devushka-snimala-video-pod-rossiyskuyu-muzyku-chto-reshil-sud-novosti-lvova-13028064.html
#unian #новостиУкраина #Львовскаяобласть #Рава_Русская #войнавУкраине #русскаямузыка #инциденты -
Как я по вечерам разрабатывал Statuser — платформу для мониторинга доступности приложений
Привет, меня зовут Михаил Шпаков, я руковожу разработкой в Timeweb Cloud — это крупный облачный провайдер с большой командой и множеством внутренних и внешних продуктов. Последние несколько лет в работе стало больше менеджмента: процессы, планирование, встречи, координация команд. Со временем я начал ловить себя на мысли, что очень хочется что-то поделать руками . Вернуться к коду, попробовать собрать продукт от начала и до конца, пройти путь не как менеджер, а как разработчик и автор идеи. Заодно — погрузиться в продуктовую часть, потрогать всё: интерфейсы, фичи, маркетинг, пользовательский опыт. Так родился statuser.cloud — простой сервис для мониторинга доступности сайтов и серверов. Я хотел сделать его: — с минималистичным и понятным интерфейсом, — ориентированным в первую очередь на разработчиков, девопсов, админов , — с набором действительно нужных фич, ничего лишнего. В этой статье я расскажу, как вечерами и на выходных делал Statuser (и продолжаю делать): с какими проблемами сталкивался, как выбирал стек, как не бросил проект на полпути — и что получилось в итоге.
https://habr.com/ru/companies/timeweb/articles/914594/
#statuser #мониторинг #инфраструктура #nestjs #nextjs #инциденты #уведомления #пользователи #отчеты #timeweb_статьи
-
В Чехии во время митинга напали на парня, который держал украинский флаг
https://www.unian.net/incidents/napadenie-na-parnya-v-chehii-stali-izvestny-podrobnosti-incidenta-12993123.html
#unian #новостиУкраина #нападение #Чехия #митинг #инциденты #преступление #полиция -
В Чехии во время митинга напали на парня, который держал украинский флаг
https://www.unian.net/incidents/napadenie-na-parnya-v-chehii-stali-izvestny-podrobnosti-incidenta-12993123.html
#unian #новостиУкраина #нападение #Чехия #митинг #инциденты #преступление #полиция -
Сбой с вероятностью один раз в 20 лет: о мартовском инциденте в дата-центре
30 марта сервисы, размещённые в одном из наших основных дата‑центров, оказались недоступны. К инциденту привела авария на опорной подстанции, которая спровоцировала отказ сразу двух вводов питания и последующий каскадный сбой оборудования. В этой статье подробно покажем, какие именно риски сработали — а для этого объясним, как устроено энергоснабжение в дата‑центре и на что это влияет. С этой точки зрения посмотрим, как развивались события в этот день и что бывает в дата‑центре, когда случаются ситуации, вероятность которых оценивается как «один на десятилетия». В завершение расскажем, что планируем делать дальше, чтобы не допустить повторения, и какой урок из этого могут извлечь другие инженеры.
https://habr.com/ru/companies/yandex/articles/897626/
#datacenters #датацентры #цод #инциденты #инцидентменеджмент #аварийные_ситуации #аварии_в_датацентрах #аварии_на_цод
-
В Киеве прогремели несколько взрывов: погибли два человека
https://www.unian.net/incidents/vzryv-v-kieve-na-rynke-yunost-sdetoniroval-gazovyy-ballon-novosti-kieva-12965376.html
#unian #новостиУкраина #Киев #инциденты #взрыв #новостиКиева -
В Киеве прогремели несколько взрывов: погибли два человека
https://www.unian.net/incidents/vzryv-v-kieve-na-rynke-yunost-sdetoniroval-gazovyy-ballon-novosti-kieva-12965376.html
#unian #новостиУкраина #Киев #инциденты #взрыв #новостиКиева -
На столичном рынке "Юность" произошел взрыв: есть погибший
https://www.unian.net/incidents/vzryv-v-kieve-na-rynke-yunost-sdetoniroval-gazovyy-ballon-novosti-kieva-12965376.html
#unian #новостиУкраина #Киев #инциденты #взрыв #новостиКиева -
На столичном рынке "Юность" произошел взрыв: есть погибший
https://www.unian.net/incidents/vzryv-v-kieve-na-rynke-yunost-sdetoniroval-gazovyy-ballon-novosti-kieva-12965376.html
#unian #новостиУкраина #Киев #инциденты #взрыв #новостиКиева -
Решаем проблемы роста нагрузки в умных домах
Всем привет! Меня зовут Вадим Трегубов, я техлид бекэнда платформы умного дома в SberDevices. Я расскажу о проблемах роста нагрузки, возникающие у проектов интернета вещей и решениях, помогают их избежать. Всё началось с того, что мы хотели избавиться от vendor-lock. К 2022 году мы уже наработали свои платформенные сервисы: управление голосом, создание сценария автоматизации. Хотелось их использовать еще шире, глубже и качественнее. Плюс ко всему, мы бы имели полный цикл поддержки устройств: выпуск их на рынок, обновление прошивок, докатка и улучшение пользовательского опыта. Учитывая особенности работы с IoT, мы сформулировали требования к архитектуре... Читать дальше
https://habr.com/ru/companies/oleg-bunin/articles/896872/
#golang #iot #vendor_lock #архитектура #nats #mqtt #инциденты #tcp #github #нагрузка
-
Повышение качества выпускаемого ПО путем работы с инцидентами
Всем привет! Меня зовут Даша Мельникова, я ведущий релиз-менеджер в МКБ. В рамках этой статьи буду говорить об инцидентах, которые переходят на третью линию (на команду разработки). А еще о такой сущности, как инцидент ЗНО. Это сервисный запрос, обращение пользователя, в рамках которого мы лишь консультируем человека, а не правим код, то есть просто даем советы. Но если в рамках консультации возникает необходимость что-то доработать, то это выливается в создание новой фичи.
https://habr.com/ru/companies/mkb/articles/892962/
#инциденты #инцидентменеджмент #отказоустойчивые_системы #стабильность_системы
-
В Одессе застрелили известного активиста
https://www.unian.net/incidents/v-odesse-zastrelili-izvestnogo-aktivista-smi-novosti-odessy-12944991.html
#unian #новостиУкраина #ДемьянГанул #Одесса #убийство #преступления #инциденты #Нацполиция -
В Одессе застрелили известного активиста
https://www.unian.net/incidents/v-odesse-zastrelili-izvestnogo-aktivista-smi-novosti-odessy-12944991.html
#unian #новостиУкраина #ДемьянГанул #Одесса #убийство #преступления #инциденты #Нацполиция -
Agile-романтика: Kanban доска для счастливых отношений
Жизнь в ИТ не простая, работа, таски, дедлайны, мониторинг серверов, случайные падения кластера среди ночи... и где-то в этом хаосе есть ещё и личная жизнь. Проблема в том, что если в проде у тебя всегда есть система мониторинга, то в отношениях её нет. Или есть, то только в виде пассивно-агрессивного вопроса перед сном "Тебе не кажется, что ты мало времени уделяешь семье?". Поэтому, сейчас мы разберёмся как можно сделать Kanban-доску в Taiga и попробуем сделать из хаоса порядок. Ведь мы можем поддерживать 99.99% аптайма в проде, почему бы не попытаться добиться хотя бы 80% в личной жизни?
https://habr.com/ru/companies/aeza/articles/882348/
#devops #Kanban #taiga #мониторинг #инциденты #автоматизация #Ретроспектива #Отношения #aglie #cicd
-
Detection is easy. Устанавливаем OPNSense и настраиваем NetFlow
Продолжаем серию статей. - Detection is easy , посвященных Detection engineering (DE), о чем я пишу в одноименном Telegram-канале . Сегодня мы рассмотрим установку OPNSense на Proxmox и настройку отправки NetFlow на коллектор ElastiFlow, который мы настроили в прошлой статье . Для начала подключимся к Proxmox VE и создадим виртуальную машину с двумя интерфейсами.
https://habr.com/ru/articles/873382/
#информационная_безопасность #мониторинг #мониторинг_сети #инцидент_кибербезопасности #инциденты_иб #инциденты_безопасности #инцидент #инциденты #обнаружение_атак #обнаружение_аномалий
-
В центре Варшавы мужчина сбил на авто украинку и ударил ее в спину
https://www.unian.net/incidents/polyak-napal-na-ukrainku-v-varshave-stali-izvestny-podrobnosti-incidenta-12873498.html
#unian #новостиУкраина #Польша #Варшава #Украина #нападение #насилие #инциденты