#архитектура_данных — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-14 · 11:02 UTC

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.

https://habr.com/ru/articles/1035136/

#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba

#dba #data_vault #архитектура_данных #data_engineering #lakehouse #trino

Habr @[email protected] · 2026-05-14 · 11:02 UTC

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.

https://habr.com/ru/articles/1035136/

#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba

#dba #data_vault #архитектура_данных #data_engineering #lakehouse #trino

Habr @[email protected] · 2026-05-14 · 11:02 UTC

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.

https://habr.com/ru/articles/1035136/

#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba

#dba #data_vault #архитектура_данных #data_engineering #lakehouse #trino

Habr @[email protected] · 2026-05-14 · 11:02 UTC

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.

https://habr.com/ru/articles/1035136/

#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba

#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse

Habr @[email protected] · 2026-04-19 · 16:52 UTC

Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков

Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения. Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?

https://habr.com/ru/articles/1025328/

#BI #DWH #OLAP #DAX #MDX #архитектура_данных #rapeed #аналитика_данных #clickhouse #superset

#superset #clickhouse #аналитика_данных #rapeed #архитектура_данных #mdx

Habr @[email protected] · 2026-05-11 · 16:42 UTC

ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой

Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.

https://habr.com/ru/companies/otus/articles/1022158/

#clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных

#архитектура_данных #olap #kafka #аналитика_данных #big_data #nosql

Habr @[email protected] · 2026-05-11 · 16:42 UTC

ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой

Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.

https://habr.com/ru/companies/otus/articles/1022158/

#clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных

#архитектура_данных #olap #kafka #аналитика_данных #big_data #nosql

Habr @[email protected] · 2026-05-11 · 16:42 UTC

ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой

Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.

https://habr.com/ru/companies/otus/articles/1022158/

#clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных

#архитектура_данных #olap #kafka #аналитика_данных #big_data #nosql

Habr @[email protected] · 2026-05-11 · 16:42 UTC

ClickHouse для больших данных: полный гайд по интеграции с NoSQL‑экосистемой

Когда классические SQL‑базы падают под аналитической нагрузкой, а Hadoop‑кластер напоминает чемодан без ручки — пора искать новое решение. В этой статье разбираем, как ClickHouse в связке с NoSQL‑экосистемой закрывает бреши в высоконагруженных проектах. Разберём архитектурные ловушки, Best Practices и честно оценим, где этот инструмент экономит миллионы, а где может создать проблемы.

https://habr.com/ru/companies/otus/articles/1022158/

#clickhouse #nosql #big_data #аналитика_данных #kafka #olap #архитектура_данных

#clickhouse #nosql #big_data #аналитика_данных #kafka #olap

Habr @[email protected] · 2026-04-19 · 16:52 UTC

Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков

Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения. Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?

https://habr.com/ru/articles/1025328/

#BI #DWH #OLAP #DAX #MDX #архитектура_данных #rapeed #аналитика_данных #clickhouse #superset

#superset #clickhouse #аналитика_данных #rapeed #архитектура_данных #mdx

Habr @[email protected] · 2026-04-19 · 16:52 UTC

Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков

Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения. Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?

https://habr.com/ru/articles/1025328/

#BI #DWH #OLAP #DAX #MDX #архитектура_данных #rapeed #аналитика_данных #clickhouse #superset

#superset #clickhouse #аналитика_данных #rapeed #архитектура_данных #mdx

Habr @[email protected] · 2026-04-19 · 16:52 UTC

Иллюзия точности метрик: о чем не принято говорить в «высоком обществе» BI-аналитиков

Как только вы уходите от сырых транзакционных данных к предагрегированным витринам, ваша BI-система начинает врать. И чем сложнее бизнес-логика и больше сложных показателей, тем сильнее искажения. Давайте разберем механику этой проблемы на фундаментальном уровне. Почему системы, в которые инвестированы миллионы, показывают фейк?

https://habr.com/ru/articles/1025328/

#BI #DWH #OLAP #DAX #MDX #архитектура_данных #rapeed #аналитика_данных #clickhouse #superset

#bi #dwh #olap #dax #mdx #архитектура_данных

Habr @[email protected] · 2025-08-03 · 12:32 UTC

Chief Data Officer: роскошь или необходимость для компаний?

Фразу «данные — новая нефть» слышали, наверное, все. Но нефть сама себя не перерабатывает — нужен специалист, отвечающий за «перегонку» данных в пользу бизнеса. В больших корпорациях эту роль все чаще отдают Chief Data Officer (CDO) — директору по данным. Действительно ли каждой компании жизненно необходим такой человек, или это дань моде? Сейчас попробую разобраться на человеческом языке, без бюрократии и с капелькой иронии. Пуск

https://habr.com/ru/articles/933568/

#CDO #DG #Управление_данными #Культура_управления_данными #архитектура_данных #данные #данные_в_компании #данные_как_продукт

#данные_как_продукт #данные_в_компании #данные #архитектура_данных #культура_управления_данными #управление_данными

Habr @[email protected] · 2026-03-10 · 12:02 UTC

Advisory locks в PostgreSQL: распределённая блокировка без Redis, которая у вас уже есть

В PostgreSQL есть фича, про которую знают далеко не все, хотя она существует с незапамятных времён. Advisory locks — пользовательские блокировки, которыми управляет не БД, а ваше приложение. PostgreSQL только хранит их состояние и разруливает конкуренцию. А вы решаете, что именно заблокировать и когда отпустить. Зачем это нужно? Вы строите распределённую систему, несколько инстансов приложения работают с одной базой, и вам нужно гарантировать, что определённую операцию выполняет только один инстанс одновременно. Классический ответ — Redis с SETNX или Consul/ZooKeeper. Но если у вас уже есть PostgreSQL — зачем тащить ещё одну зависимость?

https://habr.com/ru/companies/otus/articles/1004230/

#postqresql #хранилище_данных #Data_Vault #архитектура_хранилища_данных #моделирование_данных #DWH #аналитические_системы #интеграция_данных #архитектура_данных

#архитектура_данных #интеграция_данных #аналитические_системы #dwh #моделирование_данных #архитектура_хранилища_данных

Habr @[email protected] · 2025-12-24 · 16:22 UTC

Обзор Lakehouse: архитектура, которая объединяет порядок и хаос

Вопрос: что же такого прорывного добавили в архитектуру, чтобы она стала считаться чем-то новым с точки зрения инженеров, а не маркетологов ? Ответ: фундаментально изменилась парадигма хранения и обработки данных. В отличие от традиционных подходов, где Data Warehouse оперировал исключительно структурированными данными в табличной форме, а Data Lake работал с файлами в их исходном виде, разработчики Lakehouse сумели соединить лучшие качества обеих архитектур. Ключевым отличием стал формат OTF — Open Table Format, через который удалось реализовать единый стандарт доступа к данным и 4 технологически-культурных сдвига. Перечислю их: ...

https://habr.com/ru/companies/cinimex/articles/978522/

#lakehouse #data_lakehouse #delta_lake #iceberg #otf #data_warehouse #data_lake #архитектура_данных #управление_данными #data_governance

#data_governance #управление_данными #архитектура_данных #data_lake #data_warehouse #otf

Habr @[email protected] · 2026-02-28 · 21:42 UTC

Data Mesh, Data Fabric, Lakehouse: разбираем модные термины

Data Mesh, Data Fabric, Lakehouse: разбираем модные термины Data Mesh, Fabric, Lakehouse – все говорят, но никто толком не объясняет, чем они отличаются и можно ли их использовать вместе . Разобралась и делюсь структурированно и без воды. ➕ Сравнительная таблица и чек-лист: что выбрать под свою боль. ✔️Сохраняйте, чтобы больше никогда не путаться.

https://habr.com/ru/articles/1005062/

#data_mesh #data_factory #data_fabric #data_lake #архитектура_данных #управление_данными #дата_инжиниринг #хранилище_данных #аналитика_данных #lakehouse

#lakehouse #аналитика_данных #хранилище_данных #дата_инжиниринг #управление_данными #архитектура_данных

Habr @[email protected] · 2025-08-15 · 10:42 UTC

[Перевод] Выбираем архитектуру данных для компании: руководство от дата-инженера

Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов. Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются. Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.

https://habr.com/ru/companies/magnus-tech/articles/937470/

#хранилища_данных #архитектура_данных #озеро_данных #data_lake #data_lakehouse #data_mesh #архитектура_медальона #инжиниринг_данных #выбор_архитектуры_данных

#выбор_архитектуры_данных #инжиниринг_данных #архитектура_медальона #data_mesh #data_lakehouse #data_lake

Habr @[email protected] · 2025-01-27 · 06:22 UTC

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории . Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL. В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.

https://habr.com/ru/articles/876834/

#dwh #data_warehouse #data_lake #хранилище_данных #корпоративное_хранилище_данных #архитектура_данных #базы_данных #данные #data #data_engineering

#data_engineering #data #данные #базы_данных #архитектура_данных #корпоративное_хранилище_данных

Habr @[email protected] · 2024-09-26 · 14:02 UTC

Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес-аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH). Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных. Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.

https://habr.com/ru/articles/846296/

#dwh #data_warehouse #data_lake #data_lakehouse #data_mesh #data_fabric #хранилище_данных #кхд #корпоративное_хранилище_данных #архитектура_данных

#архитектура_данных #корпоративное_хранилище_данных #кхд #хранилище_данных #data_fabric #data_mesh

Habr @[email protected] · 2025-12-10 · 10:32 UTC

Пишем меньше — делаем больше: зачем выносить всё в конфигурации

У меня дома стоит Bluetooth-колонка в ванной. Руки там вечно мокрые и мыльные, поэтому включить звук дождя или музыку проще по событию, например, по голосовой команде. Конечно, можно поднять Home Assistant или написать небольшой Python-скрипт, который слушал бы датчики и управлял колонкой. Но в тот момент я работал с NiFi и решил проверить, справится ли он с бытовой задачей. Оказалось, что это не только «enterprise ETL» инструмент, а еще и гибкая платформа, которая умеет работать с MQTT-брокером. Поэтому я настроил через него простую цепочку, и колонкой начал управлять не самодельный скрипт, а NiFi. Этот простой пример хорошо показывает идею. Если инструмент способен подружиться с бытовыми устройствами, то в промышленной архитектуре его потенциал раскрывается в полном объеме. В Big Data подключение нового источника часто превращается в мини-проект. Требуется неделя разработки, набор уникальных скриптов, собственные форматы, исключения и обходные решения. Но когда пять источников превращаются в пятьдесят, инфраструктура начинает рассыпаться: форматы скачут, API капризничают, схемы дрейфуют, а поддержка становится бесконечным бегом с препятствиями. Мы проходили через это несколько раз и поняли, что нам нужен фреймворк, который позволит предсказуемо, быстро и без зоопарка самописных ETL-процессов подключать новые источники. Привет, Хабр! Я ведущий инженер-разработчик направления BigData & BI К2Тех Кирилл Гофтенюк. В этой статье расскажу, как устроен наш фреймворк на базе ADS.NiFi и Arenadata Prosperity . Покажу, как он работает, зачем нужен такой подход и что нам дал переход от хаотичных скриптов к управляемой архитектуре.

https://habr.com/ru/companies/k2tech/articles/975278/

#фреймфорки #nifi #arenadata_prosperity #архитектура_данных #пайплайн #инженерная_инфраструктура

#инженерная_инфраструктура #пайплайн #архитектура_данных #arenadata_prosperity #nifi #фреймфорки

Habr @[email protected] · 2025-09-19 · 16:52 UTC

Нормализация vs Денормализация: Mongo, Postgres и реальная жизнь

Нормализация vs Денормализация: Mongo, Postgres и реальная жизнь. Почему у нас вырастает 160 таблиц там, где мог быть один jsonb? И как понять, когда денормализация — это костыль, а когда осознанный выбор? Если при слове ‘нормализация’ у тебя начинается зевота, а менеджер с порога предлагает ‘спроектировать базу’ — этот текст для тебя.

https://habr.com/ru/articles/948612/

#нормализация #денормализация #jsonb #агрегаты_DDD #objectrelational_mismatch #ORM_грабли #Polyglot_persistence #Postgres_vs_Mongo #архитектура_данных #микросервисы_и_базы_данных

#микросервисы_и_базы_данных #архитектура_данных #postgres_vs_mongo #polyglot_persistence #orm_грабли #objectrelational_mismatch

Habr @[email protected] · 2025-07-22 · 17:32 UTC

[Перевод] Архитектура корпоративных данных: AWS + Snowflake

Одна из самых больших проблем, с которой, как мы видим, сталкиваются дата‑инженеры и инженеры‑аналитики, — это то, что они тратят слишком много времени на поддержание устаревшей инфраструктуры, не имея при этом четкой наблюдаемости сбоев в работе конвейера. Это приводит к тому, что они постоянно находятся в состоянии тушения пожара и не могут сосредоточиться на решении более важных задач. И хуже всего то, что из‑за этого бизнес теряет доверие к данным.

https://habr.com/ru/companies/otus/articles/929890/

#Корпоративная_архитектура #моделирование_данных #AWS #snowflake #архитектура_данных #Облачные_технологии #data_engineering #Data_Mining #AWS_S3

#aws_s3 #data_mining #data_engineering #облачные_технологии #архитектура_данных #snowflake

Habr @[email protected] · 2026-03-10 · 07:12 UTC

Как мы построили витрины данных из разрозненных микросервисов

Раньше наш способ собрать данные из всех микросервисов в одно место (в витрину) напоминал копролит (только не древний, а наш собственный ИТ-артефакт). Он был сложный, медленный, постоянно ломался и требовал много ручной работы. Данные размазывались по куче баз данных. Чтобы сделать отчёт или отправить данные во внешнюю систему, надо было собирать их вместе. Высока вероятность, что у вас такой же или похожий. Если нет — приходите рассказать «а я же говорил» в комментариях. Мы тратили время на латание дыр, а не на разработку. В какой-то момент решили, что пора выкинуть этот велосипед и внедрить нормальный, промышленный подход к работе с данными — Data Lakehouse с медальонной архитектурой. В чём были наши ошибки: — Спроектировали сложную доменную модель для витрины, которая не соответствовала ни моделям в исходных сервисах, ни требованиям пользователей. Одна таблица из микросервиса могла раскладываться на 5 таблиц в витрине. — Превращали данные из сервисов в эту модель — это был ад. — Схема данных на фронте, в сервисе, в витрине и у потребителя была везде разная. Это постоянные баги из-за того, что кто-то ждёт ID, а ему приходит business_number. — Чтобы отдать данные потребителю, приходилось делать кучу JOIN-ов. Это ломало SLA по производительности. — Любое изменение в схеме БД микросервиса (добавил колонку) требовало сложной доработки витрины. Всё тесно связано и хрупко. — Сервисы писали изменения в свои локальные outbox-таблицы, а отдельный обработчик забирал их и складывал в витрину. Данные из разных сервисов приходили в разное время. Запрос к витрине мог пытаться сджойнить данные о клиенте и его заказе, но данные по заказу ещё не приехали. В итоге потребителю уходило неполное или вообще никакое сообщение. — Разработчики сервисов вместо одного события «Заказ сохранён» генерировали 20 событий на каждое изменение поля в UI. Это забивало очередь и создавало дикую нагрузку. — Тестирование — тоже ад. Для таких ситуаций есть понятный шаблон — трёхслойная архитектура с понятным дата-пайплайном.

https://habr.com/ru/companies/greenatom/articles/1007324/

#витрины_данных #Data_Lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель #хранилища_данных #Kafka #интеграции

#интеграции #kafka #хранилища_данных #доменная_модель #обработка_данных #архитектура_данных

Habr @[email protected] · 2025-12-29 · 14:42 UTC

Единый источник правды – это не миф. Но есть нюансы. Опыт построения корпоративного хранилища данных в «Газпром ЦПС»

Привет, Хабр! Меня зовут Андрей Боков, я главный архитектор отдела разработки хранилищ данных в «Газпром ЦПС». Если вы хоть раз сталкивались с тем, что информация о сотрудниках не соответствует в различных корпоративных системах, например, 1С, электронный документооборот, корпоративный портал, система управления проектами, – вы понимаете, о чем сейчас пойдет речь. Мы пробовали решить эту проблему точечными интеграциями, но с ростом числа систем увеличивался и хаос в данных. Нам был нужен единый контур, который позволит проследить путь данных от источников до отчета. Так началась работа над корпоративным хранилищем данных (КХД). Мы выбрали многослойную архитектуру и методологию Data Vault 2.0 – подход, который сохраняет историю изменений и дает возможность подключать новые источники без перепроектирования структур хранилища. В статье я расскажу про наш опыт, который будет полезен специалистам по работе с данными: руководителям, архитекторам, аналитикам и инженерам. Подробно опишу, как мы строили ядро КХД и какие уроки и инсайты вынесли по результатам реализации.

https://habr.com/ru/companies/gazpromcps/articles/979426/

#автоматизация #бизнеспроцессы #управление_данными #хранилище_данных #архитектура_данных #интеграция_данных

#интеграция_данных #архитектура_данных #хранилище_данных #управление_данными #бизнеспроцессы #автоматизация

Habr @[email protected] · 2026-02-05 · 10:12 UTC

Книга: «Архитектуры данных: современные решения для любых задач»

Привет, Хаброжители! Ткань данных, озеро данных и сетка данных появились относительно недавно и стали рассматриваться как конкурентные альтернативы современному хранилищу данных. У новых архитектур действительно есть весомые преимущества, но, помимо этого, они окружены ореолом предубеждений и мифов. Книга содержит практический обзор архитектур данных, который поможет специалистам в области обработки данных понять преимущества и недостатки каждой из них. Джеймс Серра, архитектор решений Big Data и хранилищ данных, работающий в Microsoft, рассматривает общие концепции архитектур данных, в том числе то, как хранилищам данных пришлось эволюционировать, чтобы работать с функциями озер данных. Вы узнаете, чем хороши озера — хранилища данных, а также как отличить раздуваемый вокруг сеток данных ажиотаж от их реальных возможностей. А самое главное, вы научитесь определять наиболее подходящую архитектуру данных для своих нужд.

https://habr.com/ru/companies/piter/articles/992636/

#архитектура_данных

Habr @[email protected] · 2026-01-16 · 10:32 UTC

Архитектурные практики в «кровавом энтерпрайзе»: данные, управление сложными системами и влияние AI

Привет, Хабр! Меня зовут Игнатий Цукергохер, я фриланс-журналист и блогер. На Хабре в основном пишу про технику и выкладываю интервью, но решил вернуть рубрику обзоров мероприятий. И начну с такого камерной и при этом хардкорно-айтишной встречи, как True Tech Arch #8. От корпоративной ИТ-архитектуры сегодня ждут скорости, устойчивости и понятной ценности для бизнеса, но она все еще часто существует в виде схем, презентаций и документов, которые быстро устаревают и мало помогают в ежедневной работе команд. На конференции True Tech Arch #8, последней встрече Гильдии архитекторов MWS в 2025 году, рассказывали, как выбраться из этого замкнутого круга. В этом материале расскажу про основные темы, которые на ней поднимались: переход от Big Data к Small Data и Data Lakehouse, способы превратить архитектуру в исполняемую и измеряемую систему, а также изменение роли архитектора и коммуникаций между командами при внедрении AI-ассистентов.

https://habr.com/ru/companies/ru_mts/articles/985616/

#архитектура_данных #Data_Lakehouse #управление_архитектурой #ИТархитектура #корпоративная_разработка #True_Tech_arch #arch_kata #small_data #datadriven_architecture #IntentDriven_Architecture

#intentdriven_architecture #datadriven_architecture #small_data #arch_kata #true_tech_arch #корпоративная_разработка

Habr @[email protected] · 2025-11-20 · 11:52 UTC

Как автоматизация отчётности избавляет службы ИБ от рутины

Любой, кто работает в корпоративной информационной безопасности, знает, что отчётность отнимает больше времени, чем хотелось бы. Формирование отчётов, согласование данных между подразделениями, бесконечные Excel-файлы, ручное копирование показателей из систем — всё это не только демотивирует специалистов, но и напрямую снижает эффективность ИБ. Пока команда занята сводками для аудиторов и контролёров, реальные риски могут оставаться без внимания. Я нередко наблюдаю, как крупные организации с развитой ИБ-службой тратят недели на подготовку ежеквартальных отчётов, четверть, а то и треть от всего периода, чтобы закрыть квартал. И речь не только о государственных организациях или финансовых компаниях, работающих по различным нормативным требованиям, таким как 152-ФЗ (и подзаконные НПА) или ГОСТ 57580. Даже коммерческие структуры, не обременённые строгим регулированием, сталкиваются с тем, что любая проверка превращается в проект на полгода. Особенно если речь идет про построение различных систем менеджмента информационной безопасности, или соответствие лучшим практикам. Данные о системах, уязвимостях, инцидентах и планах устранения собираются вручную из множества источников, а после — проходят цепочку проверок и уточнений. Почему ручная отчётность перестала работать Цель любой отчётности — показать текущее состояние безопасности и уровень зрелости процессов. Но из-за ручного подхода результаты часто оказываются устаревшими уже в момент передачи. В одной из компаний я видел, как данные о внедрённых мерах защиты собирались вручную: сначала в таблицах Excel, затем в документе Word, а потом превращались в PDF для аудита. Всё это выливалось в десятки часов потраченного времени, множество неточностей и полное отсутствие решений, основанных на достоверных данных.

https://habr.com/ru/companies/securitm/articles/968454/

#информационная_безопасность #автоматизация_отчетности #архитектура_данных #Модуль_Compliance #Модуль_Активов #метрики #ручное_управление_данными

#информационная_безопасность #автоматизация_отчетности #архитектура_данных #модуль_compliance #модуль_активов #метрики

Habr @[email protected] · 2024-10-04 · 09:22 UTC

Температура успеха: как X5 Tech измеряет эффективность развития IT-продуктов

Привет, Хабр! На связи команда ad-hoc аналитики X5 Tech. Если вы работаете в IT, то знаете как непросто оценивать результативность развития IT-продуктов и команд. А теперь представьте, что таких продуктов у вас десятки, и решения по ним нужно принимать оперативно, ведь речь идёт о миллиардах рублей в год. В этой статье мы покажем, как в таких условиях можно быстро сориентироваться и внедрить системное решение для контроля эффективности развития продуктовых активностей. Мы назвали его “Продуктовый градусник”. Статья будет полезна продуктовым менеджерам, аналитикам, разработчикам и руководителям, которые хотят улучшить свои продукты, процессы и команды, основываясь на проверенных практиках и data-driven подходе.

https://habr.com/ru/companies/X5Tech/articles/848174/

#Продуктовая_аналитика #Эффективность_продуктов #datadriven #Развитие_продуктов #роадмап #архитектура_данных #Атмосфера_в_команде #бизнесанализ #Продуктовое_развитие #MLмодели_в_продукте

#mlмодели_в_продукте #продуктовое_развитие #бизнесанализ #атмосфера_в_команде #архитектура_данных #роадмап

Habr @[email protected] · 2026-03-10 · 07:12 UTC

Как мы построили витрины данных из разрозненных микросервисов

Раньше наш способ собрать данные из всех микросервисов в одно место (в витрину) напоминал копролит (только не древний, а наш собственный ИТ-артефакт). Он был сложный, медленный, постоянно ломался и требовал много ручной работы. Данные размазывались по куче баз данных. Чтобы сделать отчёт или отправить данные во внешнюю систему, надо было собирать их вместе. Высока вероятность, что у вас такой же или похожий. Если нет — приходите рассказать «а я же говорил» в комментариях. Мы тратили время на латание дыр, а не на разработку. В какой-то момент решили, что пора выкинуть этот велосипед и внедрить нормальный, промышленный подход к работе с данными — Data Lakehouse с медальонной архитектурой. В чём были наши ошибки: — Спроектировали сложную доменную модель для витрины, которая не соответствовала ни моделям в исходных сервисах, ни требованиям пользователей. Одна таблица из микросервиса могла раскладываться на 5 таблиц в витрине. — Превращали данные из сервисов в эту модель — это был ад. — Схема данных на фронте, в сервисе, в витрине и у потребителя была везде разная. Это постоянные баги из-за того, что кто-то ждёт ID, а ему приходит business_number. — Чтобы отдать данные потребителю, приходилось делать кучу JOIN-ов. Это ломало SLA по производительности. — Любое изменение в схеме БД микросервиса (добавил колонку) требовало сложной доработки витрины. Всё тесно связано и хрупко. — Сервисы писали изменения в свои локальные outbox-таблицы, а отдельный обработчик забирал их и складывал в витрину. Данные из разных сервисов приходили в разное время. Запрос к витрине мог пытаться сджойнить данные о клиенте и его заказе, но данные по заказу ещё не приехали. В итоге потребителю уходило неполное или вообще никакое сообщение. — Разработчики сервисов вместо одного события «Заказ сохранён» генерировали 20 событий на каждое изменение поля в UI. Это забивало очередь и создавало дикую нагрузку. — Тестирование — тоже ад. Для таких ситуаций есть понятный шаблон — трёхслойная архитектура с понятным дата-пайплайном.

https://habr.com/ru/companies/greenatom/articles/1007324/

#витрины_данных #Data_Lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель #хранилища_данных #Kafka #интеграции

#интеграции #kafka #хранилища_данных #доменная_модель #обработка_данных #архитектура_данных

Habr @[email protected] · 2026-03-10 · 07:12 UTC

Как мы построили витрины данных из разрозненных микросервисов

Раньше наш способ собрать данные из всех микросервисов в одно место (в витрину) напоминал копролит (только не древний, а наш собственный ИТ-артефакт). Он был сложный, медленный, постоянно ломался и требовал много ручной работы. Данные размазывались по куче баз данных. Чтобы сделать отчёт или отправить данные во внешнюю систему, надо было собирать их вместе. Высока вероятность, что у вас такой же или похожий. Если нет — приходите рассказать «а я же говорил» в комментариях. Мы тратили время на латание дыр, а не на разработку. В какой-то момент решили, что пора выкинуть этот велосипед и внедрить нормальный, промышленный подход к работе с данными — Data Lakehouse с медальонной архитектурой. В чём были наши ошибки: — Спроектировали сложную доменную модель для витрины, которая не соответствовала ни моделям в исходных сервисах, ни требованиям пользователей. Одна таблица из микросервиса могла раскладываться на 5 таблиц в витрине. — Превращали данные из сервисов в эту модель — это был ад. — Схема данных на фронте, в сервисе, в витрине и у потребителя была везде разная. Это постоянные баги из-за того, что кто-то ждёт ID, а ему приходит business_number. — Чтобы отдать данные потребителю, приходилось делать кучу JOIN-ов. Это ломало SLA по производительности. — Любое изменение в схеме БД микросервиса (добавил колонку) требовало сложной доработки витрины. Всё тесно связано и хрупко. — Сервисы писали изменения в свои локальные outbox-таблицы, а отдельный обработчик забирал их и складывал в витрину. Данные из разных сервисов приходили в разное время. Запрос к витрине мог пытаться сджойнить данные о клиенте и его заказе, но данные по заказу ещё не приехали. В итоге потребителю уходило неполное или вообще никакое сообщение. — Разработчики сервисов вместо одного события «Заказ сохранён» генерировали 20 событий на каждое изменение поля в UI. Это забивало очередь и создавало дикую нагрузку. — Тестирование — тоже ад. Для таких ситуаций есть понятный шаблон — трёхслойная архитектура с понятным дата-пайплайном.

https://habr.com/ru/companies/greenatom/articles/1007324/

#витрины_данных #Data_Lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель #хранилища_данных #Kafka #интеграции

#интеграции #kafka #хранилища_данных #доменная_модель #обработка_данных #архитектура_данных

Habr @[email protected] · 2026-03-10 · 07:12 UTC

Как мы построили витрины данных из разрозненных микросервисов

Раньше наш способ собрать данные из всех микросервисов в одно место (в витрину) напоминал копролит (только не древний, а наш собственный ИТ-артефакт). Он был сложный, медленный, постоянно ломался и требовал много ручной работы. Данные размазывались по куче баз данных. Чтобы сделать отчёт или отправить данные во внешнюю систему, надо было собирать их вместе. Высока вероятность, что у вас такой же или похожий. Если нет — приходите рассказать «а я же говорил» в комментариях. Мы тратили время на латание дыр, а не на разработку. В какой-то момент решили, что пора выкинуть этот велосипед и внедрить нормальный, промышленный подход к работе с данными — Data Lakehouse с медальонной архитектурой. В чём были наши ошибки: — Спроектировали сложную доменную модель для витрины, которая не соответствовала ни моделям в исходных сервисах, ни требованиям пользователей. Одна таблица из микросервиса могла раскладываться на 5 таблиц в витрине. — Превращали данные из сервисов в эту модель — это был ад. — Схема данных на фронте, в сервисе, в витрине и у потребителя была везде разная. Это постоянные баги из-за того, что кто-то ждёт ID, а ему приходит business_number. — Чтобы отдать данные потребителю, приходилось делать кучу JOIN-ов. Это ломало SLA по производительности. — Любое изменение в схеме БД микросервиса (добавил колонку) требовало сложной доработки витрины. Всё тесно связано и хрупко. — Сервисы писали изменения в свои локальные outbox-таблицы, а отдельный обработчик забирал их и складывал в витрину. Данные из разных сервисов приходили в разное время. Запрос к витрине мог пытаться сджойнить данные о клиенте и его заказе, но данные по заказу ещё не приехали. В итоге потребителю уходило неполное или вообще никакое сообщение. — Разработчики сервисов вместо одного события «Заказ сохранён» генерировали 20 событий на каждое изменение поля в UI. Это забивало очередь и создавало дикую нагрузку. — Тестирование — тоже ад. Для таких ситуаций есть понятный шаблон — трёхслойная архитектура с понятным дата-пайплайном.

https://habr.com/ru/companies/greenatom/articles/1007324/

#витрины_данных #Data_Lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель #хранилища_данных #Kafka #интеграции

#витрины_данных #data_lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель