#data_lakehouse — Public Fediverse posts on home.social

Раньше наш способ собрать данные из всех микросервисов в одно место (в витрину) напоминал копролит (только не древний, а наш собственный ИТ-артефакт). Он был сложный, медленный, постоянно ломался и требовал много ручной работы. Данные размазывались по куче баз данных. Чтобы сделать отчёт или отправить данные во внешнюю систему, надо было собирать их вместе. Высока вероятность, что у вас такой же или похожий. Если нет — приходите рассказать «а я же говорил» в комментариях. Мы тратили время на латание дыр, а не на разработку. В какой-то момент решили, что пора выкинуть этот велосипед и внедрить нормальный, промышленный подход к работе с данными — Data Lakehouse с медальонной архитектурой. В чём были наши ошибки: — Спроектировали сложную доменную модель для витрины, которая не соответствовала ни моделям в исходных сервисах, ни требованиям пользователей. Одна таблица из микросервиса могла раскладываться на 5 таблиц в витрине. — Превращали данные из сервисов в эту модель — это был ад. — Схема данных на фронте, в сервисе, в витрине и у потребителя была везде разная. Это постоянные баги из-за того, что кто-то ждёт ID, а ему приходит business_number. — Чтобы отдать данные потребителю, приходилось делать кучу JOIN-ов. Это ломало SLA по производительности. — Любое изменение в схеме БД микросервиса (добавил колонку) требовало сложной доработки витрины. Всё тесно связано и хрупко. — Сервисы писали изменения в свои локальные outbox-таблицы, а отдельный обработчик забирал их и складывал в витрину. Данные из разных сервисов приходили в разное время. Запрос к витрине мог пытаться сджойнить данные о клиенте и его заказе, но данные по заказу ещё не приехали. В итоге потребителю уходило неполное или вообще никакое сообщение. — Разработчики сервисов вместо одного события «Заказ сохранён» генерировали 20 событий на каждое изменение поля в UI. Это забивало очередь и создавало дикую нагрузку. — Тестирование — тоже ад. Для таких ситуаций есть понятный шаблон — трёхслойная архитектура с понятным дата-пайплайном.

https://habr.com/ru/companies/greenatom/articles/1007324/

#витрины_данных #Data_Lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель #хранилища_данных #Kafka #интеграции

#интеграции #kafka #хранилища_данных #доменная_модель #обработка_данных #архитектура_данных

Habr @[email protected] · 2026-02-17 · 12:22 UTC

[Перевод] Архитектура Lakehouse: три года после хайпа

В 2021 году Databricks ввели в моду термин «lakehouse», и индустрия дружно решила, что это и есть будущее. Аналитики писали восторженные статьи о том, что классические DWH мертвы. Вендоры спешно проводили ребрендинг своих продуктов, а на конференциях обещали единую архитектуру, которая решит вообще любые проблемы с данными. Некоторые обещания Lakehouse сбылись. Другие оказались лишь маркетингом. А еще всплыли проблемы, которых никто не ожидал. В этой статье разберем честный опыт внедрения Lakehouse к 2025 году: какие обещания оказались маркетингом, почему расходы на вычисления часто растут вместо экономии, и как на самом деле выглядит прагматичная работа с Delta Lake, Iceberg и Hudi в современных проектах. Что выжило в продакшене, что тихо скончалось, а о чем принято помалкивать?

https://habr.com/ru/articles/1000506/

#iceberg #data_lakehouse #data_warehouse #dbt #spark #dwh #хранилище_данных

#хранилище_данных #dwh #spark #dbt #data_warehouse #data_lakehouse

Habr @[email protected] · 2026-01-16 · 10:32 UTC

Архитектурные практики в «кровавом энтерпрайзе»: данные, управление сложными системами и влияние AI

Привет, Хабр! Меня зовут Игнатий Цукергохер, я фриланс-журналист и блогер. На Хабре в основном пишу про технику и выкладываю интервью, но решил вернуть рубрику обзоров мероприятий. И начну с такого камерной и при этом хардкорно-айтишной встречи, как True Tech Arch #8. От корпоративной ИТ-архитектуры сегодня ждут скорости, устойчивости и понятной ценности для бизнеса, но она все еще часто существует в виде схем, презентаций и документов, которые быстро устаревают и мало помогают в ежедневной работе команд. На конференции True Tech Arch #8, последней встрече Гильдии архитекторов MWS в 2025 году, рассказывали, как выбраться из этого замкнутого круга. В этом материале расскажу про основные темы, которые на ней поднимались: переход от Big Data к Small Data и Data Lakehouse, способы превратить архитектуру в исполняемую и измеряемую систему, а также изменение роли архитектора и коммуникаций между командами при внедрении AI-ассистентов.

https://habr.com/ru/companies/ru_mts/articles/985616/

#архитектура_данных #Data_Lakehouse #управление_архитектурой #ИТархитектура #корпоративная_разработка #True_Tech_arch #arch_kata #small_data #datadriven_architecture #IntentDriven_Architecture

#intentdriven_architecture #datadriven_architecture #small_data #arch_kata #true_tech_arch #корпоративная_разработка

Habr @[email protected] · 2025-12-24 · 16:22 UTC

Обзор Lakehouse: архитектура, которая объединяет порядок и хаос

Вопрос: что же такого прорывного добавили в архитектуру, чтобы она стала считаться чем-то новым с точки зрения инженеров, а не маркетологов ? Ответ: фундаментально изменилась парадигма хранения и обработки данных. В отличие от традиционных подходов, где Data Warehouse оперировал исключительно структурированными данными в табличной форме, а Data Lake работал с файлами в их исходном виде, разработчики Lakehouse сумели соединить лучшие качества обеих архитектур. Ключевым отличием стал формат OTF — Open Table Format, через который удалось реализовать единый стандарт доступа к данным и 4 технологически-культурных сдвига. Перечислю их: ...

https://habr.com/ru/companies/cinimex/articles/978522/

#lakehouse #data_lakehouse #delta_lake #iceberg #otf #data_warehouse #data_lake #архитектура_данных #управление_данными #data_governance

#data_governance #управление_данными #архитектура_данных #data_lake #data_warehouse #otf

Habr @[email protected] · 2025-11-14 · 13:42 UTC

Как стартовать с Data Lakehouse и перейти на Data Lake

В статье Архитектура высоконагруженной платформы Magnit F&R было рассказано о ключевых архитектурных принципах и решениях. Сегодня хочу поделиться практическим опытом: как в Magnit Tech изменилась концепция Data Lakehouse, где она блестяще сработала — и где подвела. Я, Алексей Соболеков, лид архитектуры F&R. И это история о том, как красивая теория сталкивается с физикой доступа к данным.

https://habr.com/ru/companies/magnit/articles/966566/

#magnit_tech #Trino #ClickHouse #Data_Lakehouse #DWH #ритейл #архитектура_системы

#архитектура_системы #ритейл #dwh #data_lakehouse #clickhouse #trino

Habr @[email protected] · 2025-11-14 · 13:42 UTC

Как стартовать с Data Lakehouse и перейти на Data Lake

В статье Архитектура высоконагруженной платформы Magnit F&R было рассказано о ключевых архитектурных принципах и решениях. Сегодня хочу поделиться практическим опытом: как в Magnit Tech изменилась концепция Data Lakehouse, где она блестяще сработала — и где подвела. Я, Алексей Соболеков, лид архитектуры F&R. И это история о том, как красивая теория сталкивается с физикой доступа к данным.

https://habr.com/ru/companies/magnit/articles/966566/

#magnit_tech #Trino #ClickHouse #Data_Lakehouse #DWH #ритейл #архитектура_системы

#архитектура_системы #ритейл #dwh #data_lakehouse #clickhouse #trino

Habr @[email protected] · 2025-11-14 · 13:42 UTC

Как стартовать с Data Lakehouse и перейти на Data Lake

В статье Архитектура высоконагруженной платформы Magnit F&R было рассказано о ключевых архитектурных принципах и решениях. Сегодня хочу поделиться практическим опытом: как в Magnit Tech изменилась концепция Data Lakehouse, где она блестяще сработала — и где подвела. Я, Алексей Соболеков, лид архитектуры F&R. И это история о том, как красивая теория сталкивается с физикой доступа к данным.

https://habr.com/ru/companies/magnit/articles/966566/

#magnit_tech #Trino #ClickHouse #Data_Lakehouse #DWH #ритейл #архитектура_системы

#архитектура_системы #ритейл #dwh #data_lakehouse #clickhouse #trino

Habr @[email protected] · 2025-11-14 · 13:42 UTC

Как стартовать с Data Lakehouse и перейти на Data Lake

В статье Архитектура высоконагруженной платформы Magnit F&R было рассказано о ключевых архитектурных принципах и решениях. Сегодня хочу поделиться практическим опытом: как в Magnit Tech изменилась концепция Data Lakehouse, где она блестяще сработала — и где подвела. Я, Алексей Соболеков, лид архитектуры F&R. И это история о том, как красивая теория сталкивается с физикой доступа к данным.

https://habr.com/ru/companies/magnit/articles/966566/

#magnit_tech #Trino #ClickHouse #Data_Lakehouse #DWH #ритейл #архитектура_системы

#magnit_tech #trino #clickhouse #data_lakehouse #dwh #ритейл

Habr @[email protected] · 2025-11-10 · 12:32 UTC

Substrait — lingua franca для баз данных

Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим. Ниже - зачем он нужен, как устроен и кто поддерживает. Узнать про Substrait

https://habr.com/ru/companies/cedrusdata/articles/964800/

#Substrait #федеративные_запросы #универсальный_IR #СУБД #pushdown #оптимизация #SQL #data_lakehouse #data_lake #trino

#trino #data_lake #data_lakehouse #sql #оптимизация #pushdown

Habr @[email protected] · 2025-11-10 · 12:32 UTC

Substrait — lingua franca для баз данных

Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим. Ниже - зачем он нужен, как устроен и кто поддерживает. Узнать про Substrait

https://habr.com/ru/companies/cedrusdata/articles/964800/

#Substrait #федеративные_запросы #универсальный_IR #СУБД #pushdown #оптимизация #SQL #data_lakehouse #data_lake #trino

#trino #data_lake #data_lakehouse #sql #оптимизация #pushdown

Habr @[email protected] · 2025-11-10 · 12:32 UTC

Substrait — lingua franca для баз данных

Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим. Ниже - зачем он нужен, как устроен и кто поддерживает. Узнать про Substrait

https://habr.com/ru/companies/cedrusdata/articles/964800/

#Substrait #федеративные_запросы #универсальный_IR #СУБД #pushdown #оптимизация #SQL #data_lakehouse #data_lake #trino

#trino #data_lake #data_lakehouse #sql #оптимизация #pushdown

Habr @[email protected] · 2025-11-10 · 12:32 UTC

Substrait — lingua franca для баз данных

Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим. Ниже - зачем он нужен, как устроен и кто поддерживает. Узнать про Substrait

https://habr.com/ru/companies/cedrusdata/articles/964800/

#Substrait #федеративные_запросы #универсальный_IR #СУБД #pushdown #оптимизация #SQL #data_lakehouse #data_lake #trino

#substrait #федеративные_запросы #универсальный_ir #субд #pushdown #оптимизация

Habr @[email protected] · 2025-10-14 · 10:32 UTC

[Перевод] StarRocks Lakehouse: быстрый старт — Hive Catalog

StarRocks Lakehouse на практике: пошаговый гайд по интеграции с Apache Hive через Hive Catalog. На прикладочном сценарии «управление заказами» показываем, как построить слой ODS/DWD/DWS/ADS в озере данных и ускорить запросы без миграции данных: от создания таблиц и генерации тестовых наборов до подключения External Catalog. Разбираем включение Data Cache для ускорения чтения из HDFS/S3/OSS (Parquet/ORC/CSV) и применение асинхронных материализованных представлений в StarRocks для витрин DWD/DWS/ADS. Поясняем, как добиться быстрых запросов за счёт векторизированного движка и CBO, а также даём практические советы по настройке (Kerberos/HMS, конфигурация BE/FE, прогрев кэша, сбор статистики, MV‑rewrite). Материал будет полезен инженерам по данным и архитекторам DWH, которым нужна аналитика в реальном времени по данным озера без лишнего ETL.

https://habr.com/ru/articles/956396/

#starrocks #apache_hive #lakehouse #data_lake #data_lakehouse #catalog

#catalog #data_lakehouse #data_lake #lakehouse #apache_hive #starrocks

Habr @[email protected] · 2025-08-15 · 10:42 UTC

[Перевод] Выбираем архитектуру данных для компании: руководство от дата-инженера

Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов. Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются. Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.

https://habr.com/ru/companies/magnus-tech/articles/937470/

#хранилища_данных #архитектура_данных #озеро_данных #data_lake #data_lakehouse #data_mesh #архитектура_медальона #инжиниринг_данных #выбор_архитектуры_данных

#выбор_архитектуры_данных #инжиниринг_данных #архитектура_медальона #data_mesh #data_lakehouse #data_lake

Habr @[email protected] · 2025-07-31 · 18:02 UTC

Ускоренная экстракция данных из SAP-систем в DWH и Lakehouse: наш опыт интеграции

В современных условиях возрастает актуальность выгрузки данных из SAP ERP в хранилища данных DWH или Data Lakehouse сторонних вендоров. Интеграция с системами, не входящими в экосистему SAP, зачастую сопровождается сложностями: поставщики программного обеспечения, как правило, не поддерживают использование конкурентных продуктов. Нативный механизм выгрузки данных в SAP BW (Business Warehouse) не может быть применен к системам, не принадлежащим к экосистеме SAP. На нашем проекте внедрения хранилища данных на основе Arenadata DB для одного из крупных банков мы столкнулись со сложностями при интеграции с SAP S/4HANA. В статье рассматривается решение, которое позволяет быстро и надежно производить выгрузку больших объемов данных.

https://habr.com/ru/companies/sapiens_solutions/articles/932854/

#sap #sap_erp #data_warehouse #data_lakehouse #arenadata_db #интеграция

#интеграция #arenadata_db #data_lakehouse #data_warehouse #sap_erp #sap

Habr @[email protected] · 2024-09-26 · 14:02 UTC

Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес-аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH). Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных. Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.

https://habr.com/ru/articles/846296/

#dwh #data_warehouse #data_lake #data_lakehouse #data_mesh #data_fabric #хранилище_данных #кхд #корпоративное_хранилище_данных #архитектура_данных

#архитектура_данных #корпоративное_хранилище_данных #кхд #хранилище_данных #data_fabric #data_mesh

Habr @[email protected] · 2024-07-06 · 05:42 UTC

Инфраструктура для data engineer S3

S3 – это один из сервисов, который используется для построения Data Lake и обмена файлами. В этой статье рассказывается о технологии S3 со стороны дата-инженерии. Мы в статье рассмотрим как развернуть сервис, как им пользоваться и зачем он нужен в дата-инженерии

https://habr.com/ru/articles/827052/

#s3 #python #data #data_engineering #data_engineer #data_lake #data_lakehouse #pet #petпроекты #объектное_хранилище

#объектное_хранилище #petпроекты #pet #data_lakehouse #data_lake #data_engineer