home.social

#data_lakehouse — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #data_lakehouse, aggregated by home.social.

  1. apache iceberg и его философия

    iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

    habr.com/ru/articles/1033546/

    #iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

  2. apache iceberg и его философия

    iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

    habr.com/ru/articles/1033546/

    #iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

  3. apache iceberg и его философия

    iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

    habr.com/ru/articles/1033546/

    #iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

  4. apache iceberg и его философия

    iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

    habr.com/ru/articles/1033546/

    #iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

  5. Как мы построили витрины данных из разрозненных микросервисов

    Раньше наш способ собрать данные из всех микросервисов в одно место (в витрину) напоминал копролит (только не древний, а наш собственный ИТ-артефакт). Он был сложный, медленный, постоянно ломался и требовал много ручной работы. Данные размазывались по куче баз данных. Чтобы сделать отчёт или отправить данные во внешнюю систему, надо было собирать их вместе. Высока вероятность, что у вас такой же или похожий. Если нет — приходите рассказать «а я же говорил» в комментариях. Мы тратили время на латание дыр, а не на разработку. В какой-то момент решили, что пора выкинуть этот велосипед и внедрить нормальный, промышленный подход к работе с данными — Data Lakehouse с медальонной архитектурой. В чём были наши ошибки: — Спроектировали сложную доменную модель для витрины, которая не соответствовала ни моделям в исходных сервисах, ни требованиям пользователей. Одна таблица из микросервиса могла раскладываться на 5 таблиц в витрине. — Превращали данные из сервисов в эту модель — это был ад. — Схема данных на фронте, в сервисе, в витрине и у потребителя была везде разная. Это постоянные баги из-за того, что кто-то ждёт ID, а ему приходит business_number. — Чтобы отдать данные потребителю, приходилось делать кучу JOIN-ов. Это ломало SLA по производительности. — Любое изменение в схеме БД микросервиса (добавил колонку) требовало сложной доработки витрины. Всё тесно связано и хрупко. — Сервисы писали изменения в свои локальные outbox-таблицы, а отдельный обработчик забирал их и складывал в витрину. Данные из разных сервисов приходили в разное время. Запрос к витрине мог пытаться сджойнить данные о клиенте и его заказе, но данные по заказу ещё не приехали. В итоге потребителю уходило неполное или вообще никакое сообщение. — Разработчики сервисов вместо одного события «Заказ сохранён» генерировали 20 событий на каждое изменение поля в UI. Это забивало очередь и создавало дикую нагрузку. — Тестирование — тоже ад. Для таких ситуаций есть понятный шаблон — трёхслойная архитектура с понятным дата-пайплайном.

    habr.com/ru/companies/greenato

    #витрины_данных #Data_Lakehouse #медальонная_архитектура #архитектура_данных #обработка_данных #доменная_модель #хранилища_данных #Kafka #интеграции

  6. [Перевод] Архитектура Lakehouse: три года после хайпа

    В 2021 году Databricks ввели в моду термин «lakehouse», и индустрия дружно решила, что это и есть будущее. Аналитики писали восторженные статьи о том, что классические DWH мертвы. Вендоры спешно проводили ребрендинг своих продуктов, а на конференциях обещали единую архитектуру, которая решит вообще любые проблемы с данными. Некоторые обещания Lakehouse сбылись. Другие оказались лишь маркетингом. А еще всплыли проблемы, которых никто не ожидал. В этой статье разберем честный опыт внедрения Lakehouse к 2025 году: какие обещания оказались маркетингом, почему расходы на вычисления часто растут вместо экономии, и как на самом деле выглядит прагматичная работа с Delta Lake, Iceberg и Hudi в современных проектах. Что выжило в продакшене, что тихо скончалось, а о чем принято помалкивать?

    habr.com/ru/articles/1000506/

    #iceberg #data_lakehouse #data_warehouse #dbt #spark #dwh #хранилище_данных

  7. Архитектурные практики в «кровавом энтерпрайзе»: данные, управление сложными системами и влияние AI

    Привет, Хабр! Меня зовут Игнатий Цукергохер, я фриланс-журналист и блогер. На Хабре в основном пишу про технику и выкладываю интервью, но решил вернуть рубрику обзоров мероприятий. И начну с такого камерной и при этом хардкорно-айтишной встречи, как True Tech Arch #8. От корпоративной ИТ-архитектуры сегодня ждут скорости, устойчивости и понятной ценности для бизнеса, но она все еще часто существует в виде схем, презентаций и документов, которые быстро устаревают и мало помогают в ежедневной работе команд. На конференции True Tech Arch #8, последней встрече Гильдии архитекторов MWS в 2025 году, рассказывали, как выбраться из этого замкнутого круга. В этом материале расскажу про основные темы, которые на ней поднимались: переход от Big Data к Small Data и Data Lakehouse, способы превратить архитектуру в исполняемую и измеряемую систему, а также изменение роли архитектора и коммуникаций между командами при внедрении AI-ассистентов.

    habr.com/ru/companies/ru_mts/a

    #архитектура_данных #Data_Lakehouse #управление_архитектурой #ИТархитектура #корпоративная_разработка #True_Tech_arch #arch_kata #small_data #datadriven_architecture #IntentDriven_Architecture

  8. Обзор Lakehouse: архитектура, которая объединяет порядок и хаос

    Вопрос: что же такого прорывного добавили в архитектуру, чтобы она стала считаться чем-то новым с точки зрения инженеров, а не маркетологов ? Ответ: фундаментально изменилась парадигма хранения и обработки данных. В отличие от традиционных подходов, где Data Warehouse оперировал исключительно структурированными данными в табличной форме, а Data Lake работал с файлами в их исходном виде, разработчики Lakehouse сумели соединить лучшие качества обеих архитектур. Ключевым отличием стал формат OTF — Open Table Format, через который удалось реализовать единый стандарт доступа к данным и 4 технологически-культурных сдвига. Перечислю их: ...

    habr.com/ru/companies/cinimex/

    #lakehouse #data_lakehouse #delta_lake #iceberg #otf #data_warehouse #data_lake #архитектура_данных #управление_данными #data_governance

  9. Как стартовать с Data Lakehouse и перейти на Data Lake

    В статье Архитектура высоконагруженной платформы Magnit F&R было рассказано о ключевых архитектурных принципах и решениях. Сегодня хочу поделиться практическим опытом: как в Magnit Tech изменилась концепция Data Lakehouse, где она блестяще сработала — и где подвела. Я, Алексей Соболеков, лид архитектуры F&R. И это история о том, как красивая теория сталкивается с физикой доступа к данным.

    habr.com/ru/companies/magnit/a

    #magnit_tech #Trino #ClickHouse #Data_Lakehouse #DWH #ритейл #архитектура_системы

  10. Как стартовать с Data Lakehouse и перейти на Data Lake

    В статье Архитектура высоконагруженной платформы Magnit F&R было рассказано о ключевых архитектурных принципах и решениях. Сегодня хочу поделиться практическим опытом: как в Magnit Tech изменилась концепция Data Lakehouse, где она блестяще сработала — и где подвела. Я, Алексей Соболеков, лид архитектуры F&R. И это история о том, как красивая теория сталкивается с физикой доступа к данным.

    habr.com/ru/companies/magnit/a

    #magnit_tech #Trino #ClickHouse #Data_Lakehouse #DWH #ритейл #архитектура_системы

  11. Как стартовать с Data Lakehouse и перейти на Data Lake

    В статье Архитектура высоконагруженной платформы Magnit F&R было рассказано о ключевых архитектурных принципах и решениях. Сегодня хочу поделиться практическим опытом: как в Magnit Tech изменилась концепция Data Lakehouse, где она блестяще сработала — и где подвела. Я, Алексей Соболеков, лид архитектуры F&R. И это история о том, как красивая теория сталкивается с физикой доступа к данным.

    habr.com/ru/companies/magnit/a

    #magnit_tech #Trino #ClickHouse #Data_Lakehouse #DWH #ритейл #архитектура_системы

  12. Как стартовать с Data Lakehouse и перейти на Data Lake

    В статье Архитектура высоконагруженной платформы Magnit F&R было рассказано о ключевых архитектурных принципах и решениях. Сегодня хочу поделиться практическим опытом: как в Magnit Tech изменилась концепция Data Lakehouse, где она блестяще сработала — и где подвела. Я, Алексей Соболеков, лид архитектуры F&R. И это история о том, как красивая теория сталкивается с физикой доступа к данным.

    habr.com/ru/companies/magnit/a

    #magnit_tech #Trino #ClickHouse #Data_Lakehouse #DWH #ритейл #архитектура_системы

  13. Substrait — lingua franca для баз данных

    Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим. Ниже - зачем он нужен, как устроен и кто поддерживает. Узнать про Substrait

    habr.com/ru/companies/cedrusda

    #Substrait #федеративные_запросы #универсальный_IR #СУБД #pushdown #оптимизация #SQL #data_lakehouse #data_lake #trino

  14. Substrait — lingua franca для баз данных

    Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим. Ниже - зачем он нужен, как устроен и кто поддерживает. Узнать про Substrait

    habr.com/ru/companies/cedrusda

    #Substrait #федеративные_запросы #универсальный_IR #СУБД #pushdown #оптимизация #SQL #data_lakehouse #data_lake #trino

  15. Substrait — lingua franca для баз данных

    Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим. Ниже - зачем он нужен, как устроен и кто поддерживает. Узнать про Substrait

    habr.com/ru/companies/cedrusda

    #Substrait #федеративные_запросы #универсальный_IR #СУБД #pushdown #оптимизация #SQL #data_lakehouse #data_lake #trino

  16. Substrait — lingua franca для баз данных

    Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим. Ниже - зачем он нужен, как устроен и кто поддерживает. Узнать про Substrait

    habr.com/ru/companies/cedrusda

    #Substrait #федеративные_запросы #универсальный_IR #СУБД #pushdown #оптимизация #SQL #data_lakehouse #data_lake #trino

  17. [Перевод] StarRocks Lakehouse: быстрый старт — Hive Catalog

    StarRocks Lakehouse на практике: пошаговый гайд по интеграции с Apache Hive через Hive Catalog. На прикладочном сценарии «управление заказами» показываем, как построить слой ODS/DWD/DWS/ADS в озере данных и ускорить запросы без миграции данных: от создания таблиц и генерации тестовых наборов до подключения External Catalog. Разбираем включение Data Cache для ускорения чтения из HDFS/S3/OSS (Parquet/ORC/CSV) и применение асинхронных материализованных представлений в StarRocks для витрин DWD/DWS/ADS. Поясняем, как добиться быстрых запросов за счёт векторизированного движка и CBO, а также даём практические советы по настройке (Kerberos/HMS, конфигурация BE/FE, прогрев кэша, сбор статистики, MV‑rewrite). Материал будет полезен инженерам по данным и архитекторам DWH, которым нужна аналитика в реальном времени по данным озера без лишнего ETL.

    habr.com/ru/articles/956396/

    #starrocks #apache_hive #lakehouse #data_lake #data_lakehouse #catalog

  18. [Перевод] Выбираем архитектуру данных для компании: руководство от дата-инженера

    Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов. Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются. Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.

    habr.com/ru/companies/magnus-t

    #хранилища_данных #архитектура_данных #озеро_данных #data_lake #data_lakehouse #data_mesh #архитектура_медальона #инжиниринг_данных #выбор_архитектуры_данных

  19. Ускоренная экстракция данных из SAP-систем в DWH и Lakehouse: наш опыт интеграции

    В современных условиях возрастает актуальность выгрузки данных из SAP ERP в хранилища данных DWH или Data Lakehouse сторонних вендоров. Интеграция с системами, не входящими в экосистему SAP, зачастую сопровождается сложностями: поставщики программного обеспечения, как правило, не поддерживают использование конкурентных продуктов. Нативный механизм выгрузки данных в SAP BW (Business Warehouse) не может быть применен к системам, не принадлежащим к экосистеме SAP. На нашем проекте внедрения хранилища данных на основе Arenadata DB для одного из крупных банков мы столкнулись со сложностями при интеграции с SAP S/4HANA. В статье рассматривается решение, которое позволяет быстро и надежно производить выгрузку больших объемов данных.

    habr.com/ru/companies/sapiens_

    #sap #sap_erp #data_warehouse #data_lakehouse #arenadata_db #интеграция

  20. Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

    Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес-аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH). Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных. Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.

    habr.com/ru/articles/846296/

    #dwh #data_warehouse #data_lake #data_lakehouse #data_mesh #data_fabric #хранилище_данных #кхд #корпоративное_хранилище_данных #архитектура_данных

  21. Инфраструктура для data engineer S3

    S3 – это один из сервисов, который используется для построения Data Lake и обмена файлами. В этой статье рассказывается о технологии S3 со стороны дата-инженерии. Мы в статье рассмотрим как развернуть сервис, как им пользоваться и зачем он нужен в дата-инженерии

    habr.com/ru/articles/827052/

    #s3 #python #data #data_engineering #data_engineer #data_lake #data_lakehouse #pet #petпроекты #объектное_хранилище