#apache_iceberg — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #apache_iceberg, aggregated by home.social.
-
DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0
Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.
https://habr.com/ru/articles/1035136/
#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba
-
DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0
Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.
https://habr.com/ru/articles/1035136/
#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba
-
DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0
Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.
https://habr.com/ru/articles/1035136/
#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba
-
DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0
Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.
https://habr.com/ru/articles/1035136/
#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba
-
Как JOIN изменил наш подход к инфраструктуре данных в NAVER
После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.
https://habr.com/ru/articles/983356/
#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени
-
Как JOIN изменил наш подход к инфраструктуре данных в NAVER
После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.
https://habr.com/ru/articles/983356/
#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени
-
Как JOIN изменил наш подход к инфраструктуре данных в NAVER
После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.
https://habr.com/ru/articles/983356/
#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени
-
Как JOIN изменил наш подход к инфраструктуре данных в NAVER
После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.
https://habr.com/ru/articles/983356/
#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени
-
StarRocks 4.0: Real-Time Intelligence on Lakehouse
StarRocks 4.0: Real‑Time Intelligence on Lakehouse. Сквозная оптимизация конвейера в реальном времени, 3–15× ускорение JSON, SQL Plan Manager, Decimal256 и поддержка Apache Iceberg для нативной Lakehouse‑аналитики.
https://habr.com/ru/articles/973110/
#Lakehouse #Apache_Iceberg #аналитика_в_реальном_времени #JSON #SQL_Plan_Manager #starrocks
-
StarRocks 4.0: Real-Time Intelligence on Lakehouse
StarRocks 4.0: Real‑Time Intelligence on Lakehouse. Сквозная оптимизация конвейера в реальном времени, 3–15× ускорение JSON, SQL Plan Manager, Decimal256 и поддержка Apache Iceberg для нативной Lakehouse‑аналитики.
https://habr.com/ru/articles/973110/
#Lakehouse #Apache_Iceberg #аналитика_в_реальном_времени #JSON #SQL_Plan_Manager #starrocks
-
StarRocks 4.0: Real-Time Intelligence on Lakehouse
StarRocks 4.0: Real‑Time Intelligence on Lakehouse. Сквозная оптимизация конвейера в реальном времени, 3–15× ускорение JSON, SQL Plan Manager, Decimal256 и поддержка Apache Iceberg для нативной Lakehouse‑аналитики.
https://habr.com/ru/articles/973110/
#Lakehouse #Apache_Iceberg #аналитика_в_реальном_времени #JSON #SQL_Plan_Manager #starrocks
-
StarRocks 4.0: Real-Time Intelligence on Lakehouse
StarRocks 4.0: Real‑Time Intelligence on Lakehouse. Сквозная оптимизация конвейера в реальном времени, 3–15× ускорение JSON, SQL Plan Manager, Decimal256 и поддержка Apache Iceberg для нативной Lakehouse‑аналитики.
https://habr.com/ru/articles/973110/
#Lakehouse #Apache_Iceberg #аналитика_в_реальном_времени #JSON #SQL_Plan_Manager #starrocks
-
Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться
Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.
-
Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться
Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.
-
Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться
Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.
-
Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться
Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.
-
Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg
Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.
https://habr.com/ru/articles/963410/
#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views
-
Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg
Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.
https://habr.com/ru/articles/963410/
#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views
-
Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg
Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.
https://habr.com/ru/articles/963410/
#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views
-
Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg
Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.
https://habr.com/ru/articles/963410/
#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views
-
【Apache Iceberg】Apache IcebergのブランチとGlue Data QualityでWAPパターンのデータ品質管理をやってみる
https://dev.classmethod.jp/articles/apache-iceberg-branch-glue-data-quality-wap/#dev_classmethod #Apache_Iceberg #AWS #AWS_Glue_Data_Quality #AWS_Glue
-
【Apache Iceberg】Apache IcebergのブランチとGlue Data QualityでWAPパターンのデータ品質管理をやってみる
https://dev.classmethod.jp/articles/apache-iceberg-branch-glue-data-quality-wap/#dev_classmethod #Apache_Iceberg #AWS #AWS_Glue_Data_Quality #AWS_Glue
-
[セッションレポート] オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 #AWSSummit
https://dev.classmethod.jp/articles/aws-summit-japan-2025-otf-data-analysis-basis-aws-47/ -
[セッションレポート] オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 #AWSSummit
https://dev.classmethod.jp/articles/aws-summit-japan-2025-otf-data-analysis-basis-aws-47/ -
【セッションレポート】 オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 (AWS-47) #AWSSummit
https://dev.classmethod.jp/articles/aws-summit-tokyo-2025-session-report-aws-47/#dev_classmethod #AWS #Apache_Iceberg #Amazon_SageMaker #SageMaker_Lakehouse
-
【セッションレポート】 オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 (AWS-47) #AWSSummit
https://dev.classmethod.jp/articles/aws-summit-tokyo-2025-session-report-aws-47/#dev_classmethod #AWS #Apache_Iceberg #Amazon_SageMaker #SageMaker_Lakehouse
-
Google CloudのIceberg「BigLake tables for Apache Iceberg in BigQuery」を試しつつ気になるトピックを調べてみた
https://dev.classmethod.jp/articles/google-cloud-iceberg-biglake-tables-for-apache-iceberg-in-bigquery/#dev_classmethod #Google_BigQuery #Google_Cloud_GCP #Apache_Iceberg
-
Google CloudのIceberg「BigLake tables for Apache Iceberg in BigQuery」を試しつつ気になるトピックを調べてみた
https://dev.classmethod.jp/articles/google-cloud-iceberg-biglake-tables-for-apache-iceberg-in-bigquery/#dev_classmethod #Google_BigQuery #Google_Cloud_GCP #Apache_Iceberg
-
【Iceberg】S3汎用バケットとS3 TablesにおけるIcebergパーティション追加設定の違い
https://dev.classmethod.jp/articles/iceberg-s3gp-s3tables-iceberg-add-partition/#dev_classmethod #Apache_Iceberg #Amazon_S3 #S3_Tables #AWS_Glue
-
【Iceberg】S3汎用バケットとS3 TablesにおけるIcebergパーティション追加設定の違い
https://dev.classmethod.jp/articles/iceberg-s3gp-s3tables-iceberg-add-partition/#dev_classmethod #Apache_Iceberg #Amazon_S3 #S3_Tables #AWS_Glue
-
[登壇レポート] Storage JAWS & BigData JAWS 共同開催 ~ S3×Icebergが切り拓く、OTF時代の分析基盤 ~ 「S3 Tables を図解でやさしくおさらい~基本から QuickSight 連携まで」 という内容で登壇してきました #storagejaws #bdjaws #jawsug
https://dev.classmethod.jp/articles/s3-tables-illustrated-basics-quicksight/#dev_classmethod #S3_Tables #Apache_Iceberg #AWS #イベント #JAWS_UG
-
[登壇レポート] Storage JAWS & BigData JAWS 共同開催 ~ S3×Icebergが切り拓く、OTF時代の分析基盤 ~ 「S3 Tables を図解でやさしくおさらい~基本から QuickSight 連携まで」 という内容で登壇してきました #storagejaws #bdjaws #jawsug
https://dev.classmethod.jp/articles/s3-tables-illustrated-basics-quicksight/#dev_classmethod #S3_Tables #Apache_Iceberg #AWS #イベント #JAWS_UG
-
【AWS Glue】Glueジョブでdynamic_frameをソースに利用したらキャストエラーで困った話
https://dev.classmethod.jp/articles/aws-glue-glue-dynamic-frame-cast-error/#dev_classmethod #AWS_Glue #Apache_Spark #PySpark #Apache_Iceberg
-
【AWS Glue】Glueジョブでdynamic_frameをソースに利用したらキャストエラーで困った話
https://dev.classmethod.jp/articles/aws-glue-glue-dynamic-frame-cast-error/#dev_classmethod #AWS_Glue #Apache_Spark #PySpark #Apache_Iceberg
-
DuckDBでCloudShellやローカルPCからIceberg tableへSelectしてみた
https://dev.classmethod.jp/articles/tried-duckdb-iceberg-select-cloudshell-local-pc/ -
DuckDBでCloudShellやローカルPCからIceberg tableへSelectしてみた
https://dev.classmethod.jp/articles/tried-duckdb-iceberg-select-cloudshell-local-pc/ -
Apache Iceberg Deep Dive | Part 1 | Crash Course
Lakehouse #iceberg #Apache_Iceberg #datalake #data ... source
https://quadexcel.com/wp/apache-iceberg-deep-dive-part-1-crash-course/
-
Apache Iceberg Deep Dive | Part 1 | Crash Course
Lakehouse #iceberg #Apache_Iceberg #datalake #data ... source
https://quadexcel.com/wp/apache-iceberg-deep-dive-part-1-crash-course/
-
【Databricks】Iceberg REST catalogを利用してPyIcebergでアクセスしてみた
https://dev.classmethod.jp/articles/databricks-iceberg-rest-catalog-pyiceberg/#dev_classmethod #Databricks #Apache_Iceberg #Python #Amazon_S3 #SQL
-
【Databricks】Iceberg REST catalogを利用してPyIcebergでアクセスしてみた
https://dev.classmethod.jp/articles/databricks-iceberg-rest-catalog-pyiceberg/#dev_classmethod #Databricks #Apache_Iceberg #Python #Amazon_S3 #SQL
-
【Databricks】Iceberg REST catalogを利用してPyIcebergでアクセスしてみた
https://dev.classmethod.jp/articles/databricks-iceberg-rest-catalog-pyiceberg/#dev_classmethod #Databricks #Apache_Iceberg #Python #Amazon_S3 #SQL
-
【Databricks】Iceberg REST catalogを利用してPyIcebergでアクセスしてみた
https://dev.classmethod.jp/articles/databricks-iceberg-rest-catalog-pyiceberg/#dev_classmethod #Databricks #Apache_Iceberg #Python #Amazon_S3 #SQL
-
【Databricks】Iceberg REST catalogを利用してPyIcebergでアクセスしてみた
https://dev.classmethod.jp/articles/databricks-iceberg-rest-catalog-pyiceberg/#dev_classmethod #Databricks #Apache_Iceberg #Python #Amazon_S3 #SQL
-
【小ネタ】 Amazon AthenaのMERGE INTOでIcebergテーブルへのソースデータ重複を検証
https://dev.classmethod.jp/articles/athena-iceberg-merge-into-duplicate-source-behavior/ -
【小ネタ】 Amazon AthenaのMERGE INTOでIcebergテーブルへのソースデータ重複を検証
https://dev.classmethod.jp/articles/athena-iceberg-merge-into-duplicate-source-behavior/ -
LambdaからDuckDBを使って、S3 TablesのIcebergテーブルにアクセスしてみた
https://dev.classmethod.jp/articles/try-to-access-iceberg-in-s3-tables-from-lambda-using-duckdb/ -
LambdaからDuckDBを使って、S3 TablesのIcebergテーブルにアクセスしてみた
https://dev.classmethod.jp/articles/try-to-access-iceberg-in-s3-tables-from-lambda-using-duckdb/ -
AWS FirehoseでApache Icebergテーブルに配信する際の「一意のキー設定」と「JSONQuery式(JQ式)」の違いについて
https://dev.classmethod.jp/articles/aws-firehose-s3-tables-jq-unique-keys-difference/#dev_classmethod #AWS #Amazon_Data_Firehose #Amazon_S3 #S3_Tables #Apache_Iceberg