#apache_iceberg — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #apache_iceberg, aggregated by home.social.
-
DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0
Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.
https://habr.com/ru/articles/1035136/
#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba
-
DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0
Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.
https://habr.com/ru/articles/1035136/
#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba
-
DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0
Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.
https://habr.com/ru/articles/1035136/
#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba
-
DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0
Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто-то задыхается на боевой OLTP-базе под аналитической нагрузкой. Кто-то впервые строит BI и не понимает, с какого края подходить. У кого-то накопились данные из десятка систем-источников, и существующих средств уже не хватает. У всех «хранилище». А правильный технический ответ зависит от условий задачи. За годы работы в банках, ритейле и системной интеграции мы пришли к простой картине: для среднего и крупного бизнеса большинство DWH-проектов сводится к четырёхзонной архитектуре поверх двух специализированных движков. Не Inmon, не Kimball-star-schema, не Data Vault 2.0 - и при этом не «modern data stack как у Databricks один-в-один». В этой статье разберу архитектуру по зонам, потом честно скажу что осталось живо от классических методологий и где они продолжают работать, а где безнадёжно отстали от колоночной эры. И в конце - типичные ошибки, которые наблюдаем в проектах коллег и собственных пилотах.
https://habr.com/ru/articles/1035136/
#dwh #data_warehouse #clickhouse #apache_iceberg #trino #lakehouse #data_engineering #архитектура_данных #data_vault #dba
-
Как JOIN изменил наш подход к инфраструктуре данных в NAVER
После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.
https://habr.com/ru/articles/983356/
#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени
-
Как JOIN изменил наш подход к инфраструктуре данных в NAVER
После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.
https://habr.com/ru/articles/983356/
#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени
-
Как JOIN изменил наш подход к инфраструктуре данных в NAVER
После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.
https://habr.com/ru/articles/983356/
#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени
-
Как JOIN изменил наш подход к инфраструктуре данных в NAVER
После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.
https://habr.com/ru/articles/983356/
#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени
-
StarRocks 4.0: Real-Time Intelligence on Lakehouse
StarRocks 4.0: Real‑Time Intelligence on Lakehouse. Сквозная оптимизация конвейера в реальном времени, 3–15× ускорение JSON, SQL Plan Manager, Decimal256 и поддержка Apache Iceberg для нативной Lakehouse‑аналитики.
https://habr.com/ru/articles/973110/
#Lakehouse #Apache_Iceberg #аналитика_в_реальном_времени #JSON #SQL_Plan_Manager #starrocks
-
Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться
Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.
-
Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg
Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.
https://habr.com/ru/articles/963410/
#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views
-
【Apache Iceberg】Apache IcebergのブランチとGlue Data QualityでWAPパターンのデータ品質管理をやってみる
https://dev.classmethod.jp/articles/apache-iceberg-branch-glue-data-quality-wap/#dev_classmethod #Apache_Iceberg #AWS #AWS_Glue_Data_Quality #AWS_Glue
-
[セッションレポート] オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 #AWSSummit
https://dev.classmethod.jp/articles/aws-summit-japan-2025-otf-data-analysis-basis-aws-47/ -
【セッションレポート】 オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 (AWS-47) #AWSSummit
https://dev.classmethod.jp/articles/aws-summit-tokyo-2025-session-report-aws-47/#dev_classmethod #AWS #Apache_Iceberg #Amazon_SageMaker #SageMaker_Lakehouse
-
Google CloudのIceberg「BigLake tables for Apache Iceberg in BigQuery」を試しつつ気になるトピックを調べてみた
https://dev.classmethod.jp/articles/google-cloud-iceberg-biglake-tables-for-apache-iceberg-in-bigquery/#dev_classmethod #Google_BigQuery #Google_Cloud_GCP #Apache_Iceberg
-
【Iceberg】S3汎用バケットとS3 TablesにおけるIcebergパーティション追加設定の違い
https://dev.classmethod.jp/articles/iceberg-s3gp-s3tables-iceberg-add-partition/#dev_classmethod #Apache_Iceberg #Amazon_S3 #S3_Tables #AWS_Glue
-
[登壇レポート] Storage JAWS & BigData JAWS 共同開催 ~ S3×Icebergが切り拓く、OTF時代の分析基盤 ~ 「S3 Tables を図解でやさしくおさらい~基本から QuickSight 連携まで」 という内容で登壇してきました #storagejaws #bdjaws #jawsug
https://dev.classmethod.jp/articles/s3-tables-illustrated-basics-quicksight/#dev_classmethod #S3_Tables #Apache_Iceberg #AWS #イベント #JAWS_UG
-
【AWS Glue】Glueジョブでdynamic_frameをソースに利用したらキャストエラーで困った話
https://dev.classmethod.jp/articles/aws-glue-glue-dynamic-frame-cast-error/#dev_classmethod #AWS_Glue #Apache_Spark #PySpark #Apache_Iceberg
-
DuckDBでCloudShellやローカルPCからIceberg tableへSelectしてみた
https://dev.classmethod.jp/articles/tried-duckdb-iceberg-select-cloudshell-local-pc/ -
【Databricks】Iceberg REST catalogを利用してPyIcebergでアクセスしてみた
https://dev.classmethod.jp/articles/databricks-iceberg-rest-catalog-pyiceberg/#dev_classmethod #Databricks #Apache_Iceberg #Python #Amazon_S3 #SQL
-
【小ネタ】 Amazon AthenaのMERGE INTOでIcebergテーブルへのソースデータ重複を検証
https://dev.classmethod.jp/articles/athena-iceberg-merge-into-duplicate-source-behavior/ -
LambdaからDuckDBを使って、S3 TablesのIcebergテーブルにアクセスしてみた
https://dev.classmethod.jp/articles/try-to-access-iceberg-in-s3-tables-from-lambda-using-duckdb/ -
AWS FirehoseでApache Icebergテーブルに配信する際の「一意のキー設定」と「JSONQuery式(JQ式)」の違いについて
https://dev.classmethod.jp/articles/aws-firehose-s3-tables-jq-unique-keys-difference/#dev_classmethod #AWS #Amazon_Data_Firehose #Amazon_S3 #S3_Tables #Apache_Iceberg
-
S3 Tables 向けの Iceberg REST Catalog API が追加されたので、PyIcebergからアクセスしてみた。
https://dev.classmethod.jp/articles/add-s3-tables-iceberg-rest-catalog-api/#dev_classmethod #S3_Tables #Apache_Iceberg #AWS_Lambda #AWS
-
【S3 Tables】ローカルのVSCodeからS3 Tables上のIcebergテーブルを触りたい
https://dev.classmethod.jp/articles/s3-tables-iceberg-local-vscode/#dev_classmethod #Apache_Iceberg #S3_Tables #Amazon_S3 #Python
-
【S3 Tables】汎用バケットで作成したIcebergのテーブルをそのままS3Tablesに移行できるのか?
https://dev.classmethod.jp/articles/s3-tables-iceberg-migration/ -
PyIcebergを使ってLambdaからS3 TablesのIcebergテーブルに書き込んでみる
https://dev.classmethod.jp/articles/tried-to-write-to-iceberg-tables-in-s3-tables-from-lambda-using-pyiceberg/#dev_classmethod #AWS #S3_Tables #Apache_Iceberg #AWS_Lambda
-
Amazon Athenaから利用する際のAWS GlueのIcebergテーブルについて、メンテナンスコマンドの必要性をまとめてみた
https://dev.classmethod.jp/articles/amazon-athena-glue-iceberg-table-maintenance-command-knowledge/#dev_classmethod #AWS #Amazon_Athena #Apache_Iceberg #AWS_Glue
-
[登壇レポート]Apache Icebergと超えていくデータレイクの限界 -S3とSnowflake活用事例-でSnowflake×Icebergの機能と活用例についてお話しました #datalake_findy
https://dev.classmethod.jp/articles/speeking-report-findy-iceberg-s3-snowflake/ -
Amazon S3 Tables の Iceberg テーブルに Amazon Athenaから更新クエリを試す!(今更だったらゴメンね)
https://dev.classmethod.jp/articles/amazon-s3-tables-update-query-using-athena/#dev_classmethod #AWS #S3_Tables #Amazon_Athena #Apache_Iceberg
-
【Glue/Iceberg】S3に置いたデータIcebergテーブルへ連携するGlueを自動化してみる
https://dev.classmethod.jp/articles/s3-apache-iceberg-glue-etl-automation/#dev_classmethod #AWS #Amazon_S3 #Apache_Iceberg #AWS_Step_Functions #AWS_Glue #Amazon_EventBridge #Amazon_Athena
-
BigQuery tables for Apache Icebergで定義されたテーブルをSnowflakeのIceberg Tableとしてクエリできるようにしてみた
https://dev.classmethod.jp/articles/bigquery-tables-for-apache-iceberg-to-snowflake-iceberg-table/#dev_classmethod #Snowflake #Google_BigQuery #Apache_Iceberg
-
「祝!Iceberg祭開幕!re:Invent 2024データレイク関連アップデート10分総ざらい」という登壇をしました #regrowth_osaka
https://dev.classmethod.jp/articles/regrowth-osaka-2024-iceberg-festival/#dev_classmethod #Apache_Iceberg #AWS #S3_Tables #S3_Metadata #Amazon_Data_Firehose
-
[レポート]Apache Iceberg を使用してリアルタイムの洞察のためのオープンテーブルデータレイクを構築する #AWSreInvent
https://dev.classmethod.jp/articles/reinvent2024-ant402-iceberg-realtime-insight/#dev_classmethod #AWS #Apache_Iceberg #Apache_Spark #AWS_Glue_Data_Catalog
-
DockerでローカルにIceberg + Spark環境を構築し、DBeaverで接続してみた
https://dev.classmethod.jp/articles/docker-iceberg-spark-dbeaver/#dev_classmethod #Docker #Docker_Compose #Apache_Iceberg #Apache_Spark #DBeaver
-
Инфраструктура для Data-Engineer Data Lake Apache Iceberg
В этой статье вы узнаете что такое Apache Iceberg, как его можно использовать и для чего он вообще нужен. В статье также рассматривается вопрос Data Lake.
https://habr.com/ru/articles/850674/
#data #data_lake #data_engineering #data_engineer #apache_spark #apache_iceberg #sql #дата_лейк #озеро_данных #datalakehouse