#datalakehouse — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-08 · 11:42 UTC

Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

https://habr.com/ru/companies/datasapience/articles/1033038/

#mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

#ranger #bigdata #dwh #datalakehouse #lakehouse #mpp

Habr @[email protected] · 2026-05-08 · 11:42 UTC

Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

https://habr.com/ru/companies/datasapience/articles/1033038/

#mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

#ranger #bigdata #dwh #datalakehouse #lakehouse #mpp

Habr @[email protected] · 2026-05-08 · 11:42 UTC

Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

https://habr.com/ru/companies/datasapience/articles/1033038/

#mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

#ranger #bigdata #dwh #datalakehouse #lakehouse #mpp

Habr @[email protected] · 2026-05-08 · 11:42 UTC

Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

https://habr.com/ru/companies/datasapience/articles/1033038/

#mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

Habr @[email protected] · 2026-04-29 · 19:32 UTC

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

https://habr.com/ru/companies/datasapience/articles/1029814/

#dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

#starrocks #lakehouse #datalakehouse #datalake #bigdata #dwh

Habr @[email protected] · 2026-04-29 · 19:32 UTC

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

https://habr.com/ru/companies/datasapience/articles/1029814/

#dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

#starrocks #lakehouse #datalakehouse #datalake #bigdata #dwh

Habr @[email protected] · 2026-04-29 · 19:32 UTC

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

https://habr.com/ru/companies/datasapience/articles/1029814/

#dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

#starrocks #lakehouse #datalakehouse #datalake #bigdata #dwh

Habr @[email protected] · 2026-04-29 · 19:32 UTC

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

https://habr.com/ru/companies/datasapience/articles/1029814/

#dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

Habr @[email protected] · 2026-04-17 · 13:12 UTC

Терабайты данных из Teradata в Trino — эффективный способ передачи

Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе . В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать. Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector . Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник. В данной статье разберем: - Как организовать эффективную многопоточную работу с Teradata : где часто допускают ошибки, как должно выглядеть правильное решение; - Какие возможности дает Nova Trino Teradata Connector : многопоточная передача, push-down оптимизации.

https://habr.com/ru/companies/datasapience/articles/1024690/

#trino #teradata #mpp #lakehouse #datalakehouse #dwh #bigdata

#bigdata #dwh #datalakehouse #lakehouse #mpp #teradata

Habr @[email protected] · 2026-04-17 · 13:12 UTC

Терабайты данных из Teradata в Trino — эффективный способ передачи

Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе . В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать. Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector . Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник. В данной статье разберем: - Как организовать эффективную многопоточную работу с Teradata : где часто допускают ошибки, как должно выглядеть правильное решение; - Какие возможности дает Nova Trino Teradata Connector : многопоточная передача, push-down оптимизации.

https://habr.com/ru/companies/datasapience/articles/1024690/

#trino #teradata #mpp #lakehouse #datalakehouse #dwh #bigdata

#bigdata #dwh #datalakehouse #lakehouse #mpp #teradata

Habr @[email protected] · 2026-04-17 · 13:12 UTC

Терабайты данных из Teradata в Trino — эффективный способ передачи

Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе . В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать. Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector . Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник. В данной статье разберем: - Как организовать эффективную многопоточную работу с Teradata : где часто допускают ошибки, как должно выглядеть правильное решение; - Какие возможности дает Nova Trino Teradata Connector : многопоточная передача, push-down оптимизации.

https://habr.com/ru/companies/datasapience/articles/1024690/

#trino #teradata #mpp #lakehouse #datalakehouse #dwh #bigdata

#bigdata #dwh #datalakehouse #lakehouse #mpp #teradata

Habr @[email protected] · 2026-04-17 · 13:12 UTC

Терабайты данных из Teradata в Trino — эффективный способ передачи

Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе . В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать. Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector . Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник. В данной статье разберем: - Как организовать эффективную многопоточную работу с Teradata : где часто допускают ошибки, как должно выглядеть правильное решение; - Какие возможности дает Nova Trino Teradata Connector : многопоточная передача, push-down оптимизации.

https://habr.com/ru/companies/datasapience/articles/1024690/

#trino #teradata #mpp #lakehouse #datalakehouse #dwh #bigdata

#trino #teradata #mpp #lakehouse #datalakehouse #dwh

Habr @[email protected] · 2026-04-09 · 08:12 UTC

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

https://habr.com/ru/companies/datasapience/articles/1021214/

#spark #datalake #datalakehouse #lakehouse #dwh #script

#script #dwh #lakehouse #datalakehouse #datalake #spark

Habr @[email protected] · 2026-04-09 · 08:12 UTC

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

https://habr.com/ru/companies/datasapience/articles/1021214/

#spark #datalake #datalakehouse #lakehouse #dwh #script

#script #dwh #lakehouse #datalakehouse #datalake #spark

Habr @[email protected] · 2026-04-09 · 08:12 UTC

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

https://habr.com/ru/companies/datasapience/articles/1021214/

#spark #datalake #datalakehouse #lakehouse #dwh #script

#script #dwh #lakehouse #datalakehouse #datalake #spark

Habr @[email protected] · 2026-04-09 · 08:12 UTC

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

https://habr.com/ru/companies/datasapience/articles/1021214/

#spark #datalake #datalakehouse #lakehouse #dwh #script

TechLİfe @techlife_blog · 2026-03-31 · 08:24 UTC

The Data Lakehouse Explained: Why Apache Iceberg Is Quietly Running the Show

https://techlife.blog/posts/data-lakehouse-iceberg

#ApacheIceberg #DataLakehouse #DataWarehouse #DataLake #Snowflake #ApacheSpark #DataEngineering

#apacheiceberg #datalakehouse #datawarehouse #datalake #snowflake #apachespark

Habr @[email protected] · 2026-01-20 · 11:42 UTC

Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

https://habr.com/ru/companies/datasapience/articles/987006/

#lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

#bi #datalake #datalakehouse #dwh #bigdata #starrocks

Habr @[email protected] · 2026-01-20 · 11:42 UTC

Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

https://habr.com/ru/companies/datasapience/articles/987006/

#lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

#bi #datalake #datalakehouse #dwh #bigdata #starrocks

Habr @[email protected] · 2026-01-20 · 11:42 UTC

Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

https://habr.com/ru/companies/datasapience/articles/987006/

#lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

#lakehouse #impala #starrocks #bigdata #dwh #datalakehouse

Habr @[email protected] · 2026-01-20 · 11:42 UTC

Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

https://habr.com/ru/companies/datasapience/articles/987006/

#lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

#bi #datalake #datalakehouse #dwh #bigdata #starrocks

Prague PostgreSQL Dev Day @[email protected] · 2026-01-16 · 09:32 UTC

#throwback From data swamp to data lakehouse 🏗️ Josef Machytka shares real-world lessons on building a lakehouse with PostgreSQL, BigQuery, and GCS—covering formats, scaling, governance, and data quality. Keep your data clean and useful. ▶️ Watch now! https://www.youtube.com/watch?v=AUdEjYnXGbI&list=PL_m-TUcr7ZvnSBmPoxZvcB1lfy7C9eced&index=4

#PostgreSQL #PGDay #PPDD #DataLakehouse #DataEngineering

#throwback #postgresql #pgday #ppdd #datalakehouse #dataengineering

NextLytics AG @[email protected] · 2025-11-19 · 12:08 UTC

RE: https://saptodon.org/@nextlytics/115501853415430874

Our #webinar from last week is available as an on-demand recording for anyone who missed it. How can #SAP Business Data Cloud interact with a wider ecosystem of modern data platforms like #Databricks, #Snowflake, #BigQuery, and (new this week) #Fabric? Where does this trend lead?

Spoiler: maybe truly open players have the advantage in the future interoperable data ecosystem over old-fashioned proprietary-first vendors...

#datascience #dataengineering #datawarehouse #datalakehouse #lakehouse

#webinar #sap #databricks #snowflake #bigquery #fabric

Habr @[email protected] · 2025-10-23 · 13:12 UTC

Больше чем просто данные в S3. Iceberg как основа архитектуры Next-Gen КХД

Традиционные форматы хранения данных постепенно перестают удовлетворять требованиям современных распределенных вычислений и аналитики больших данных. Каскадные обновления метаданных, проблемы консистентности и высокая стоимость поддержки вынуждают искать альтернативы. Ответом на запросы стало появление формата Iceberg, который предложил новую парадигму организации структурированных данных, позволяющую эффективно управлять петабайтами информации даже в распределенных средах. Привет, Хабр. Меня зовут Алексей Белозерский. Я руководитель профессионального сервиса VK Data Platform , VK Tech. В этой статье я расскажу, что стало предпосылкой появления нового формата данных и что скрывает Iceberg «под толщей воды».

https://habr.com/ru/companies/vktech/articles/959398/

#iceberg #s3 #nextgen #lakehouse #data #bigdata #vk_tech #vk_cloud #vk_data_platform #datalakehouse

#datalakehouse #vk_data_platform #vk_cloud #vk_tech #bigdata #data

HackerNoon @[email protected] · 2025-09-15 · 17:42 UTC

Discover the fundamental principles of data model architecture in the “Handbook of Emerging Data Lake and Warehouse Design and Practice (2025)”! https://hackernoon.com/i-principles-of-data-model-architecture-four-layers-and-seven-stages #datalakehouse

#datalakehouse

Habr @[email protected] · 2025-07-26 · 06:42 UTC

ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения. Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти. Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы. Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.

https://habr.com/ru/articles/931282/

#dbt #ymlфайл #datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse #dagster

#datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse

N-gated Hacker News @[email protected] · 2025-06-20 · 16:32 UTC

Oh, look! Another magical Python-based data lakehouse 🏠🐍 that promises to solve all your problems by adopting #Bauplan and #marimo. Because clearly, the solution to data workflow woes is yet another tool even fewer people will bother to use, all wrapped up in a blog post dripping with empty jargon. 🎉 Good luck getting those models past the sandbox, nerds! 🚀
https://www.bauplanlabs.com/blog/everything-as-python #Python #DataLakehouse #DataWorkflow #TechJargon #HackerNews #ngated

#bauplan #marimo #python #datalakehouse #dataworkflow #techjargon

Hacker News @[email protected] · 2025-06-20 · 16:32 UTC

A Python-first data lakehouse

https://www.bauplanlabs.com/blog/everything-as-python

#HackerNews #Python #DataLakehouse #DataEngineering #BigData #TechNews

#datalakehouse #dataengineering #bigdata #technews #hackernews #python

Agenda du Libre @[email protected] · 2025-06-16 · 21:11 UTC

Paris: Apache Iceberg Paris Community Meetup #1, Le jeudi 19 juin 2025 de 18h00 à 21h30. https://www.agendadulibre.org/events/32653 #data #dataLakehouse #dataEngineer #dataScience #dataPlatform #dataWarehouse #apacheIceberg

#data #datalakehouse #dataengineer #datascience #dataplatform #datawarehouse

Markus Suhr @[email protected] · 2025-06-04 · 09:32 UTC

Ist ja nicht so sehr business network hier aber vielleicht ist heute zufällig noch jemand auf der TechShow Frankfurt unterwegs bzw Big Data & AI World?

Aus der @OSBA ?

#DataEngineering #databricks #dremio #Stackit #messefrankfurt #DataLakehouse

#dataengineering #databricks #dremio #stackit #messefrankfurt #datalakehouse

Gytis Repečka @[email protected] · 2025-04-09 · 09:21 UTC

Attended an event Brewing Data with Snowflake yesterday in Vilnius :blobcatnerd:

Some of they key insights:

Medallion Architecture (good or bad) is widespread.
Snowflake and Databricks are clear competitors, targeting similar landscape.
Open formats are trending: file format, table format, catalog, etc. - the more of them are open source, the better.
Time travel feature is important, many users already used it for disaster recovery.
Clear distinction of Storage from Compute (generic cloud approach).

Full text of one of the slides presented:

Strategic Architecture Outlook
Agility & Future-Proofing - Open, portable data means you can adopt new technologies or switch platforms with minimal friction. No single vendor can hold your data hostage, so you can evolve vour architecture as needed.
Multi-Cloud and Hybrid - An open data layer can span clouds and on-prem seamlessly. You avoid cloud vendor lock-in and leverage best-of-breed services on different clouds using the same data. This flexibility is key for resilience and optimization.
Accelerating Innovation - When any team can access data with the tools of their choice, experimentation flourishes. Open data fosters Al/ML and cross-domain analytics since data isn't locked in silos - more innovation and insights from the same data.
Vendor Leverage - Strategically, using open standards increases your leverage in vendor negotiations. You car opt in or out of services more freely, pushing vendors to provide value (since you're not irreversibly locked to them).

#data #datalake #datalakehouse #medallion #architecture #snowflake #vilnius #lithuania #bigdata #event #meetup

#data #datalake #datalakehouse #medallion #architecture #snowflake

Sarah Lea @[email protected] · 2025-02-08 · 20:35 UTC

There is no need to move data. Data latency is minimised. Data can be transformed and analysed within a single platform.

Let me know what you know about Zero-ETL :blobcoffee:

Why ETL-Zero? Understanding the shift in Data Integration“ by Sarah Lea on Medium: https://medium.com/towards-data-science/why-etl-zero-understanding-the-shift-in-data-integration-as-a-beginner-d0cefa244154

#python #datalake #cloudcomputing #etl #zeroetl #salesforce #data #tech #technology #datawarehousing #datalakehouse

#python #datalake #cloudcomputing #etl #zeroetl #salesforce

Sarah Lea @[email protected] · 2024-12-24 · 20:53 UTC

One of the most highlighted parts: "There is no need to move data. Data latency is minimised. Data can be transformed and analysed within a single platform.“

This is one of the reasons for 'Why ETL-Zero' :blobcoffee:

https://towardsdatascience.com/why-etl-zero-understanding-the-shift-in-data-integration-as-a-beginner-d0cefa244154

#data #datascience #dataanalysis #dataanalytics #DataEngineering #sql #salesforce #etl #datawarehouse #datalake #datalakehouse #programming

#programming #data #datascience #dataanalysis #dataanalytics #dataengineering

Sarah Lea @[email protected] · 2024-12-12 · 01:09 UTC

In a data warehouse you store structured & organized data. In a data lake you can additionally store unstructured data. And was is now a data lakehouse?

Think of a combination of the strengths of both previous data platforms. :blobcoffee:

https://towardsdatascience.com/sql-and-data-modelling-in-action-a-deep-dive-into-data-lakehouses-fcbab9a4b9c2

#data #DataEngineering #datalakehouse #datacenters #datawarehouse #datalake #datascience #sql

#data #dataengineering #datalakehouse #datacenters #datawarehouse #datalake

Towards Data Science @[email protected] · 2024-10-22 · 06:29 UTC

Anyone working with business intelligence, data science, data analysis, or cloud computing will have come across SQL at some point. Take a deep dive into data lakehouses, SQL, data modeling + more in Sarah Lea's latest article.

#DataLakehouse

https://towardsdatascience.com/sql-and-data-modelling-in-action-a-deep-dive-into-data-lakehouses-fcbab9a4b9c2

#datalakehouse

Habr @[email protected] · 2024-10-18 · 06:12 UTC

Инфраструктура для Data-Engineer Data Lake Apache Iceberg

В этой статье вы узнаете что такое Apache Iceberg, как его можно использовать и для чего он вообще нужен. В статье также рассматривается вопрос Data Lake.

https://habr.com/ru/articles/850674/

#data #data_lake #data_engineering #data_engineer #apache_spark #apache_iceberg #sql #дата_лейк #озеро_данных #datalakehouse

#data #data_lake #data_engineering #data_engineer #apache_spark #apache_iceberg

James Bartlett :terminal: @[email protected] · 2024-09-26 · 15:27 UTC

#PowerHour with @SQLAllFather, #GopalKrishnamurthy, and @guyinacubee is in full swing!

Gopal is demoing a new #InfoRiver feature: #Writeback to #MicrosoftFabric #DataLakehouse!

#FabConEurope #MSFabric

#powerhour #gopalkrishnamurthy #inforiver #writeback #microsoftfabric #datalakehouse

jay @[email protected] · 2023-08-28 · 00:57 UTC

🔥⏲️ Fudge Sunday "Are You Gonna Go Parquet" A look at the past, present, and future of Apache Parquet

#apacheiceberg #apachespark #prestodb #prestosql #trino #aiops #mlops #artificialintelligence #ai #aiforgood #aiforall #aiandbusiness #datalake #datalakehouse #datalakes #insights #dataengineering #realtimeanalytics #realtimedata #dataintegration #platformengineering #watsonx #devx #developerexperience #newsletter #newsletters

https://fudge.org/archive/are-you-gonna-go-parquet/

#apacheiceberg #apachespark #prestodb #prestosql #trino #aiops

rmoff 🏃🏻 🍺 🥓 @[email protected] · 2023-03-03 · 09:34 UTC

Interesting video from Simon Whiteley about pros & cons of #datavault on #datalakehouse
https://www.youtube.com/watch?v=RNMoWnSWcTo

#datadon #dataengineering #datamodeling
#noxp

#datavault #datalakehouse #datadon #dataengineering #datamodeling #noxp

heise online (inoffiziell) @[email protected] · 2022-12-16 · 12:30 UTC

heise+ | Datenqualität mit der Python-Bibliothek Great Expectations sichern

Great Expectations unterstützt Data Scientists und Data Engineers bei der Datenqualitätssicherung. Es ist eine komplexe Software mit niedrigen Eintiegshürden.
Datenqualität mit der Python-Bibliothek Great Expectations sichern

#softwareentwicklung #python #skriptsprachen #bigdata #wissensmanagement #datalakehouse