home.social

#datalakehouse — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #datalakehouse, aggregated by home.social.

  1. Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

    Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

    habr.com/ru/companies/datasapi

    #mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

  2. Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

    Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

    habr.com/ru/companies/datasapi

    #mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

  3. Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

    Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

    habr.com/ru/companies/datasapi

    #mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

  4. Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

    Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

    habr.com/ru/companies/datasapi

    #mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

  5. StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

    Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

    habr.com/ru/companies/datasapi

    #dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

  6. StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

    Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

    habr.com/ru/companies/datasapi

    #dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

  7. StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

    Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

    habr.com/ru/companies/datasapi

    #dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

  8. StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

    Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

    habr.com/ru/companies/datasapi

    #dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

  9. Терабайты данных из Teradata в Trino — эффективный способ передачи

    Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе . В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать. Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector . Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник. В данной статье разберем: - Как организовать эффективную многопоточную работу с Teradata : где часто допускают ошибки, как должно выглядеть правильное решение; - Какие возможности дает Nova Trino Teradata Connector : многопоточная передача, push-down оптимизации.

    habr.com/ru/companies/datasapi

    #trino #teradata #mpp #lakehouse #datalakehouse #dwh #bigdata

  10. Терабайты данных из Teradata в Trino — эффективный способ передачи

    Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе . В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать. Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector . Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник. В данной статье разберем: - Как организовать эффективную многопоточную работу с Teradata : где часто допускают ошибки, как должно выглядеть правильное решение; - Какие возможности дает Nova Trino Teradata Connector : многопоточная передача, push-down оптимизации.

    habr.com/ru/companies/datasapi

    #trino #teradata #mpp #lakehouse #datalakehouse #dwh #bigdata

  11. Терабайты данных из Teradata в Trino — эффективный способ передачи

    Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе . В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать. Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector . Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник. В данной статье разберем: - Как организовать эффективную многопоточную работу с Teradata : где часто допускают ошибки, как должно выглядеть правильное решение; - Какие возможности дает Nova Trino Teradata Connector : многопоточная передача, push-down оптимизации.

    habr.com/ru/companies/datasapi

    #trino #teradata #mpp #lakehouse #datalakehouse #dwh #bigdata

  12. Терабайты данных из Teradata в Trino — эффективный способ передачи

    Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе . В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать. Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector . Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник. В данной статье разберем: - Как организовать эффективную многопоточную работу с Teradata : где часто допускают ошибки, как должно выглядеть правильное решение; - Какие возможности дает Nova Trino Teradata Connector : многопоточная передача, push-down оптимизации.

    habr.com/ru/companies/datasapi

    #trino #teradata #mpp #lakehouse #datalakehouse #dwh #bigdata

  13. Spark SQL Scripting. Новые возможности для инженеров данных

    До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

    habr.com/ru/companies/datasapi

    #spark #datalake #datalakehouse #lakehouse #dwh #script

  14. Spark SQL Scripting. Новые возможности для инженеров данных

    До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

    habr.com/ru/companies/datasapi

    #spark #datalake #datalakehouse #lakehouse #dwh #script

  15. Spark SQL Scripting. Новые возможности для инженеров данных

    До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

    habr.com/ru/companies/datasapi

    #spark #datalake #datalakehouse #lakehouse #dwh #script

  16. Spark SQL Scripting. Новые возможности для инженеров данных

    До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

    habr.com/ru/companies/datasapi

    #spark #datalake #datalakehouse #lakehouse #dwh #script

  17. Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

    Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

    habr.com/ru/companies/datasapi

    #lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

  18. Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

    Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

    habr.com/ru/companies/datasapi

    #lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

  19. Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

    Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

    habr.com/ru/companies/datasapi

    #lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

  20. Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

    Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

    habr.com/ru/companies/datasapi

    #lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

  21. #throwback From data swamp to data lakehouse 🏗️ Josef Machytka shares real-world lessons on building a lakehouse with PostgreSQL, BigQuery, and GCS—covering formats, scaling, governance, and data quality. Keep your data clean and useful. ▶️ Watch now! youtube.com/watch?v=AUdEjYnXGb

    #PostgreSQL #PGDay #PPDD #DataLakehouse #DataEngineering

  22. RE: saptodon.org/@nextlytics/11550

    Our #webinar from last week is available as an on-demand recording for anyone who missed it. How can #SAP Business Data Cloud interact with a wider ecosystem of modern data platforms like #Databricks, #Snowflake, #BigQuery, and (new this week) #Fabric? Where does this trend lead?

    Spoiler: maybe truly open players have the advantage in the future interoperable data ecosystem over old-fashioned proprietary-first vendors...

    #datascience #dataengineering #datawarehouse #datalakehouse #lakehouse

  23. Больше чем просто данные в S3. Iceberg как основа архитектуры Next-Gen КХД

    Традиционные форматы хранения данных постепенно перестают удовлетворять требованиям современных распределенных вычислений и аналитики больших данных. Каскадные обновления метаданных, проблемы консистентности и высокая стоимость поддержки вынуждают искать альтернативы. Ответом на запросы стало появление формата Iceberg, который предложил новую парадигму организации структурированных данных, позволяющую эффективно управлять петабайтами информации даже в распределенных средах. Привет, Хабр. Меня зовут Алексей Белозерский. Я руководитель профессионального сервиса VK Data Platform , VK Tech. В этой статье я расскажу, что стало предпосылкой появления нового формата данных и что скрывает Iceberg «под толщей воды».

    habr.com/ru/companies/vktech/a

    #iceberg #s3 #nextgen #lakehouse #data #bigdata #vk_tech #vk_cloud #vk_data_platform #datalakehouse

  24. Discover the fundamental principles of data model architecture in the “Handbook of Emerging Data Lake and Warehouse Design and Practice (2025)”! hackernoon.com/i-principles-of #datalakehouse

  25. ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

    К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения. Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти. Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы. Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.

    habr.com/ru/articles/931282/

    #dbt #ymlфайл #datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse #dagster

  26. Oh, look! Another magical Python-based data lakehouse 🏠🐍 that promises to solve all your problems by adopting #Bauplan and #marimo. Because clearly, the solution to data workflow woes is yet another tool even fewer people will bother to use, all wrapped up in a blog post dripping with empty jargon. 🎉 Good luck getting those models past the sandbox, nerds! 🚀
    bauplanlabs.com/blog/everythin #Python #DataLakehouse #DataWorkflow #TechJargon #HackerNews #ngated

  27. Ist ja nicht so sehr business network hier aber vielleicht ist heute zufällig noch jemand auf der TechShow Frankfurt unterwegs bzw Big Data & AI World?

    Aus der @OSBA ?

    #DataEngineering #databricks #dremio #Stackit #messefrankfurt #DataLakehouse

  28. Attended an event Brewing Data with Snowflake yesterday in Vilnius :blobcatnerd:

    Some of they key insights:

    • Medallion Architecture (good or bad) is widespread.
    • Snowflake and Databricks are clear competitors, targeting similar landscape.
    • Open formats are trending: file format, table format, catalog, etc. - the more of them are open source, the better.
    • Time travel feature is important, many users already used it for disaster recovery.
    • Clear distinction of Storage from Compute (generic cloud approach).

    Full text of one of the slides presented:

    Strategic Architecture Outlook

    • Agility & Future-Proofing - Open, portable data means you can adopt new technologies or switch platforms with minimal friction. No single vendor can hold your data hostage, so you can evolve vour architecture as needed.
    • Multi-Cloud and Hybrid - An open data layer can span clouds and on-prem seamlessly. You avoid cloud vendor lock-in and leverage best-of-breed services on different clouds using the same data. This flexibility is key for resilience and optimization.
    • Accelerating Innovation - When any team can access data with the tools of their choice, experimentation flourishes. Open data fosters Al/ML and cross-domain analytics since data isn't locked in silos - more innovation and insights from the same data.
    • Vendor Leverage - Strategically, using open standards increases your leverage in vendor negotiations. You car opt in or out of services more freely, pushing vendors to provide value (since you're not irreversibly locked to them).

    #data #datalake #datalakehouse #medallion #architecture #snowflake #vilnius #lithuania #bigdata #event #meetup

  29. There is no need to move data. Data latency is minimised. Data can be transformed and analysed within a single platform.

    Let me know what you know about Zero-ETL :blobcoffee:

    Why ETL-Zero? Understanding the shift in Data Integration“ by Sarah Lea on Medium: medium.com/towards-data-scienc

    #python #datalake #cloudcomputing #etl #zeroetl #salesforce #data #tech #technology #datawarehousing #datalakehouse

  30. In a data warehouse you store structured & organized data. In a data lake you can additionally store unstructured data. And was is now a data lakehouse?

    Think of a combination of the strengths of both previous data platforms. :blobcoffee:

    towardsdatascience.com/sql-and

    #data #DataEngineering #datalakehouse #datacenters #datawarehouse #datalake #datascience #sql

  31. Anyone working with business intelligence, data science, data analysis, or cloud computing will have come across SQL at some point. Take a deep dive into data lakehouses, SQL, data modeling + more in Sarah Lea's latest article.

    #DataLakehouse

    towardsdatascience.com/sql-and

  32. Инфраструктура для Data-Engineer Data Lake Apache Iceberg

    В этой статье вы узнаете что такое Apache Iceberg, как его можно использовать и для чего он вообще нужен. В статье также рассматривается вопрос Data Lake.

    habr.com/ru/articles/850674/

    #data #data_lake #data_engineering #data_engineer #apache_spark #apache_iceberg #sql #дата_лейк #озеро_данных #datalakehouse

  33. heise+ | Datenqualität mit der Python-Bibliothek Great Expectations sichern

    Great Expectations unterstützt Data Scientists und Data Engineers bei der Datenqualitätssicherung. Es ist eine komplexe Software mit niedrigen Eintiegshürden.
    Datenqualität mit der Python-Bibliothek Great Expectations sichern