home.social

#datalake — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #datalake, aggregated by home.social.

  1. DuckDB Labs released #DuckLake 1.0 - a data lake format that stores table metadata in a SQL database, rather than spreading it across object storage files.

    Key features:
    • catalog-stored small updates
    • improved sorting and partitioning
    • compatibility with Iceberg-style data features

    Learn more ⇨ bit.ly/48PsPIS

    #InfoQ #DuckDB #ApacheIceberg #AI #DataLake #DataStorage

  2. DuckDB Labs released #DuckLake 1.0 - a data lake format that stores table metadata in a SQL database, rather than spreading it across object storage files.

    Key features:
    • catalog-stored small updates
    • improved sorting and partitioning
    • compatibility with Iceberg-style data features

    Learn more ⇨ bit.ly/48PsPIS

    #InfoQ #DuckDB #ApacheIceberg #AI #DataLake #DataStorage

  3. DuckDB Labs released #DuckLake 1.0 - a data lake format that stores table metadata in a SQL database, rather than spreading it across object storage files.

    Key features:
    • catalog-stored small updates
    • improved sorting and partitioning
    • compatibility with Iceberg-style data features

    Learn more ⇨ bit.ly/48PsPIS

    #InfoQ #DuckDB #ApacheIceberg #AI #DataLake #DataStorage

  4. DuckDB Labs released 1.0 - a data lake format that stores table metadata in a SQL database, rather than spreading it across object storage files.

    Key features:
    • catalog-stored small updates
    • improved sorting and partitioning
    • compatibility with Iceberg-style data features

    Learn more ⇨ bit.ly/48PsPIS

  5. DuckDB Labs released #DuckLake 1.0 - a data lake format that stores table metadata in a SQL database, rather than spreading it across object storage files.

    Key features:
    • catalog-stored small updates
    • improved sorting and partitioning
    • compatibility with Iceberg-style data features

    Learn more ⇨ bit.ly/48PsPIS

    #InfoQ #DuckDB #ApacheIceberg #AI #DataLake #DataStorage

  6. StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

    Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

    habr.com/ru/companies/datasapi

    #dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

  7. StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

    Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

    habr.com/ru/companies/datasapi

    #dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

  8. StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

    Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

    habr.com/ru/companies/datasapi

    #dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

  9. StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

    Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

    habr.com/ru/companies/datasapi

    #dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

  10. Lakehouse architectures allow multiple engines to run on shared data through open table formats like #ApacheIceberg.

    But #SQL identifier resolution and catalog naming rules differ across engines - creating hidden interoperability failures.

    In this #InfoQ article, Maninder Parmar explains why enforcing consistent naming conventions and cross-engine validation is critical.

    📰 Read now: bit.ly/4902zeH

    #RelationalDatabases #DataLake

  11. Lakehouse architectures allow multiple engines to run on shared data through open table formats like #ApacheIceberg.

    But #SQL identifier resolution and catalog naming rules differ across engines - creating hidden interoperability failures.

    In this #InfoQ article, Maninder Parmar explains why enforcing consistent naming conventions and cross-engine validation is critical.

    📰 Read now: bit.ly/4902zeH

    #RelationalDatabases #DataLake

  12. Lakehouse architectures allow multiple engines to run on shared data through open table formats like #ApacheIceberg.

    But #SQL identifier resolution and catalog naming rules differ across engines - creating hidden interoperability failures.

    In this #InfoQ article, Maninder Parmar explains why enforcing consistent naming conventions and cross-engine validation is critical.

    📰 Read now: bit.ly/4902zeH

    #RelationalDatabases #DataLake

  13. Lakehouse architectures allow multiple engines to run on shared data through open table formats like .

    But identifier resolution and catalog naming rules differ across engines - creating hidden interoperability failures.

    In this article, Maninder Parmar explains why enforcing consistent naming conventions and cross-engine validation is critical.

    📰 Read now: bit.ly/4902zeH

  14. Lakehouse architectures allow multiple engines to run on shared data through open table formats like #ApacheIceberg.

    But #SQL identifier resolution and catalog naming rules differ across engines - creating hidden interoperability failures.

    In this #InfoQ article, Maninder Parmar explains why enforcing consistent naming conventions and cross-engine validation is critical.

    📰 Read now: bit.ly/4902zeH

    #RelationalDatabases #DataLake

  15. Spark SQL Scripting. Новые возможности для инженеров данных

    До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

    habr.com/ru/companies/datasapi

    #spark #datalake #datalakehouse #lakehouse #dwh #script

  16. Spark SQL Scripting. Новые возможности для инженеров данных

    До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

    habr.com/ru/companies/datasapi

    #spark #datalake #datalakehouse #lakehouse #dwh #script

  17. Spark SQL Scripting. Новые возможности для инженеров данных

    До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

    habr.com/ru/companies/datasapi

    #spark #datalake #datalakehouse #lakehouse #dwh #script

  18. Spark SQL Scripting. Новые возможности для инженеров данных

    До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

    habr.com/ru/companies/datasapi

    #spark #datalake #datalakehouse #lakehouse #dwh #script

  19. Confused by Data Warehouse vs. Data Lake vs. Data Mesh?

    Think of it this way:
    - 📦 Warehouse = organized storage room
    - 🌊 Lake = throw everything in, sort later
    - 🕸️ Mesh = each team owns and serves its own data - but there is still a common hub.

    The key insight: Mesh isn't a storage technology. You can run a Data Mesh on top of a Warehouse or Lake. It's about ownership, not infrastructure.

    👉 kdnuggets.com/data-lake-vs-dat

    #DataMesh #DataLake #DataWarehouse #DataLiteracy
    — bos | 🖼️ ai-generated

  20. Confused by Data Warehouse vs. Data Lake vs. Data Mesh?

    Think of it this way:
    - 📦 Warehouse = organized storage room
    - 🌊 Lake = throw everything in, sort later
    - 🕸️ Mesh = each team owns and serves its own data - but there is still a common hub.

    The key insight: Mesh isn't a storage technology. You can run a Data Mesh on top of a Warehouse or Lake. It's about ownership, not infrastructure.

    👉 kdnuggets.com/data-lake-vs-dat

    #DataMesh #DataLake #DataWarehouse #DataLiteracy
    — bos | 🖼️ ai-generated

  21. Confused by Data Warehouse vs. Data Lake vs. Data Mesh?

    Think of it this way:
    - 📦 Warehouse = organized storage room
    - 🌊 Lake = throw everything in, sort later
    - 🕸️ Mesh = each team owns and serves its own data - but there is still a common hub.

    The key insight: Mesh isn't a storage technology. You can run a Data Mesh on top of a Warehouse or Lake. It's about ownership, not infrastructure.

    👉 kdnuggets.com/data-lake-vs-dat

    #DataMesh #DataLake #DataWarehouse #DataLiteracy
    — bos | 🖼️ ai-generated

  22. Stop the "Small File Syndrome" in your Data Lake. Learn how to implement Compaction, Z-Ordering, and automated maintenance in Databricks and Snowflake. hackernoon.com/the-silent-kill #datalake

  23. Stop the "Small File Syndrome" in your Data Lake. Learn how to implement Compaction, Z-Ordering, and automated maintenance in Databricks and Snowflake. hackernoon.com/the-silent-kill #datalake

  24. Stop the "Small File Syndrome" in your Data Lake. Learn how to implement Compaction, Z-Ordering, and automated maintenance in Databricks and Snowflake. hackernoon.com/the-silent-kill

  25. Stop the "Small File Syndrome" in your Data Lake. Learn how to implement Compaction, Z-Ordering, and automated maintenance in Databricks and Snowflake. hackernoon.com/the-silent-kill #datalake

  26. Stop the "Small File Syndrome" in your Data Lake. Learn how to implement Compaction, Z-Ordering, and automated maintenance in Databricks and Snowflake. hackernoon.com/the-silent-kill #datalake

  27. #Uber’s HiveSync team optimized Hadoop Distcp for multi-petabyte replication across hybrid cloud and on-prem data lakes.

    ✅ Task parallelization
    ✅ Uber jobs for small transfers
    ✅ Improved observability

    Result: 5× replication capacity & seamless on-prem-to-cloud migration.

    Read more: bit.ly/4bwUUFt

    #InfoQ #SoftwareArchitecture #DistributedSystems #Observability #DataLake

  28. #Uber’s HiveSync team optimized Hadoop Distcp for multi-petabyte replication across hybrid cloud and on-prem data lakes.

    ✅ Task parallelization
    ✅ Uber jobs for small transfers
    ✅ Improved observability

    Result: 5× replication capacity & seamless on-prem-to-cloud migration.

    Read more: bit.ly/4bwUUFt

    #InfoQ #SoftwareArchitecture #DistributedSystems #Observability #DataLake

  29. #Uber’s HiveSync team optimized Hadoop Distcp for multi-petabyte replication across hybrid cloud and on-prem data lakes.

    ✅ Task parallelization
    ✅ Uber jobs for small transfers
    ✅ Improved observability

    Result: 5× replication capacity & seamless on-prem-to-cloud migration.

    Read more: bit.ly/4bwUUFt

    #InfoQ #SoftwareArchitecture #DistributedSystems #Observability #DataLake

  30. ’s HiveSync team optimized Hadoop Distcp for multi-petabyte replication across hybrid cloud and on-prem data lakes.

    ✅ Task parallelization
    ✅ Uber jobs for small transfers
    ✅ Improved observability

    Result: 5× replication capacity & seamless on-prem-to-cloud migration.

    Read more: bit.ly/4bwUUFt

  31. #Uber’s HiveSync team optimized Hadoop Distcp for multi-petabyte replication across hybrid cloud and on-prem data lakes.

    ✅ Task parallelization
    ✅ Uber jobs for small transfers
    ✅ Improved observability

    Result: 5× replication capacity & seamless on-prem-to-cloud migration.

    Read more: bit.ly/4bwUUFt

    #InfoQ #SoftwareArchitecture #DistributedSystems #Observability #DataLake

  32. Most ML issues are not model problems. They are data problems.

    I retrained the same churn model twice.
    Same code. Same path to the data.
    Different result.

    Why? Because of mutable data references.

    :blobcoffee: I wrote a small Data Lake vs Data Lakehouse demo showing why versioned data makes ML debugging reproducible: tinyurl.com/lake-vs-lakehouse-

    :blobcoffee: Friend-Link: medium.com/towards-artificial-

    #ai #machinelearning #data #lakehouse #warehouse #python #datalake #technology #regression

  33. Most ML issues are not model problems. They are data problems.

    I retrained the same churn model twice.
    Same code. Same path to the data.
    Different result.

    Why? Because of mutable data references.

    :blobcoffee: I wrote a small Data Lake vs Data Lakehouse demo showing why versioned data makes ML debugging reproducible: tinyurl.com/lake-vs-lakehouse-

    :blobcoffee: Friend-Link: medium.com/towards-artificial-

    #ai #machinelearning #data #lakehouse #warehouse #python #datalake #technology #regression

  34. Most ML issues are not model problems. They are data problems.

    I retrained the same churn model twice.
    Same code. Same path to the data.
    Different result.

    Why? Because of mutable data references.

    :blobcoffee: I wrote a small Data Lake vs Data Lakehouse demo showing why versioned data makes ML debugging reproducible: tinyurl.com/lake-vs-lakehouse-

    :blobcoffee: Friend-Link: medium.com/towards-artificial-

    #ai #machinelearning #data #lakehouse #warehouse #python #datalake #technology #regression

  35. Most ML issues are not model problems. They are data problems.

    I retrained the same churn model twice.
    Same code. Same path to the data.
    Different result.

    Why? Because of mutable data references.

    :blobcoffee: I wrote a small Data Lake vs Data Lakehouse demo showing why versioned data makes ML debugging reproducible: tinyurl.com/lake-vs-lakehouse-

    :blobcoffee: Friend-Link: medium.com/towards-artificial-

  36. Most ML issues are not model problems. They are data problems.

    I retrained the same churn model twice.
    Same code. Same path to the data.
    Different result.

    Why? Because of mutable data references.

    :blobcoffee: I wrote a small Data Lake vs Data Lakehouse demo showing why versioned data makes ML debugging reproducible: tinyurl.com/lake-vs-lakehouse-

    :blobcoffee: Friend-Link: medium.com/towards-artificial-

    #ai #machinelearning #data #lakehouse #warehouse #python #datalake #technology #regression

  37. Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

    Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

    habr.com/ru/companies/datasapi

    #lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

  38. Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

    Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

    habr.com/ru/companies/datasapi

    #lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

  39. Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

    Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

    habr.com/ru/companies/datasapi

    #lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

  40. Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

    Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

    habr.com/ru/companies/datasapi

    #lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

  41. Shifting Left delivers clean, reliable, and accessible data to everyone who needs it - right when they need it.

    The result? Less complexity, lower overhead, and far less break-fix work, freeing teams to focus on higher-value problems.

    At the core of a #ShiftLeft strategy are Data Products. They form the backbone of healthy data communication and ensure quality is built in - not patched on later.

    📖 Great insights from this #InfoQ article on rethinking the Medallion Architecture: bit.ly/3WHjxsf

    #SoftwareArchitecture #DataMesh #DataEngineering #DataLake #DataPipelines

  42. Shifting Left delivers clean, reliable, and accessible data to everyone who needs it - right when they need it.

    The result? Less complexity, lower overhead, and far less break-fix work, freeing teams to focus on higher-value problems.

    At the core of a #ShiftLeft strategy are Data Products. They form the backbone of healthy data communication and ensure quality is built in - not patched on later.

    📖 Great insights from this #InfoQ article on rethinking the Medallion Architecture: bit.ly/3WHjxsf

    #SoftwareArchitecture #DataMesh #DataEngineering #DataLake #DataPipelines