#datalake — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #datalake, aggregated by home.social.
-
https://www.europesays.com/ie/498845/ Google Cloud Introduces Cross-Engine Iceberg Support in BigQuery #AI #ApacheIceberg #Architecture&Design #Cloud #DataCatalog #DataLake #DataPortability #Éire #GoogleBigQuery #GoogleCloud #GoogleCrossEngineIceberg #IE #Ireland #ML&DataEngineering #Technology
-
DuckDB Labs released #DuckLake 1.0 - a data lake format that stores table metadata in a SQL database, rather than spreading it across object storage files.
Key features:
• catalog-stored small updates
• improved sorting and partitioning
• compatibility with Iceberg-style data featuresLearn more ⇨ https://bit.ly/48PsPIS
-
DuckDB Labs released #DuckLake 1.0 - a data lake format that stores table metadata in a SQL database, rather than spreading it across object storage files.
Key features:
• catalog-stored small updates
• improved sorting and partitioning
• compatibility with Iceberg-style data featuresLearn more ⇨ https://bit.ly/48PsPIS
-
DuckDB Labs released #DuckLake 1.0 - a data lake format that stores table metadata in a SQL database, rather than spreading it across object storage files.
Key features:
• catalog-stored small updates
• improved sorting and partitioning
• compatibility with Iceberg-style data featuresLearn more ⇨ https://bit.ly/48PsPIS
-
DuckDB Labs released #DuckLake 1.0 - a data lake format that stores table metadata in a SQL database, rather than spreading it across object storage files.
Key features:
• catalog-stored small updates
• improved sorting and partitioning
• compatibility with Iceberg-style data featuresLearn more ⇨ https://bit.ly/48PsPIS
-
DuckDB Labs released #DuckLake 1.0 - a data lake format that stores table metadata in a SQL database, rather than spreading it across object storage files.
Key features:
• catalog-stored small updates
• improved sorting and partitioning
• compatibility with Iceberg-style data featuresLearn more ⇨ https://bit.ly/48PsPIS
-
StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике
Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.
https://habr.com/ru/companies/datasapience/articles/1029814/
#dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks
-
StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике
Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.
https://habr.com/ru/companies/datasapience/articles/1029814/
#dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks
-
StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике
Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.
https://habr.com/ru/companies/datasapience/articles/1029814/
#dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks
-
StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике
Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.
https://habr.com/ru/companies/datasapience/articles/1029814/
#dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks
-
Lakehouse architectures allow multiple engines to run on shared data through open table formats like #ApacheIceberg.
But #SQL identifier resolution and catalog naming rules differ across engines - creating hidden interoperability failures.
In this #InfoQ article, Maninder Parmar explains why enforcing consistent naming conventions and cross-engine validation is critical.
📰 Read now: https://bit.ly/4902zeH
-
Lakehouse architectures allow multiple engines to run on shared data through open table formats like #ApacheIceberg.
But #SQL identifier resolution and catalog naming rules differ across engines - creating hidden interoperability failures.
In this #InfoQ article, Maninder Parmar explains why enforcing consistent naming conventions and cross-engine validation is critical.
📰 Read now: https://bit.ly/4902zeH
-
Lakehouse architectures allow multiple engines to run on shared data through open table formats like #ApacheIceberg.
But #SQL identifier resolution and catalog naming rules differ across engines - creating hidden interoperability failures.
In this #InfoQ article, Maninder Parmar explains why enforcing consistent naming conventions and cross-engine validation is critical.
📰 Read now: https://bit.ly/4902zeH
-
Lakehouse architectures allow multiple engines to run on shared data through open table formats like #ApacheIceberg.
But #SQL identifier resolution and catalog naming rules differ across engines - creating hidden interoperability failures.
In this #InfoQ article, Maninder Parmar explains why enforcing consistent naming conventions and cross-engine validation is critical.
📰 Read now: https://bit.ly/4902zeH
-
Lakehouse architectures allow multiple engines to run on shared data through open table formats like #ApacheIceberg.
But #SQL identifier resolution and catalog naming rules differ across engines - creating hidden interoperability failures.
In this #InfoQ article, Maninder Parmar explains why enforcing consistent naming conventions and cross-engine validation is critical.
📰 Read now: https://bit.ly/4902zeH
-
New Aspire database integrations
https://devblogs.microsoft.com/aspire/aspire-new-database-integrations/
#aspire #mongodb #efcore #azure #cloudnative #database #datalake
-
Spark SQL Scripting. Новые возможности для инженеров данных
До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.
https://habr.com/ru/companies/datasapience/articles/1021214/
-
Spark SQL Scripting. Новые возможности для инженеров данных
До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.
https://habr.com/ru/companies/datasapience/articles/1021214/
-
Spark SQL Scripting. Новые возможности для инженеров данных
До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.
https://habr.com/ru/companies/datasapience/articles/1021214/
-
Spark SQL Scripting. Новые возможности для инженеров данных
До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.
https://habr.com/ru/companies/datasapience/articles/1021214/
-
The Data Lakehouse Explained: Why Apache Iceberg Is Quietly Running the Show
https://techlife.blog/posts/data-lakehouse-iceberg
#ApacheIceberg #DataLakehouse #DataWarehouse #DataLake #Snowflake #ApacheSpark #DataEngineering
-
The Data Lakehouse Explained: Why Apache Iceberg Is Quietly Running the Show
https://techlife.blog/posts/data-lakehouse-iceberg
#ApacheIceberg #DataLakehouse #DataWarehouse #DataLake #Snowflake #ApacheSpark #DataEngineering
-
Confused by Data Warehouse vs. Data Lake vs. Data Mesh?
Think of it this way:
- 📦 Warehouse = organized storage room
- 🌊 Lake = throw everything in, sort later
- 🕸️ Mesh = each team owns and serves its own data - but there is still a common hub.The key insight: Mesh isn't a storage technology. You can run a Data Mesh on top of a Warehouse or Lake. It's about ownership, not infrastructure.
👉 https://www.kdnuggets.com/data-lake-vs-data-warehouse-vs-lakehouse-vs-data-mesh-whats-the-difference
#DataMesh #DataLake #DataWarehouse #DataLiteracy
— bos | 🖼️ ai-generated -
Confused by Data Warehouse vs. Data Lake vs. Data Mesh?
Think of it this way:
- 📦 Warehouse = organized storage room
- 🌊 Lake = throw everything in, sort later
- 🕸️ Mesh = each team owns and serves its own data - but there is still a common hub.The key insight: Mesh isn't a storage technology. You can run a Data Mesh on top of a Warehouse or Lake. It's about ownership, not infrastructure.
👉 https://www.kdnuggets.com/data-lake-vs-data-warehouse-vs-lakehouse-vs-data-mesh-whats-the-difference
#DataMesh #DataLake #DataWarehouse #DataLiteracy
— bos | 🖼️ ai-generated -
Confused by Data Warehouse vs. Data Lake vs. Data Mesh?
Think of it this way:
- 📦 Warehouse = organized storage room
- 🌊 Lake = throw everything in, sort later
- 🕸️ Mesh = each team owns and serves its own data - but there is still a common hub.The key insight: Mesh isn't a storage technology. You can run a Data Mesh on top of a Warehouse or Lake. It's about ownership, not infrastructure.
👉 https://www.kdnuggets.com/data-lake-vs-data-warehouse-vs-lakehouse-vs-data-mesh-whats-the-difference
#DataMesh #DataLake #DataWarehouse #DataLiteracy
— bos | 🖼️ ai-generated -
Stop the "Small File Syndrome" in your Data Lake. Learn how to implement Compaction, Z-Ordering, and automated maintenance in Databricks and Snowflake. https://hackernoon.com/the-silent-killer-of-data-lakes-solving-the-small-file-problem #datalake
-
Stop the "Small File Syndrome" in your Data Lake. Learn how to implement Compaction, Z-Ordering, and automated maintenance in Databricks and Snowflake. https://hackernoon.com/the-silent-killer-of-data-lakes-solving-the-small-file-problem #datalake
-
Stop the "Small File Syndrome" in your Data Lake. Learn how to implement Compaction, Z-Ordering, and automated maintenance in Databricks and Snowflake. https://hackernoon.com/the-silent-killer-of-data-lakes-solving-the-small-file-problem #datalake
-
Stop the "Small File Syndrome" in your Data Lake. Learn how to implement Compaction, Z-Ordering, and automated maintenance in Databricks and Snowflake. https://hackernoon.com/the-silent-killer-of-data-lakes-solving-the-small-file-problem #datalake
-
Stop the "Small File Syndrome" in your Data Lake. Learn how to implement Compaction, Z-Ordering, and automated maintenance in Databricks and Snowflake. https://hackernoon.com/the-silent-killer-of-data-lakes-solving-the-small-file-problem #datalake
-
#Uber’s HiveSync team optimized Hadoop Distcp for multi-petabyte replication across hybrid cloud and on-prem data lakes.
✅ Task parallelization
✅ Uber jobs for small transfers
✅ Improved observabilityResult: 5× replication capacity & seamless on-prem-to-cloud migration.
Read more: https://bit.ly/4bwUUFt
#InfoQ #SoftwareArchitecture #DistributedSystems #Observability #DataLake
-
#Uber’s HiveSync team optimized Hadoop Distcp for multi-petabyte replication across hybrid cloud and on-prem data lakes.
✅ Task parallelization
✅ Uber jobs for small transfers
✅ Improved observabilityResult: 5× replication capacity & seamless on-prem-to-cloud migration.
Read more: https://bit.ly/4bwUUFt
#InfoQ #SoftwareArchitecture #DistributedSystems #Observability #DataLake
-
#Uber’s HiveSync team optimized Hadoop Distcp for multi-petabyte replication across hybrid cloud and on-prem data lakes.
✅ Task parallelization
✅ Uber jobs for small transfers
✅ Improved observabilityResult: 5× replication capacity & seamless on-prem-to-cloud migration.
Read more: https://bit.ly/4bwUUFt
#InfoQ #SoftwareArchitecture #DistributedSystems #Observability #DataLake
-
#Uber’s HiveSync team optimized Hadoop Distcp for multi-petabyte replication across hybrid cloud and on-prem data lakes.
✅ Task parallelization
✅ Uber jobs for small transfers
✅ Improved observabilityResult: 5× replication capacity & seamless on-prem-to-cloud migration.
Read more: https://bit.ly/4bwUUFt
#InfoQ #SoftwareArchitecture #DistributedSystems #Observability #DataLake
-
#Uber’s HiveSync team optimized Hadoop Distcp for multi-petabyte replication across hybrid cloud and on-prem data lakes.
✅ Task parallelization
✅ Uber jobs for small transfers
✅ Improved observabilityResult: 5× replication capacity & seamless on-prem-to-cloud migration.
Read more: https://bit.ly/4bwUUFt
#InfoQ #SoftwareArchitecture #DistributedSystems #Observability #DataLake
-
Most ML issues are not model problems. They are data problems.
I retrained the same churn model twice.
Same code. Same path to the data.
Different result.Why? Because of mutable data references.
:blobcoffee: I wrote a small Data Lake vs Data Lakehouse demo showing why versioned data makes ML debugging reproducible: https://tinyurl.com/lake-vs-lakehouse-medium
:blobcoffee: Friend-Link: https://medium.com/towards-artificial-intelligence/from-data-lake-to-data-lakehouse-why-ai-changes-the-rules-for-data-platforms-c78feab48e1c?sk=405811cbc10baa4622bcfcad90736ed4
#ai #machinelearning #data #lakehouse #warehouse #python #datalake #technology #regression
-
Most ML issues are not model problems. They are data problems.
I retrained the same churn model twice.
Same code. Same path to the data.
Different result.Why? Because of mutable data references.
:blobcoffee: I wrote a small Data Lake vs Data Lakehouse demo showing why versioned data makes ML debugging reproducible: https://tinyurl.com/lake-vs-lakehouse-medium
:blobcoffee: Friend-Link: https://medium.com/towards-artificial-intelligence/from-data-lake-to-data-lakehouse-why-ai-changes-the-rules-for-data-platforms-c78feab48e1c?sk=405811cbc10baa4622bcfcad90736ed4
#ai #machinelearning #data #lakehouse #warehouse #python #datalake #technology #regression
-
Most ML issues are not model problems. They are data problems.
I retrained the same churn model twice.
Same code. Same path to the data.
Different result.Why? Because of mutable data references.
:blobcoffee: I wrote a small Data Lake vs Data Lakehouse demo showing why versioned data makes ML debugging reproducible: https://tinyurl.com/lake-vs-lakehouse-medium
:blobcoffee: Friend-Link: https://medium.com/towards-artificial-intelligence/from-data-lake-to-data-lakehouse-why-ai-changes-the-rules-for-data-platforms-c78feab48e1c?sk=405811cbc10baa4622bcfcad90736ed4
#ai #machinelearning #data #lakehouse #warehouse #python #datalake #technology #regression
-
Most ML issues are not model problems. They are data problems.
I retrained the same churn model twice.
Same code. Same path to the data.
Different result.Why? Because of mutable data references.
:blobcoffee: I wrote a small Data Lake vs Data Lakehouse demo showing why versioned data makes ML debugging reproducible: https://tinyurl.com/lake-vs-lakehouse-medium
:blobcoffee: Friend-Link: https://medium.com/towards-artificial-intelligence/from-data-lake-to-data-lakehouse-why-ai-changes-the-rules-for-data-platforms-c78feab48e1c?sk=405811cbc10baa4622bcfcad90736ed4
#ai #machinelearning #data #lakehouse #warehouse #python #datalake #technology #regression
-
Most ML issues are not model problems. They are data problems.
I retrained the same churn model twice.
Same code. Same path to the data.
Different result.Why? Because of mutable data references.
:blobcoffee: I wrote a small Data Lake vs Data Lakehouse demo showing why versioned data makes ML debugging reproducible: https://tinyurl.com/lake-vs-lakehouse-medium
:blobcoffee: Friend-Link: https://medium.com/towards-artificial-intelligence/from-data-lake-to-data-lakehouse-why-ai-changes-the-rules-for-data-platforms-c78feab48e1c?sk=405811cbc10baa4622bcfcad90736ed4
#ai #machinelearning #data #lakehouse #warehouse #python #datalake #technology #regression
-
Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными
Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.
https://habr.com/ru/companies/datasapience/articles/987006/
#lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi
-
Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными
Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.
https://habr.com/ru/companies/datasapience/articles/987006/
#lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi
-
Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными
Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.
https://habr.com/ru/companies/datasapience/articles/987006/
#lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi
-
Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными
Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.
https://habr.com/ru/companies/datasapience/articles/987006/
#lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi
-
Shifting Left delivers clean, reliable, and accessible data to everyone who needs it - right when they need it.
The result? Less complexity, lower overhead, and far less break-fix work, freeing teams to focus on higher-value problems.
At the core of a #ShiftLeft strategy are Data Products. They form the backbone of healthy data communication and ensure quality is built in - not patched on later.
📖 Great insights from this #InfoQ article on rethinking the Medallion Architecture: https://bit.ly/3WHjxsf
#SoftwareArchitecture #DataMesh #DataEngineering #DataLake #DataPipelines
-
Shifting Left delivers clean, reliable, and accessible data to everyone who needs it - right when they need it.
The result? Less complexity, lower overhead, and far less break-fix work, freeing teams to focus on higher-value problems.
At the core of a #ShiftLeft strategy are Data Products. They form the backbone of healthy data communication and ensure quality is built in - not patched on later.
📖 Great insights from this #InfoQ article on rethinking the Medallion Architecture: https://bit.ly/3WHjxsf
#SoftwareArchitecture #DataMesh #DataEngineering #DataLake #DataPipelines