“dataplane” — Fediverse search results on home.social

Abi Aryan :coffefied: @[email protected] · 2022-11-05 · 19:58 UTC

Also
#datacontracts
#TrustworthyAI
#ethicalai
#monitoring
#logging
#spark
#ApacheSpark
#apachecassandra
#ApacheKafka
#DataLake
#datalakes
#datawarehousing
#datawarehouses

#datawarehouses #datawarehousing #datalakes #datalake #apachekafka #apachecassandra

Thoughtful Disclaimer @[email protected] · 2026-04-30 · 23:01 UTC

Colonia Aurora’s Women’s Day gift bag sparked a very awkward national conversation

A celebratory photo takes an unexpected turn as symbolism sparks debate over gender roles.

Dear Cherubs, in Colonia Aurora, Misiones, a Women’s Day celebration turned into a public-relations skid mark after the municipality handed out cleaning supplies as prizes and posed the winners for photos. The event was meant to honor local women, but the visual language did the exact opposite and the internet noticed immediately.

THE PHOTO OP
Misiones Online reported that the municipality’s annual event included talks, music and recreational activities, and that more than 200 people attended. But the image that escaped into the wild was not the speech or the concert; it was women smiling with brooms, buckets and squeegees on a day that is supposed to recognize equality, not repackage housework as a prize.

Página/12 and Infobae both described the same basic scene: prizes linked to domestic chores, posted from the municipality’s own social media, followed by a wave of criticism. That is the kind of clue that tells you the problem was not just what happened, but how proudly it was photographed.

THE DEFENSE
Mayor Carlos Goring told local media the cleaning items were part of a mime game and were not the only gifts handed out. He argued the day also included reflection, health talks and other prizes, but once the optics have gone viral, explanations tend to arrive carrying a very small umbrella.

The municipality itself is a small one, with a little over 10,000 residents, tucked in Misiones near the Uruguay River and known for tobacco, yerba mate, soy and an increasingly important pineapple harvest, according to Infobae and DataClave. That is the kind of place where a community event can feel intimate and well-intended, right up until a photo turns it into a national punchline.

The blunt truth is that International Women’s Day carries a century-long history of labor, rights and political struggle, so a broom can never really be “just a joke” once it becomes the centerpiece. A playful game may have been the intent, but the message received by many viewers was a shrugging remix of old stereotypes, which is why the backlash spread so fast.

As noted by thisclaimer.com, the story is less about one municipal blunder than about the gap between intent and image. In the age of instant sharing, that gap can turn a local tribute into a national embarrassment before the mop water has even dried.

Colonia Aurora probably meant to stage a warm, community-minded event. Instead, it managed to hand critics a perfectly packaged symbol of exactly what not to do on 8M, and that is a hard lesson to sweep under the rug.

Misiones Online — https://misionesonline.net/2026/03/09/entrega-de-escobas-y-baldes-dia-de-la-mujer-criticas/
Infobae — https://www.infobae.com/politica/2026/03/09/polemico-festejo-por-el-dia-de-la-mujer-en-misiones-un-municipio-entrego-baldes-escurridores-y-escobas-como-premios/
Página/12 — https://www.pagina12.com.ar/2026/03/09/un-municipio-de-misiones-regalo-baldes-escobas-y-escurridores-por-el-dia-de-la-mujer/
DataClave — https://www.dataclave.com.ar/poder/controversia-en-pueblo-de-misiones-tras-un-festejo-del-8m-donde-regalaron-escobas-y-baldes_a69af09dc1d279cdde00a0818
thisclaimer.com — https://thisclaimer.com
Thisclaimer YouTube — https://www.youtube.com/@thisclaimer?sub_confirmation=1

The Thisclaimer logo blends a classic warning symbol with a brain icon to represent critical thinking, curiosity, and thoughtful disclaimers. #Argentina #coloniaAurora #controversialEvent #criticism #culturalBacklash #education #equalityDebate #feministCritique #genderControversy #genderRolesDebate #genderStereotypes #governmentBacklash #health #inspiration #internationalWomensDay #localNews #mediaCriticism #misiones #municipalControversy #municipalPolitics #Music #news #opticsFail #outdatedStereotypes #poetry #politicalMisstep #PRDisaster #publicBacklash #publicCriticism #publicOutrage #PublicRelations #sexismDebate #socialMediaOutrage #symbolicControversy #toneDeaf #viral #viralBacklash #viralControversy #womenRightsDebate #womensDay

#womensday #womenrightsdebate #viralcontroversy #viralbacklash #viral #tonedeaf

Habr @[email protected] · 2026-05-08 · 11:42 UTC

Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

https://habr.com/ru/companies/datasapience/articles/1033038/

#mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

#ranger #bigdata #dwh #datalakehouse #lakehouse #mpp

Habr @[email protected] · 2026-05-08 · 11:42 UTC

Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

https://habr.com/ru/companies/datasapience/articles/1033038/

#mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

#ranger #bigdata #dwh #datalakehouse #lakehouse #mpp

Habr @[email protected] · 2026-05-08 · 11:42 UTC

Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

https://habr.com/ru/companies/datasapience/articles/1033038/

#mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

#ranger #bigdata #dwh #datalakehouse #lakehouse #mpp

Habr @[email protected] · 2026-05-08 · 11:42 UTC

Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

https://habr.com/ru/companies/datasapience/articles/1033038/

#mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

InfoQ @[email protected] · 2026-05-07 · 05:00 UTC

DuckDB Labs released #DuckLake 1.0 - a data lake format that stores table metadata in a SQL database, rather than spreading it across object storage files.

Key features:
• catalog-stored small updates
• improved sorting and partitioning
• compatibility with Iceberg-style data features

Learn more ⇨ https://bit.ly/48PsPIS

#InfoQ #DuckDB #ApacheIceberg #AI #DataLake #DataStorage

#ducklake #infoq #duckdb #apacheiceberg #ai #datalake

Graylog @[email protected] · 2025-11-21 · 23:54 UTC

Data lakes are typically thought of as simple warehouses. But they don't have to be! 👀 In Graylog 7.0 data lakes function as pressure release valves for #security teams overwhelmed by storage costs, investigation delays, and cloud data sprawl — where analysts can get direct access to long term data, and more.

Our data lake provides inexpensive storage where logs stay searchable, preview-able, and recoverable. Learn more about getting cloud scale without cloud surprises, and why this is a truly practical stance on managing data volume.

https://graylog.org/post/how-to-use-data-lakes-to-reduce-siem-costs-and-strengthen-investigations/ #CyberSecurity #SEIM #DataLake #TDIR

#security #cybersecurity #seim #datalake #tdir

Graylog @[email protected] · 2025-11-21 · 23:54 UTC

Data lakes are typically thought of as simple warehouses. But they don't have to be! 👀 In Graylog 7.0 data lakes function as pressure release valves for #security teams overwhelmed by storage costs, investigation delays, and cloud data sprawl — where analysts can get direct access to long term data, and more.

Our data lake provides inexpensive storage where logs stay searchable, preview-able, and recoverable. Learn more about getting cloud scale without cloud surprises, and why this is a truly practical stance on managing data volume.

https://graylog.org/post/how-to-use-data-lakes-to-reduce-siem-costs-and-strengthen-investigations/ #CyberSecurity #SEIM #DataLake #TDIR

#security #cybersecurity #seim #datalake #tdir

Graylog @[email protected] · 2025-11-21 · 23:54 UTC

Data lakes are typically thought of as simple warehouses. But they don't have to be! 👀 In Graylog 7.0 data lakes function as pressure release valves for #security teams overwhelmed by storage costs, investigation delays, and cloud data sprawl — where analysts can get direct access to long term data, and more.

Our data lake provides inexpensive storage where logs stay searchable, preview-able, and recoverable. Learn more about getting cloud scale without cloud surprises, and why this is a truly practical stance on managing data volume.

https://graylog.org/post/how-to-use-data-lakes-to-reduce-siem-costs-and-strengthen-investigations/ #CyberSecurity #SEIM #DataLake #TDIR

#security #cybersecurity #seim #datalake #tdir

Graylog @[email protected] · 2025-11-21 · 23:54 UTC

Data lakes are typically thought of as simple warehouses. But they don't have to be! 👀 In Graylog 7.0 data lakes function as pressure release valves for #security teams overwhelmed by storage costs, investigation delays, and cloud data sprawl — where analysts can get direct access to long term data, and more.

Our data lake provides inexpensive storage where logs stay searchable, preview-able, and recoverable. Learn more about getting cloud scale without cloud surprises, and why this is a truly practical stance on managing data volume.

https://graylog.org/post/how-to-use-data-lakes-to-reduce-siem-costs-and-strengthen-investigations/ #CyberSecurity #SEIM #DataLake #TDIR

#security #cybersecurity #seim #datalake #tdir

Habr @[email protected] · 2025-08-26 · 19:42 UTC

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

https://habr.com/ru/companies/datasapience/articles/941046/

#s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

#s3 #minio #hdfs #greenplum #bigdata #lakehouse

Habr @[email protected] · 2025-08-26 · 19:42 UTC

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

https://habr.com/ru/companies/datasapience/articles/941046/

#s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

#s3 #minio #hdfs #greenplum #bigdata #lakehouse

Habr @[email protected] · 2025-08-26 · 19:42 UTC

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

https://habr.com/ru/companies/datasapience/articles/941046/

#s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

#s3 #minio #hdfs #greenplum #bigdata #lakehouse

Sarah Lea @[email protected] · 2026-02-10 · 02:22 UTC

Most ML issues are not model problems. They are data problems.

I retrained the same churn model twice.
Same code. Same path to the data.
Different result.

Why? Because of mutable data references.

:blobcoffee: I wrote a small Data Lake vs Data Lakehouse demo showing why versioned data makes ML debugging reproducible: https://tinyurl.com/lake-vs-lakehouse-medium

:blobcoffee: Friend-Link: https://medium.com/towards-artificial-intelligence/from-data-lake-to-data-lakehouse-why-ai-changes-the-rules-for-data-platforms-c78feab48e1c?sk=405811cbc10baa4622bcfcad90736ed4

#ai #machinelearning #data #lakehouse #warehouse #python #datalake #technology #regression

#ai #machinelearning #data #lakehouse #warehouse #python

Ireland @[email protected] · 2026-04-23 · 17:33 UTC

https://www.europesays.com/ie/450219/ Refik Anadol’s AI arts museum, Dataland, sets opening date #AiArtMuseum #AiArtwork #anadol #Arts #ArtsAndDesign #ArtsAndDesign #ArtsDesign #dataland #datum #Design #DigitalArt #Éire #Entertainment #FirstExhibition #FirstMuseum #form #humanity #IE #Image #ImportantTechnology #Ireland #MachineDreams #part #World

#world #part #machinedreams #ireland #importanttechnology #image

Habr @[email protected] · 2026-04-29 · 19:32 UTC

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Привет, Хабр! Меня зовут Денис Пашков, я – ведущий архитектор данных в группе компаний GlowByte. В этой публикации я бы хотел поделиться опытом работы с MPP-решением StarRocks, набирающим популярность на российском рынке. Все, кто интересуется данной темой, уже, наверное, не сомневаются, что StarRocks очень хорошо себя показывает в аналитической нагрузке. Мои коллеги из Data Sapience регулярно делятся результатами нагрузочных испытаний платформы данных Data Ocean Nova (ознакомиться можно: 1 , 2 и 3 ). Сегодня же речь пойдет о неочевидном сценарии использования – OLTP-нагрузке.

https://habr.com/ru/companies/datasapience/articles/1029814/

#dwh #bigdata #datalake #datalakehouse #lakehouse #starrocks

#starrocks #lakehouse #datalakehouse #datalake #bigdata #dwh

Habr @[email protected] · 2026-04-17 · 13:12 UTC

Терабайты данных из Teradata в Trino — эффективный способ передачи

Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе . В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать. Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector . Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник. В данной статье разберем: - Как организовать эффективную многопоточную работу с Teradata : где часто допускают ошибки, как должно выглядеть правильное решение; - Какие возможности дает Nova Trino Teradata Connector : многопоточная передача, push-down оптимизации.

https://habr.com/ru/companies/datasapience/articles/1024690/

#trino #teradata #mpp #lakehouse #datalakehouse #dwh #bigdata

#bigdata #dwh #datalakehouse #lakehouse #mpp #teradata

Habr @[email protected] · 2026-04-09 · 08:12 UTC

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов. Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику. В данной публикации мы, команда вендора Data Sapience , разберем возможности Spark scripting на практике.

https://habr.com/ru/companies/datasapience/articles/1021214/

#spark #datalake #datalakehouse #lakehouse #dwh #script

#script #dwh #lakehouse #datalakehouse #datalake #spark

Prague PostgreSQL Dev Day @[email protected] · 2026-01-16 · 09:32 UTC

#throwback From data swamp to data lakehouse 🏗️ Josef Machytka shares real-world lessons on building a lakehouse with PostgreSQL, BigQuery, and GCS—covering formats, scaling, governance, and data quality. Keep your data clean and useful. ▶️ Watch now! https://www.youtube.com/watch?v=AUdEjYnXGbI&list=PL_m-TUcr7ZvnSBmPoxZvcB1lfy7C9eced&index=4

#PostgreSQL #PGDay #PPDD #DataLakehouse #DataEngineering

#throwback #postgresql #pgday #ppdd #datalakehouse #dataengineering

NextLytics AG @[email protected] · 2025-11-19 · 12:08 UTC

RE: https://saptodon.org/@nextlytics/115501853415430874

Our #webinar from last week is available as an on-demand recording for anyone who missed it. How can #SAP Business Data Cloud interact with a wider ecosystem of modern data platforms like #Databricks, #Snowflake, #BigQuery, and (new this week) #Fabric? Where does this trend lead?

Spoiler: maybe truly open players have the advantage in the future interoperable data ecosystem over old-fashioned proprietary-first vendors...

#datascience #dataengineering #datawarehouse #datalakehouse #lakehouse

#webinar #sap #databricks #snowflake #bigquery #fabric

N-gated Hacker News @[email protected] · 2025-06-20 · 16:32 UTC

Oh, look! Another magical Python-based data lakehouse 🏠🐍 that promises to solve all your problems by adopting #Bauplan and #marimo. Because clearly, the solution to data workflow woes is yet another tool even fewer people will bother to use, all wrapped up in a blog post dripping with empty jargon. 🎉 Good luck getting those models past the sandbox, nerds! 🚀
https://www.bauplanlabs.com/blog/everything-as-python #Python #DataLakehouse #DataWorkflow #TechJargon #HackerNews #ngated

#bauplan #marimo #python #datalakehouse #dataworkflow #techjargon

Markus Suhr @[email protected] · 2025-06-04 · 09:32 UTC

Ist ja nicht so sehr business network hier aber vielleicht ist heute zufällig noch jemand auf der TechShow Frankfurt unterwegs bzw Big Data & AI World?

Aus der @OSBA ?

#DataEngineering #databricks #dremio #Stackit #messefrankfurt #DataLakehouse

#dataengineering #databricks #dremio #stackit #messefrankfurt #datalakehouse

Sarah Lea @[email protected] · 2024-12-24 · 20:53 UTC

One of the most highlighted parts: "There is no need to move data. Data latency is minimised. Data can be transformed and analysed within a single platform.“

This is one of the reasons for 'Why ETL-Zero' :blobcoffee:

https://towardsdatascience.com/why-etl-zero-understanding-the-shift-in-data-integration-as-a-beginner-d0cefa244154

#data #datascience #dataanalysis #dataanalytics #DataEngineering #sql #salesforce #etl #datawarehouse #datalake #datalakehouse #programming

#programming #data #datascience #dataanalysis #dataanalytics #dataengineering

Sarah Lea @[email protected] · 2024-12-12 · 01:09 UTC

In a data warehouse you store structured & organized data. In a data lake you can additionally store unstructured data. And was is now a data lakehouse?

Think of a combination of the strengths of both previous data platforms. :blobcoffee:

https://towardsdatascience.com/sql-and-data-modelling-in-action-a-deep-dive-into-data-lakehouses-fcbab9a4b9c2

#data #DataEngineering #datalakehouse #datacenters #datawarehouse #datalake #datascience #sql

#data #dataengineering #datalakehouse #datacenters #datawarehouse #datalake

Habr @[email protected] · 2024-10-18 · 06:12 UTC

Инфраструктура для Data-Engineer Data Lake Apache Iceberg

В этой статье вы узнаете что такое Apache Iceberg, как его можно использовать и для чего он вообще нужен. В статье также рассматривается вопрос Data Lake.

https://habr.com/ru/articles/850674/

#data #data_lake #data_engineering #data_engineer #apache_spark #apache_iceberg #sql #дата_лейк #озеро_данных #datalakehouse

#data #data_lake #data_engineering #data_engineer #apache_spark #apache_iceberg

James Bartlett :terminal: @[email protected] · 2024-09-26 · 15:27 UTC

#PowerHour with @SQLAllFather, #GopalKrishnamurthy, and @guyinacubee is in full swing!

Gopal is demoing a new #InfoRiver feature: #Writeback to #MicrosoftFabric #DataLakehouse!

#FabConEurope #MSFabric

#powerhour #gopalkrishnamurthy #inforiver #writeback #microsoftfabric #datalakehouse

The Oasis BBS @[email protected] · 2026-05-12 · 13:31 UTC

QuadTrack Amiga Sequencer Brings 4-Track Groovebox Control to Mac, PC, and Amiga
#QuadTrack #Amiga #CommodoreAmiga #PinkParrotStudio #MrDataline #Dataline #AmigaMusic #RetroComputing #Groovebox #Sequencer
https://theoasisbbs.com/quadtrack-amiga-sequencer-brings-4-track-groovebox-control-to-mac-pc-and-amiga/?fsp_sid=6611

#quadtrack #amiga #commodoreamiga #pinkparrotstudio #mrdataline #dataline

Habr @[email protected] · 2025-11-07 · 09:32 UTC

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

https://habr.com/ru/companies/datasapience/articles/964052/

#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop

#starrocks #trino #impala #mpp #bigdata #dwh

Habr @[email protected] · 2025-10-20 · 09:12 UTC

Гид по Cloudberry ч.2: advanced-возможности, дорожная карта и планы развития

В прошлый раз, в первой части нашего гида по Apache Cloudberry™ , мы поговорили об истории проекта, его архитектуре, ядре СУБД и функциях платформы. Но помимо ядра СУБД, мы также хотим использовать data‑lakehouse‑запросы. В Data Lakehouse есть некоторые проблемы: мы не можем получать данные оттуда напрямую. В Cloudberry разработана технология, с помощью которой можно это делать, так что поговорим об этом подробнее. А также рассмотрим ещё несколько интересных возможностей и расскажем о планах проекта.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/957662/

#greenplum #cloudberry #mpp #postgresql #postgres #vector_database #pgvector #векторная_база_данных

#векторная_база_данных #pgvector #vector_database #postgres #postgresql #mpp

Search