#hdfs — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-10 · 14:22 UTC

apache iceberg и его философия

iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

https://habr.com/ru/articles/1033546/

#iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

#olap #acid #data_lakehouse #hdfs #s3 #data_lake

Habr @[email protected] · 2026-05-10 · 14:22 UTC

apache iceberg и его философия

iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

https://habr.com/ru/articles/1033546/

#iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

#olap #acid #data_lakehouse #hdfs #s3 #data_lake

Habr @[email protected] · 2026-05-10 · 14:22 UTC

apache iceberg и его философия

iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

https://habr.com/ru/articles/1033546/

#iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

#olap #acid #data_lakehouse #hdfs #s3 #data_lake

Habr @[email protected] · 2026-05-10 · 14:22 UTC

apache iceberg и его философия

iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

https://habr.com/ru/articles/1033546/

#iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

#iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse

Peter Czanik @[email protected] · 2026-01-08 · 15:24 UTC

Is there anyone still using #HDFS? Not just with #syslog_ng, but at all. I'm curious, as the HDFS destination is the last #Java-based driver in syslog-ng.

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Nobody responded to my related posts for years, so 4.11 will be the last release to have it.
#LogManagement #BigData

#hdfs #syslog_ng #java #logmanagement #bigdata

Peter Czanik @PCzanik · 2026-01-08 · 15:24 UTC

Is there anyone still using #HDFS? Not just with #syslog_ng, but at all. I'm curious, as the HDFS destination is the last #Java-based driver in syslog-ng.

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Nobody responded to my related posts for years, so 4.11 will be the last release to have it.
#LogManagement #BigData

#hdfs #syslog_ng #java #logmanagement #bigdata

Peter Czanik @[email protected] · 2026-01-08 · 15:24 UTC

Is there anyone still using #HDFS? Not just with #syslog_ng, but at all. I'm curious, as the HDFS destination is the last #Java-based driver in syslog-ng.

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Nobody responded to my related posts for years, so 4.11 will be the last release to have it.
#LogManagement #BigData

#hdfs #syslog_ng #java #logmanagement #bigdata

Peter Czanik @[email protected] · 2026-01-08 · 15:24 UTC

Is there anyone still using #HDFS? Not just with #syslog_ng, but at all. I'm curious, as the HDFS destination is the last #Java-based driver in syslog-ng.

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Nobody responded to my related posts for years, so 4.11 will be the last release to have it.
#LogManagement #BigData

#bigdata #logmanagement #java #syslog_ng #hdfs

Peter Czanik @[email protected] · 2026-01-08 · 15:24 UTC

Is there anyone still using #HDFS? Not just with #syslog_ng, but at all. I'm curious, as the HDFS destination is the last #Java-based driver in syslog-ng.

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Nobody responded to my related posts for years, so 4.11 will be the last release to have it.
#LogManagement #BigData

#hdfs #syslog_ng #java #logmanagement #bigdata

Habr @[email protected] · 2025-08-26 · 19:42 UTC

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

https://habr.com/ru/companies/datasapience/articles/941046/

#s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

#s3 #minio #hdfs #greenplum #bigdata #lakehouse

Habr @[email protected] · 2025-08-26 · 19:42 UTC

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

https://habr.com/ru/companies/datasapience/articles/941046/

#s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

#s3 #minio #hdfs #greenplum #bigdata #lakehouse

Habr @[email protected] · 2025-08-26 · 19:42 UTC

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

https://habr.com/ru/companies/datasapience/articles/941046/

#s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

#s3 #minio #hdfs #greenplum #bigdata #lakehouse

Habr @[email protected] · 2025-08-26 · 19:42 UTC

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

https://habr.com/ru/companies/datasapience/articles/941046/

#s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

#dwh #datalake #lakehouse #bigdata #greenplum #hdfs

Peter Czanik @[email protected] · 2025-08-15 · 08:15 UTC

The August syslog-ng newsletter is now available on-line:

- Deprecating #Java-based drivers from syslog-ng: Is #HDFS next?

- Your first steps configuring #syslog_ng

- #Prometheus exporter in syslog-ng

Read it at https://www.syslog-ng.com/community/b/blog/posts/the-syslog-ng-insider-2025-08-hdfs-configuration-prometheus

#java #hdfs #syslog_ng #prometheus

Peter Czanik @PCzanik · 2025-08-15 · 08:15 UTC

The August syslog-ng newsletter is now available on-line:

- Deprecating #Java-based drivers from syslog-ng: Is #HDFS next?

- Your first steps configuring #syslog_ng

- #Prometheus exporter in syslog-ng

Read it at https://www.syslog-ng.com/community/b/blog/posts/the-syslog-ng-insider-2025-08-hdfs-configuration-prometheus

#java #hdfs #syslog_ng #prometheus

Peter Czanik @[email protected] · 2025-08-15 · 08:15 UTC

The August syslog-ng newsletter is now available on-line:

- Deprecating #Java-based drivers from syslog-ng: Is #HDFS next?

- Your first steps configuring #syslog_ng

- #Prometheus exporter in syslog-ng

Read it at https://www.syslog-ng.com/community/b/blog/posts/the-syslog-ng-insider-2025-08-hdfs-configuration-prometheus

#java #hdfs #syslog_ng #prometheus

Peter Czanik @[email protected] · 2025-08-15 · 08:15 UTC

The August syslog-ng newsletter is now available on-line:

- Deprecating #Java-based drivers from syslog-ng: Is #HDFS next?

- Your first steps configuring #syslog_ng

- #Prometheus exporter in syslog-ng

Read it at https://www.syslog-ng.com/community/b/blog/posts/the-syslog-ng-insider-2025-08-hdfs-configuration-prometheus

#prometheus #syslog_ng #hdfs #java

Peter Czanik @[email protected] · 2025-08-15 · 08:15 UTC

The August syslog-ng newsletter is now available on-line:

- Deprecating #Java-based drivers from syslog-ng: Is #HDFS next?

- Your first steps configuring #syslog_ng

- #Prometheus exporter in syslog-ng

Read it at https://www.syslog-ng.com/community/b/blog/posts/the-syslog-ng-insider-2025-08-hdfs-configuration-prometheus

#java #hdfs #syslog_ng #prometheus

Peter Czanik @[email protected] · 2025-08-08 · 08:17 UTC

While most #Java-based drivers have been deprecated in #syslog_ng years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

#java #syslog_ng #hdfs

Peter Czanik @PCzanik · 2025-08-08 · 08:17 UTC

While most #Java-based drivers have been deprecated in #syslog_ng years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

#java #syslog_ng #hdfs

Peter Czanik @[email protected] · 2025-08-08 · 08:17 UTC

While most #Java-based drivers have been deprecated in #syslog_ng years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

#java #syslog_ng #hdfs

Peter Czanik @[email protected] · 2025-08-08 · 08:17 UTC

While most #Java-based drivers have been deprecated in #syslog_ng years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

#hdfs #syslog_ng #java

Peter Czanik @[email protected] · 2025-08-08 · 08:17 UTC

While most #Java-based drivers have been deprecated in #syslog_ng years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

#java #syslog_ng #hdfs

Peter Czanik @[email protected] · 2025-06-17 · 13:36 UTC

No response yet to my #syslog_ng #HDFS destination question:

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

#syslog_ng #hdfs #hadoop #socialmedia

Peter Czanik @PCzanik · 2025-06-17 · 13:36 UTC

No response yet to my #syslog_ng #HDFS destination question:

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

#syslog_ng #hdfs #hadoop #socialmedia

Peter Czanik @[email protected] · 2025-06-17 · 13:36 UTC

No response yet to my #syslog_ng #HDFS destination question:

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

#syslog_ng #hdfs #hadoop #socialmedia

Peter Czanik @[email protected] · 2025-06-17 · 13:36 UTC

No response yet to my #syslog_ng #HDFS destination question:

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

#socialmedia #hadoop #hdfs #syslog_ng

Peter Czanik @[email protected] · 2025-06-17 · 13:36 UTC

No response yet to my #syslog_ng #HDFS destination question:

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

#syslog_ng #hdfs #hadoop #socialmedia

Habr @[email protected] · 2025-06-11 · 11:02 UTC

Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды

https://habr.com/ru/companies/arenadata/articles/915684/

#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio

#minio #хранение #spark #impala #lakehouse #data_lake

Habr @[email protected] · 2025-06-11 · 11:02 UTC

Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды

https://habr.com/ru/companies/arenadata/articles/915684/

#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio

#minio #хранение #spark #impala #lakehouse #data_lake

Habr @[email protected] · 2025-06-11 · 11:02 UTC

Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды

https://habr.com/ru/companies/arenadata/articles/915684/

#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio

#minio #хранение #spark #impala #lakehouse #data_lake

Habr @[email protected] · 2025-06-11 · 11:02 UTC

Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды

https://habr.com/ru/companies/arenadata/articles/915684/

#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio

#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse

Peter Czanik @[email protected] · 2025-06-03 · 10:54 UTC

Most #Java-based drivers have been deprecated in #syslog_ng years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

#java #syslog_ng #hdfs

Peter Czanik @PCzanik · 2025-06-03 · 10:54 UTC

Most #Java-based drivers have been deprecated in #syslog_ng years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

#java #syslog_ng #hdfs

Peter Czanik @[email protected] · 2025-06-03 · 10:54 UTC

Most #Java-based drivers have been deprecated in #syslog_ng years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

#java #syslog_ng #hdfs

Peter Czanik @[email protected] · 2025-06-03 · 10:54 UTC

Most #Java-based drivers have been deprecated in #syslog_ng years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

#hdfs #syslog_ng #java

Peter Czanik @[email protected] · 2025-06-03 · 10:54 UTC

Most #Java-based drivers have been deprecated in #syslog_ng years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

#java #syslog_ng #hdfs

Habr @[email protected] · 2025-04-23 · 12:42 UTC

Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

https://habr.com/ru/companies/T1Holding/articles/903546/

#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

#hadoop #spark #airflow #hive #hdfs #apache_parquet

Habr @[email protected] · 2025-04-23 · 12:42 UTC

Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

https://habr.com/ru/companies/T1Holding/articles/903546/

#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

#hadoop #spark #airflow #hive #hdfs #apache_parquet

Habr @[email protected] · 2025-04-23 · 12:42 UTC

Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

https://habr.com/ru/companies/T1Holding/articles/903546/

#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

#hadoop #spark #airflow #hive #hdfs #apache_parquet

Habr @[email protected] · 2025-04-23 · 12:42 UTC

Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

https://habr.com/ru/companies/T1Holding/articles/903546/

#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

#json #eav #sql #ddl #apache_parquet #hdfs

Doug Whitfield [Minneapolis] @[email protected] · 2025-01-20 · 20:14 UTC

so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: https://www.openlogic.com/blog/using-cassandra-kafka-and-spark-ai

Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.