#hadoop — Public Fediverse posts on home.social

Dotan Horovits #CNCFAmbassador @horovits · 2026-05-07 · 04:58 UTC

📢 #OpenSearch #Hadoop connector 2.0 is out!
Your helper to parallelize reads/writes across @apache.org Spark partitions and @opensearch.org shards just got a boost:
✅ Spark 3.5 and 4 support
✅ OpenSearch 3.x compatibility
✅ Amazon OpenSearch Serverless support
and more
https://opensearch.org/blog/introducing-the-opensearch-hadoop-connector-2-0-spark-4-support-opensearch-serverless-and-more/

#opensearch #hadoop

Norvik Tech @[email protected] · 2026-04-23 · 00:42 UTC

3.4M Paneles Solares y su Releva…

Los 3.4 millones de paneles solares representan un avance significativo en la generación de energía renovable. Estos paneles convierten la luz solar en electricidad utilizando células fotovoltaicas.

https://norvik.tech/news/analisis-tecnico-paneles-solares-34m

#Technology #PanelesSolares #BigData #Hadoop #Aws #NorvikTech #DesarrolloSoftware #TechInnovation

#technology #panelessolares #bigdata #hadoop #aws #norviktech

Habr @[email protected] · 2026-02-20 · 06:02 UTC

Особенности Schema Evolution в Hadoop: как сделать alter table

Привет, Хабр! Меня зовут Ольга Косарева, я инженер данных команды «Прогнозирование финансового результата» Центра разработки решений ALM в ИТ‑холдинге Т1, мы занимаемся созданием современной ALM‑системы (подробнее тут ). Полтора года назад я пришла в команду и получила задачу дописать и внедрить инструмент для DDL‑операций над данными в экосистеме Hadoop. Моя первая реакция была: «А зачем так сложно? Какой инструмент? Почему нельзя просто выполнить команду ALTER TABLE через Hive?» В этой статье мы с коллегами Никитой Королёвым и Алексеем Пожар расскажем, в каких случаях целесообразно именно так и сделать, а в каких это приведёт к различным проблемам с данными, что такое Schema Evolution и как мы решаем задачу периодического изменения структур таблиц с нашими отчётами.

https://habr.com/ru/companies/T1Holding/articles/1000516/

#hadoop #hive #alter_table #DDL #ALM

#alm #ddl #alter_table #hive #hadoop

Habr @[email protected] · 2026-02-20 · 06:02 UTC

Особенности Schema Evolution в Hadoop: как сделать alter table

Привет, Хабр! Меня зовут Ольга Косарева, я инженер данных команды «Прогнозирование финансового результата» Центра разработки решений ALM в ИТ‑холдинге Т1, мы занимаемся созданием современной ALM‑системы (подробнее тут ). Полтора года назад я пришла в команду и получила задачу дописать и внедрить инструмент для DDL‑операций над данными в экосистеме Hadoop. Моя первая реакция была: «А зачем так сложно? Какой инструмент? Почему нельзя просто выполнить команду ALTER TABLE через Hive?» В этой статье мы с коллегами Никитой Королёвым и Алексеем Пожар расскажем, в каких случаях целесообразно именно так и сделать, а в каких это приведёт к различным проблемам с данными, что такое Schema Evolution и как мы решаем задачу периодического изменения структур таблиц с нашими отчётами.

https://habr.com/ru/companies/T1Holding/articles/1000516/

#hadoop #hive #alter_table #DDL #ALM

#alm #ddl #alter_table #hive #hadoop

Habr @[email protected] · 2026-02-20 · 06:02 UTC

Особенности Schema Evolution в Hadoop: как сделать alter table

Привет, Хабр! Меня зовут Ольга Косарева, я инженер данных команды «Прогнозирование финансового результата» Центра разработки решений ALM в ИТ‑холдинге Т1, мы занимаемся созданием современной ALM‑системы (подробнее тут ). Полтора года назад я пришла в команду и получила задачу дописать и внедрить инструмент для DDL‑операций над данными в экосистеме Hadoop. Моя первая реакция была: «А зачем так сложно? Какой инструмент? Почему нельзя просто выполнить команду ALTER TABLE через Hive?» В этой статье мы с коллегами Никитой Королёвым и Алексеем Пожар расскажем, в каких случаях целесообразно именно так и сделать, а в каких это приведёт к различным проблемам с данными, что такое Schema Evolution и как мы решаем задачу периодического изменения структур таблиц с нашими отчётами.

https://habr.com/ru/companies/T1Holding/articles/1000516/

#hadoop #hive #alter_table #DDL #ALM

#alm #ddl #alter_table #hive #hadoop

Habr @[email protected] · 2026-02-20 · 06:02 UTC

Особенности Schema Evolution в Hadoop: как сделать alter table

Привет, Хабр! Меня зовут Ольга Косарева, я инженер данных команды «Прогнозирование финансового результата» Центра разработки решений ALM в ИТ‑холдинге Т1, мы занимаемся созданием современной ALM‑системы (подробнее тут ). Полтора года назад я пришла в команду и получила задачу дописать и внедрить инструмент для DDL‑операций над данными в экосистеме Hadoop. Моя первая реакция была: «А зачем так сложно? Какой инструмент? Почему нельзя просто выполнить команду ALTER TABLE через Hive?» В этой статье мы с коллегами Никитой Королёвым и Алексеем Пожар расскажем, в каких случаях целесообразно именно так и сделать, а в каких это приведёт к различным проблемам с данными, что такое Schema Evolution и как мы решаем задачу периодического изменения структур таблиц с нашими отчётами.

https://habr.com/ru/companies/T1Holding/articles/1000516/

#hadoop #hive #alter_table #DDL #ALM

#hadoop #hive #alter_table #ddl #alm

Habr @[email protected] · 2026-02-16 · 11:02 UTC

Hue для домашнего Hadoop: Docker, CSRF и неочевидные грабли

Пятая статья цикла о построении CDC-пайплайна с нуля. HDFS и Hive работают, но управлять ими через консоль неудобно. Сегодня поднимаем веб-интерфейс Hue и разбираемся, почему в 2026 году сборка из исходников требует Python 2.7.

https://habr.com/ru/articles/996646/

#hue #hadoop #hive #postgresql #python #filesystem

#filesystem #python #postgresql #hive #hadoop #hue

Habr @[email protected] · 2026-02-08 · 10:12 UTC

HDFS и Hive для CDC: строим хранилище данных в домашней лаборатории

Четвёртая статья цикла о построении CDC-пайплайна с нуля. Данные уже текут из PostgreSQL в Kafka — пора их куда-то складывать. Сегодня поднимаем Hadoop и Hive, и разбираемся, почему Hive 3.1.3 не дружит с Java 11.

https://habr.com/ru/articles/994062/

#hadoop #hive #sql #postgresql #cdc #logical_replication #devops #data_engineering

#data_engineering #devops #logical_replication #cdc #postgresql #sql

Habr @[email protected] · 2026-02-08 · 10:12 UTC

HDFS и Hive для CDC: строим хранилище данных в домашней лаборатории

Четвёртая статья цикла о построении CDC-пайплайна с нуля. Данные уже текут из PostgreSQL в Kafka — пора их куда-то складывать. Сегодня поднимаем Hadoop и Hive, и разбираемся, почему Hive 3.1.3 не дружит с Java 11.

https://habr.com/ru/articles/994062/

#hadoop #hive #sql #postgresql #cdc #logical_replication #devops #data_engineering

#data_engineering #devops #logical_replication #cdc #postgresql #sql

Habr @[email protected] · 2026-02-08 · 10:12 UTC

HDFS и Hive для CDC: строим хранилище данных в домашней лаборатории

Четвёртая статья цикла о построении CDC-пайплайна с нуля. Данные уже текут из PostgreSQL в Kafka — пора их куда-то складывать. Сегодня поднимаем Hadoop и Hive, и разбираемся, почему Hive 3.1.3 не дружит с Java 11.

https://habr.com/ru/articles/994062/

#hadoop #hive #sql #postgresql #cdc #logical_replication #devops #data_engineering

#data_engineering #devops #logical_replication #cdc #postgresql #sql

Habr @[email protected] · 2026-02-08 · 10:12 UTC

HDFS и Hive для CDC: строим хранилище данных в домашней лаборатории

Четвёртая статья цикла о построении CDC-пайплайна с нуля. Данные уже текут из PostgreSQL в Kafka — пора их куда-то складывать. Сегодня поднимаем Hadoop и Hive, и разбираемся, почему Hive 3.1.3 не дружит с Java 11.

https://habr.com/ru/articles/994062/

#hadoop #hive #sql #postgresql #cdc #logical_replication #devops #data_engineering

#hadoop #hive #sql #postgresql #cdc #logical_replication

N-gated Hacker News @[email protected] · 2026-01-18 · 10:48 UTC

So apparently, if you're still using #Hadoop in 2014, congrats on your commitment to #nostalgia. 🎩 Why waste time on 235 elephants when a single command-line #ninja can do the job faster? 🚀✨ Enjoy your #EMR toy, but maybe keep that "cool article" on the backburner for when you need a chuckle. 😂
https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html #CommandLine #Humor #TechTrends #HackerNews #ngated

#hadoop #nostalgia #ninja #emr #commandline #humor

N-gated Hacker News @[email protected] · 2026-01-18 · 10:48 UTC

So apparently, if you're still using #Hadoop in 2014, congrats on your commitment to #nostalgia. 🎩 Why waste time on 235 elephants when a single command-line #ninja can do the job faster? 🚀✨ Enjoy your #EMR toy, but maybe keep that "cool article" on the backburner for when you need a chuckle. 😂
https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html #CommandLine #Humor #TechTrends #HackerNews #ngated

#hadoop #nostalgia #ninja #emr #commandline #humor

N-gated Hacker News @[email protected] · 2026-01-18 · 10:48 UTC

So apparently, if you're still using #Hadoop in 2014, congrats on your commitment to #nostalgia. 🎩 Why waste time on 235 elephants when a single command-line #ninja can do the job faster? 🚀✨ Enjoy your #EMR toy, but maybe keep that "cool article" on the backburner for when you need a chuckle. 😂
https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html #CommandLine #Humor #TechTrends #HackerNews #ngated

#hadoop #nostalgia #ninja #emr #commandline #humor

N-gated Hacker News @[email protected] · 2026-01-18 · 10:48 UTC

So apparently, if you're still using #Hadoop in 2014, congrats on your commitment to #nostalgia. 🎩 Why waste time on 235 elephants when a single command-line #ninja can do the job faster? 🚀✨ Enjoy your #EMR toy, but maybe keep that "cool article" on the backburner for when you need a chuckle. 😂
https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html #CommandLine #Humor #TechTrends #HackerNews #ngated

#ngated #hackernews #techtrends #humor #commandline #emr

N-gated Hacker News @[email protected] · 2026-01-18 · 10:48 UTC

So apparently, if you're still using #Hadoop in 2014, congrats on your commitment to #nostalgia. 🎩 Why waste time on 235 elephants when a single command-line #ninja can do the job faster? 🚀✨ Enjoy your #EMR toy, but maybe keep that "cool article" on the backburner for when you need a chuckle. 😂
https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html #CommandLine #Humor #TechTrends #HackerNews #ngated

#hadoop #nostalgia #ninja #emr #commandline #humor

Habr @[email protected] · 2025-12-07 · 20:32 UTC

Искусственный интеллект без иллюзий: как не сжечь бюджет компании на хайпе (Часть 2)

Это вторая часть цикла публикаций, где мы говорим не о теории искусственного интеллекта, а о суровой реальности его внедрения в бизнес. В первой части мы обсуждали стратегические ловушки ( https://habr.com/ru/articles/969094/ ), а теперь настал черед уровня данных, который оказался для нас минным полем.

https://habr.com/ru/articles/974288/

#llm #hadoop #data_mesh

Habr @[email protected] · 2025-11-27 · 10:52 UTC

Файловое хранилище Wildberries: бескомпромиссный HighLoad

Привет, меня зовут Иван Волков, я CTO продукта CDN MediaBasket в Wildberries. Это большое распределенное файловое хранилище, используемое различными внутренними продуктами Wildberries. Одним из продуктов, с которым взаимодействуют внешние клиенты, является каталог товаров. Это ставит перед хранилищем высокую планку по оптимизации и готовности к экстремальным нагрузкам. В этой статье я расскажу, какие решения мы использовали в архитектуре продукта и как при миллионном RPS мы доставляем картинки пользователям за считанные миллисекунды.

https://habr.com/ru/companies/wildberries/articles/967988/

#файловое_хранилище #шардирование #шардинг #highload #хайлоад #схд #ceph #hadoop #wildberries #drpaster

#файловое_хранилище #шардирование #шардинг #highload #хайлоад #схд

Python Job Support @[email protected] · 2025-11-22 · 16:54 UTC

Data Science Roadmap 2025 | Become a Data Scientist from Scratch! #datascienceinstitute #hadoop

Data Science Roadmap 2025 | Become a Data Scientist from Scratch! --- Description: Want to become a Data Scientist in 2025? source

https://quadexcel.com/wp/data-science-roadmap-2025-become-a-data-scientist-from-scratch-datascienceinstitute-hadoop/

#datascienceinstitute #hadoop

Habr @[email protected] · 2025-11-17 · 11:42 UTC

Добавляем MapReduce в этот наш SQL: генераторы на основе курсоров

Вот уже который год я потихоньку разрабатываю SQL-ный движок на основе Apache Spark, специализированный под задачи ETL. И хотя диалект языка изначально называется «Transform Definition Language», писать трансформации данных непосредственно на нём самом было до сих пор невозможно. Вместо этого на фазе Transform предполагалось использовать подключаемые модули, которые рантайм интерпретатора предоставляет из Java classpath. Это очень эффективный с точки зрения производительности, но довольно долгий с точки зрения внедрения, и дорогой в разработке способ. Сначала трансформацию надо описать формально в виде статьи-whitepaper'а (это делает data scientist), потом написать прототип на Python (ответственность data analyst), отладиться на сэмпле реальных данных (тоже аналитик), и тогда уже делать и оптимизировать финальную имплементацию на Java с использованием низкоуровневого API Spark (собственно, задача разработчика). Неудобно. Нельзя ли его как-нибудь сократить? Например, дать аналитикам инструмент для написания трансформаций непосредственно в самом SQL, вынеся некоторую часть функциональности MapReduce как разновидность итерирующих функций? Можно, конечно! Давайте узнаем, как именно

https://habr.com/ru/articles/958362/

#sql #etl #apache_spark #java #hadoop #big_data #big_data_solutions #big_data_tools #интерпретатор

#sql #etl #apache_spark #java #hadoop #big_data

Habr @[email protected] · 2025-11-07 · 09:32 UTC

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

https://habr.com/ru/companies/datasapience/articles/964052/

#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop

#starrocks #trino #impala #mpp #bigdata #dwh

Habr @[email protected] · 2025-11-07 · 09:32 UTC

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

https://habr.com/ru/companies/datasapience/articles/964052/

#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop

#starrocks #trino #impala #mpp #bigdata #dwh

Habr @[email protected] · 2025-11-07 · 09:32 UTC

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

https://habr.com/ru/companies/datasapience/articles/964052/

#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop

#hadoop #s3 #datalake #lakehouse #dwh #bigdata

Habr @[email protected] · 2025-11-07 · 09:32 UTC

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

https://habr.com/ru/companies/datasapience/articles/964052/

#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop

#starrocks #trino #impala #mpp #bigdata #dwh

Habr @[email protected] · 2025-10-23 · 12:22 UTC

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

В сегодняшней, уже третьей по счету, публикации я продолжу делится результатами нагрузочных испытаний вычислительных технологий массивных параллельных вычислений (на Habr уже представлены мои материалы, посвященные сравнению Impala, Trino и Greenplum , в том числе по методике TPC-DS ). В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.

https://habr.com/ru/companies/datasapience/articles/959496/

#starrocks #trino #lakehouse #impala #spark #bigdata #datalake #dwh #hadoop #s3

#s3 #hadoop #dwh #datalake #bigdata #spark

Habr @[email protected] · 2025-10-23 · 12:22 UTC

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

В сегодняшней, уже третьей по счету, публикации я продолжу делится результатами нагрузочных испытаний вычислительных технологий массивных параллельных вычислений (на Habr уже представлены мои материалы, посвященные сравнению Impala, Trino и Greenplum , в том числе по методике TPC-DS ). В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.

https://habr.com/ru/companies/datasapience/articles/959496/

#starrocks #trino #lakehouse #impala #spark #bigdata #datalake #dwh #hadoop #s3

#s3 #hadoop #dwh #datalake #bigdata #spark

Habr @[email protected] · 2025-10-08 · 08:52 UTC

Сокращаем трудозатраты при выводе витрин на Hadoop

Привет, друзья! Я Олег Васильев, владелец продукта Dream DE. В этой статье расскажу, как мы научились быстро и эффективно выводить витрины на Hadoop в эксплуатацию, или как мы за один квартал вывели 26 инициатив в рабочую среду силами четырёх инженеров по данным.

https://habr.com/ru/companies/sberbank/articles/954476/

#витрины_данных #hadoop #прототипы

#прототипы #hadoop #витрины_данных

Habr @[email protected] · 2025-08-28 · 14:12 UTC

Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0 , разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API . Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0 . Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции. Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами?

https://habr.com/ru/companies/arenadata/articles/921252/

#spark #data_science #data_engineering #bigdata #sql #lakehouse #datalake #хранение_данных #hadoop #производительность

#spark #data_science #data_engineering #bigdata #sql #lakehouse

Habr @[email protected] · 2025-08-21 · 19:32 UTC

От реляционных СУБД к экосистеме Hadoop

Привет, Хабр! Недавно я понял, что не знаю, что такое Hadoop. (На этом моменте становится понятно, что данная статья ориентирована на людей, которые не имеют экспертизы и реального опыта взаимодействия с продуктами экосистемы Hadoop) Сам я являюсь разработчиком, и ежедневно взаимодействую с различными СУБД – в основном, с пресловутой PostgreSQL. Каково же было мое удивление, когда я узнал, что на проде в эту БД данные попадают не напрямую – а с какого-то Greenplum, а туда они, в свою очередь, приходят с некоего Hadoop. В этот момент я решил узнать, чем обоснована необходимость использования этих инструментов и что они из себя представляют.

https://habr.com/ru/articles/939520/

#Hadoop #yarn #spark #рбд #rdbms #olap

#olap #rdbms #рбд #spark #yarn #hadoop

Brad L. :verified: @[email protected] · 2025-08-02 · 02:13 UTC

There's a lot talk about "ZeroDisk" infrastructure backed by S3. The pitch is "move your data from locally attached NVMe storage to S3 and your applications will scale easier and be more performant!"

Maybe I'm getting too old for this shit, but I swear to dog this is the 4th such cycle in my career:

1. NFS
2. iSCSI / Fibrechannel
3. Hadoop / HDFS
4. ZeroDisk with S3

Am I the only one that's like: "wait, move TBs of data to S3 from NVMe to increase performance? Are you high?"

It doesn't work, so you scale up. Now you're back to local NVMe "cache disks" running instances as expensive as the locally attached NVMe instances when you add those costs to your S3 bill. The performance is worse because of course it is.

It always comes back to the two hard problems in computer science: naming things, cache invalidation, and off-by-one errors. 😂

#zerodisk #s3 #hadoop #cache #datalake #GetOffMyLawn

#zerodisk #s3 #hadoop #cache #datalake #getoffmylawn

Peter Czanik @[email protected] · 2025-06-17 · 13:36 UTC

No response yet to my #syslog_ng #HDFS destination question:

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

#syslog_ng #hdfs #hadoop #socialmedia

Peter Czanik @PCzanik · 2025-06-17 · 13:36 UTC

No response yet to my #syslog_ng #HDFS destination question:

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

#syslog_ng #hdfs #hadoop #socialmedia

Peter Czanik @[email protected] · 2025-06-17 · 13:36 UTC

No response yet to my #syslog_ng #HDFS destination question:

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

#syslog_ng #hdfs #hadoop #socialmedia

Peter Czanik @[email protected] · 2025-06-17 · 13:36 UTC

No response yet to my #syslog_ng #HDFS destination question:

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

#socialmedia #hadoop #hdfs #syslog_ng

Peter Czanik @[email protected] · 2025-06-17 · 13:36 UTC

No response yet to my #syslog_ng #HDFS destination question:

https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next

Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

#syslog_ng #hdfs #hadoop #socialmedia

Habr @[email protected] · 2025-06-11 · 11:02 UTC

Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды

https://habr.com/ru/companies/arenadata/articles/915684/

#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio

#minio #хранение #spark #impala #lakehouse #data_lake

Habr @[email protected] · 2025-06-11 · 11:02 UTC

Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды

https://habr.com/ru/companies/arenadata/articles/915684/

#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio

#minio #хранение #spark #impala #lakehouse #data_lake

Habr @[email protected] · 2025-06-11 · 11:02 UTC

Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды

https://habr.com/ru/companies/arenadata/articles/915684/

#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio

#minio #хранение #spark #impala #lakehouse #data_lake

Habr @[email protected] · 2025-06-11 · 11:02 UTC

Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды

https://habr.com/ru/companies/arenadata/articles/915684/

#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio

#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse

Habr @[email protected] · 2025-06-02 · 13:22 UTC

Соединение SortMergeJoin в Apache Spark

Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории проекта. Вот здесь :) Первое, что рассмотрим - это конструктор кейс-класса 1. Конструктор SortMergeJoinExec

https://habr.com/ru/companies/gnivc/articles/914932/

#spark #join #hadoop #bigdata #mapreduce

#mapreduce #bigdata #hadoop #join #spark

Habr @[email protected] · 2025-05-19 · 17:22 UTC

Как я удалил clickstream, но его восстановили из небытия

Всем привет! Я Дмитрий Немчин из Т-Банка. Расскажу не очень успешную историю о том как я удалил данные и что из этого вышло. В ИТ я больше 12 лет, начинал DBA и разработчиком в кровавом энтепрайзе с Oracle. В 2015 году познакомился с Greenplum в Т, да так тут и остался. С 2017 года стал лидить команду, потом все чуть усложнилось и команда стала не одна. Возможно, вы меня могли видеть как организатора Greenplum-митапов в России. Но команда командой, менеджмент менеджментом, а руки чешутся..

https://habr.com/ru/companies/tbank/articles/910030/

#parquet #удаление_данных #fail_story #hadoop

#hadoop #fail_story #удаление_данных #parquet

Habr @[email protected] · 2025-04-24 · 15:42 UTC

Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML

Привет, Хабр! Я Дмитрий Жихарев, CPO Платформы искусственного интеллекта RAISA в Лаборатории ИИ РСХБ-Интех. В этой статье я и архитектор нашей платформы Александр Рындин @aryndin9999 расскажем о том, как мы построили взаимодействие Платформы ИИ и Озера данных для работы с витринами данных моделей машинного обучения с использованием Spark.

https://habr.com/ru/companies/rshb/articles/904072/

#spark #arenadata #hadoop #datalake #витрина_данных #ai #платформа #livy

#spark #arenadata #hadoop #datalake #витрина_данных #ai

Habr @[email protected] · 2025-04-23 · 12:42 UTC

Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

https://habr.com/ru/companies/T1Holding/articles/903546/

#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

#hadoop #spark #airflow #hive #hdfs #apache_parquet

Habr @[email protected] · 2025-04-23 · 12:42 UTC

Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

https://habr.com/ru/companies/T1Holding/articles/903546/

#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

#hadoop #spark #airflow #hive #hdfs #apache_parquet

Habr @[email protected] · 2025-04-23 · 12:42 UTC

Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

https://habr.com/ru/companies/T1Holding/articles/903546/

#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

#hadoop #spark #airflow #hive #hdfs #apache_parquet

Habr @[email protected] · 2025-04-23 · 12:42 UTC

Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

https://habr.com/ru/companies/T1Holding/articles/903546/

#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

#json #eav #sql #ddl #apache_parquet #hdfs

Joseph (filthy on opsec) @[email protected] · 2025-03-07 · 22:32 UTC

Any hadoop experts out there looking for some consulting? Got a hadoop cluster that needs some expert TLC.

#hadoop #bigdata #fedijobs

N-gated Hacker News @[email protected] · 2025-03-06 · 15:06 UTC

Ah yes, let's compare #Iceberg to #Hadoop, because nothing says "modern" like reminiscing about decade-old #tech 📅💾. This is the part where we pretend everything old is new again, while grabbing our #vintage floppy disks to join the 'modern' #data #revolution 🚀😂.
https://blog.det.life/apache-iceberg-the-hadoop-of-the-modern-data-stack-c83f63a4ebb9 #modern #data #HackerNews #ngated

#iceberg #hadoop #tech #vintage #data #revolution

Hacker News @[email protected] · 2025-03-06 · 15:05 UTC

Apache iceberg the Hadoop of the modern-data-stack? — https://blog.det.life/apache-iceberg-the-hadoop-of-the-modern-data-stack-c83f63a4ebb9
#HackerNews #ApacheIceberg #ModernDataStack #Hadoop #DataEngineering #BigData

#moderndatastack #hadoop #dataengineering #bigdata #hackernews #apacheiceberg

Habr @[email protected] · 2025-02-27 · 12:52 UTC

Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse

Привет, Хабр! Меня зовут Алексей Струченко, я работаю архитектором информационных систем в Arenadata. Сегодня хотелось бы поговорить о хранилищах данных — их видах, ключевых особенностях и о том, как выбрать подходящее решение. В эпоху цифровой трансформации данные стали одним из самых ценных активов для компаний любого масштаба и сферы деятельности. Эффективное хранение, обработка и анализ больших объёмов данных помогают организациям принимать обоснованные решения, повышать операционную эффективность и создавать конкурентные преимущества. Однако с ростом объёмов данных и усложнением их структуры традиционные методы хранения сталкиваются с ограничениями. В этой статье мы подробно рассмотрим подходы к хранению данных: Data Warehouse (DWH) , Data Lake и относительно новую концепцию Lakehouse . Разберем их особенности, различия, преимущества и недостатки, а также предложим рекомендации по выбору каждого подхода. Всплыть

https://habr.com/ru/companies/arenadata/articles/885722/

#dwh #data_lake #lakehouse #хранение_данных #big_data #администрирование_бд #базы_данных #озеро_данных #spark #hadoop

#hadoop #spark #озеро_данных #базы_данных #администрирование_бд #big_data