#hadoop — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #hadoop, aggregated by home.social.
-
📢 #OpenSearch #Hadoop connector 2.0 is out!
Your helper to parallelize reads/writes across @apache.org Spark partitions and @opensearch.org shards just got a boost:
✅ Spark 3.5 and 4 support
✅ OpenSearch 3.x compatibility
✅ Amazon OpenSearch Serverless support
and more
https://opensearch.org/blog/introducing-the-opensearch-hadoop-connector-2-0-spark-4-support-opensearch-serverless-and-more/ -
3.4M Paneles Solares y su Releva…
Los 3.4 millones de paneles solares representan un avance significativo en la generación de energía renovable. Estos paneles convierten la luz solar en electricidad utilizando células fotovoltaicas.
https://norvik.tech/news/analisis-tecnico-paneles-solares-34m
#Technology #PanelesSolares #BigData #Hadoop #Aws #NorvikTech #DesarrolloSoftware #TechInnovation
-
Особенности Schema Evolution в Hadoop: как сделать alter table
Привет, Хабр! Меня зовут Ольга Косарева, я инженер данных команды «Прогнозирование финансового результата» Центра разработки решений ALM в ИТ‑холдинге Т1, мы занимаемся созданием современной ALM‑системы (подробнее тут ). Полтора года назад я пришла в команду и получила задачу дописать и внедрить инструмент для DDL‑операций над данными в экосистеме Hadoop. Моя первая реакция была: «А зачем так сложно? Какой инструмент? Почему нельзя просто выполнить команду ALTER TABLE через Hive?» В этой статье мы с коллегами Никитой Королёвым и Алексеем Пожар расскажем, в каких случаях целесообразно именно так и сделать, а в каких это приведёт к различным проблемам с данными, что такое Schema Evolution и как мы решаем задачу периодического изменения структур таблиц с нашими отчётами.
-
Особенности Schema Evolution в Hadoop: как сделать alter table
Привет, Хабр! Меня зовут Ольга Косарева, я инженер данных команды «Прогнозирование финансового результата» Центра разработки решений ALM в ИТ‑холдинге Т1, мы занимаемся созданием современной ALM‑системы (подробнее тут ). Полтора года назад я пришла в команду и получила задачу дописать и внедрить инструмент для DDL‑операций над данными в экосистеме Hadoop. Моя первая реакция была: «А зачем так сложно? Какой инструмент? Почему нельзя просто выполнить команду ALTER TABLE через Hive?» В этой статье мы с коллегами Никитой Королёвым и Алексеем Пожар расскажем, в каких случаях целесообразно именно так и сделать, а в каких это приведёт к различным проблемам с данными, что такое Schema Evolution и как мы решаем задачу периодического изменения структур таблиц с нашими отчётами.
-
Особенности Schema Evolution в Hadoop: как сделать alter table
Привет, Хабр! Меня зовут Ольга Косарева, я инженер данных команды «Прогнозирование финансового результата» Центра разработки решений ALM в ИТ‑холдинге Т1, мы занимаемся созданием современной ALM‑системы (подробнее тут ). Полтора года назад я пришла в команду и получила задачу дописать и внедрить инструмент для DDL‑операций над данными в экосистеме Hadoop. Моя первая реакция была: «А зачем так сложно? Какой инструмент? Почему нельзя просто выполнить команду ALTER TABLE через Hive?» В этой статье мы с коллегами Никитой Королёвым и Алексеем Пожар расскажем, в каких случаях целесообразно именно так и сделать, а в каких это приведёт к различным проблемам с данными, что такое Schema Evolution и как мы решаем задачу периодического изменения структур таблиц с нашими отчётами.
-
Особенности Schema Evolution в Hadoop: как сделать alter table
Привет, Хабр! Меня зовут Ольга Косарева, я инженер данных команды «Прогнозирование финансового результата» Центра разработки решений ALM в ИТ‑холдинге Т1, мы занимаемся созданием современной ALM‑системы (подробнее тут ). Полтора года назад я пришла в команду и получила задачу дописать и внедрить инструмент для DDL‑операций над данными в экосистеме Hadoop. Моя первая реакция была: «А зачем так сложно? Какой инструмент? Почему нельзя просто выполнить команду ALTER TABLE через Hive?» В этой статье мы с коллегами Никитой Королёвым и Алексеем Пожар расскажем, в каких случаях целесообразно именно так и сделать, а в каких это приведёт к различным проблемам с данными, что такое Schema Evolution и как мы решаем задачу периодического изменения структур таблиц с нашими отчётами.
-
Hue для домашнего Hadoop: Docker, CSRF и неочевидные грабли
Пятая статья цикла о построении CDC-пайплайна с нуля. HDFS и Hive работают, но управлять ими через консоль неудобно. Сегодня поднимаем веб-интерфейс Hue и разбираемся, почему в 2026 году сборка из исходников требует Python 2.7.
-
HDFS и Hive для CDC: строим хранилище данных в домашней лаборатории
Четвёртая статья цикла о построении CDC-пайплайна с нуля. Данные уже текут из PostgreSQL в Kafka — пора их куда-то складывать. Сегодня поднимаем Hadoop и Hive, и разбираемся, почему Hive 3.1.3 не дружит с Java 11.
https://habr.com/ru/articles/994062/
#hadoop #hive #sql #postgresql #cdc #logical_replication #devops #data_engineering
-
HDFS и Hive для CDC: строим хранилище данных в домашней лаборатории
Четвёртая статья цикла о построении CDC-пайплайна с нуля. Данные уже текут из PostgreSQL в Kafka — пора их куда-то складывать. Сегодня поднимаем Hadoop и Hive, и разбираемся, почему Hive 3.1.3 не дружит с Java 11.
https://habr.com/ru/articles/994062/
#hadoop #hive #sql #postgresql #cdc #logical_replication #devops #data_engineering
-
HDFS и Hive для CDC: строим хранилище данных в домашней лаборатории
Четвёртая статья цикла о построении CDC-пайплайна с нуля. Данные уже текут из PostgreSQL в Kafka — пора их куда-то складывать. Сегодня поднимаем Hadoop и Hive, и разбираемся, почему Hive 3.1.3 не дружит с Java 11.
https://habr.com/ru/articles/994062/
#hadoop #hive #sql #postgresql #cdc #logical_replication #devops #data_engineering
-
HDFS и Hive для CDC: строим хранилище данных в домашней лаборатории
Четвёртая статья цикла о построении CDC-пайплайна с нуля. Данные уже текут из PostgreSQL в Kafka — пора их куда-то складывать. Сегодня поднимаем Hadoop и Hive, и разбираемся, почему Hive 3.1.3 не дружит с Java 11.
https://habr.com/ru/articles/994062/
#hadoop #hive #sql #postgresql #cdc #logical_replication #devops #data_engineering
-
So apparently, if you're still using #Hadoop in 2014, congrats on your commitment to #nostalgia. 🎩 Why waste time on 235 elephants when a single command-line #ninja can do the job faster? 🚀✨ Enjoy your #EMR toy, but maybe keep that "cool article" on the backburner for when you need a chuckle. 😂
https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html #CommandLine #Humor #TechTrends #HackerNews #ngated -
So apparently, if you're still using #Hadoop in 2014, congrats on your commitment to #nostalgia. 🎩 Why waste time on 235 elephants when a single command-line #ninja can do the job faster? 🚀✨ Enjoy your #EMR toy, but maybe keep that "cool article" on the backburner for when you need a chuckle. 😂
https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html #CommandLine #Humor #TechTrends #HackerNews #ngated -
So apparently, if you're still using #Hadoop in 2014, congrats on your commitment to #nostalgia. 🎩 Why waste time on 235 elephants when a single command-line #ninja can do the job faster? 🚀✨ Enjoy your #EMR toy, but maybe keep that "cool article" on the backburner for when you need a chuckle. 😂
https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html #CommandLine #Humor #TechTrends #HackerNews #ngated -
So apparently, if you're still using #Hadoop in 2014, congrats on your commitment to #nostalgia. 🎩 Why waste time on 235 elephants when a single command-line #ninja can do the job faster? 🚀✨ Enjoy your #EMR toy, but maybe keep that "cool article" on the backburner for when you need a chuckle. 😂
https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html #CommandLine #Humor #TechTrends #HackerNews #ngated -
So apparently, if you're still using #Hadoop in 2014, congrats on your commitment to #nostalgia. 🎩 Why waste time on 235 elephants when a single command-line #ninja can do the job faster? 🚀✨ Enjoy your #EMR toy, but maybe keep that "cool article" on the backburner for when you need a chuckle. 😂
https://adamdrake.com/command-line-tools-can-be-235x-faster-than-your-hadoop-cluster.html #CommandLine #Humor #TechTrends #HackerNews #ngated -
Искусственный интеллект без иллюзий: как не сжечь бюджет компании на хайпе (Часть 2)
Это вторая часть цикла публикаций, где мы говорим не о теории искусственного интеллекта, а о суровой реальности его внедрения в бизнес. В первой части мы обсуждали стратегические ловушки ( https://habr.com/ru/articles/969094/ ), а теперь настал черед уровня данных, который оказался для нас минным полем.
-
Файловое хранилище Wildberries: бескомпромиссный HighLoad
Привет, меня зовут Иван Волков, я CTO продукта CDN MediaBasket в Wildberries. Это большое распределенное файловое хранилище, используемое различными внутренними продуктами Wildberries. Одним из продуктов, с которым взаимодействуют внешние клиенты, является каталог товаров. Это ставит перед хранилищем высокую планку по оптимизации и готовности к экстремальным нагрузкам. В этой статье я расскажу, какие решения мы использовали в архитектуре продукта и как при миллионном RPS мы доставляем картинки пользователям за считанные миллисекунды.
https://habr.com/ru/companies/wildberries/articles/967988/
#файловое_хранилище #шардирование #шардинг #highload #хайлоад #схд #ceph #hadoop #wildberries #drpaster
-
Data Science Roadmap 2025 | Become a Data Scientist from Scratch! #datascienceinstitute #hadoop
Data Science Roadmap 2025 | Become a Data Scientist from Scratch! --- Description: Want to become a Data Scientist in 2025? source
-
Добавляем MapReduce в этот наш SQL: генераторы на основе курсоров
Вот уже который год я потихоньку разрабатываю SQL-ный движок на основе Apache Spark, специализированный под задачи ETL. И хотя диалект языка изначально называется «Transform Definition Language», писать трансформации данных непосредственно на нём самом было до сих пор невозможно. Вместо этого на фазе Transform предполагалось использовать подключаемые модули, которые рантайм интерпретатора предоставляет из Java classpath. Это очень эффективный с точки зрения производительности, но довольно долгий с точки зрения внедрения, и дорогой в разработке способ. Сначала трансформацию надо описать формально в виде статьи-whitepaper'а (это делает data scientist), потом написать прототип на Python (ответственность data analyst), отладиться на сэмпле реальных данных (тоже аналитик), и тогда уже делать и оптимизировать финальную имплементацию на Java с использованием низкоуровневого API Spark (собственно, задача разработчика). Неудобно. Нельзя ли его как-нибудь сократить? Например, дать аналитикам инструмент для написания трансформаций непосредственно в самом SQL, вынеся некоторую часть функциональности MapReduce как разновидность итерирующих функций? Можно, конечно! Давайте узнаем, как именно
https://habr.com/ru/articles/958362/
#sql #etl #apache_spark #java #hadoop #big_data #big_data_solutions #big_data_tools #интерпретатор
-
Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность
Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.
https://habr.com/ru/companies/datasapience/articles/964052/
#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop
-
Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность
Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.
https://habr.com/ru/companies/datasapience/articles/964052/
#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop
-
Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность
Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.
https://habr.com/ru/companies/datasapience/articles/964052/
#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop
-
Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность
Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.
https://habr.com/ru/companies/datasapience/articles/964052/
#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop
-
Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala
В сегодняшней, уже третьей по счету, публикации я продолжу делится результатами нагрузочных испытаний вычислительных технологий массивных параллельных вычислений (на Habr уже представлены мои материалы, посвященные сравнению Impala, Trino и Greenplum , в том числе по методике TPC-DS ). В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.
https://habr.com/ru/companies/datasapience/articles/959496/
#starrocks #trino #lakehouse #impala #spark #bigdata #datalake #dwh #hadoop #s3
-
Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala
В сегодняшней, уже третьей по счету, публикации я продолжу делится результатами нагрузочных испытаний вычислительных технологий массивных параллельных вычислений (на Habr уже представлены мои материалы, посвященные сравнению Impala, Trino и Greenplum , в том числе по методике TPC-DS ). В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.
https://habr.com/ru/companies/datasapience/articles/959496/
#starrocks #trino #lakehouse #impala #spark #bigdata #datalake #dwh #hadoop #s3
-
Сокращаем трудозатраты при выводе витрин на Hadoop
Привет, друзья! Я Олег Васильев, владелец продукта Dream DE. В этой статье расскажу, как мы научились быстро и эффективно выводить витрины на Hadoop в эксплуатацию, или как мы за один квартал вывели 26 инициатив в рабочую среду силами четырёх инженеров по данным.
-
Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0 , разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API . Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0 . Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции. Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами?
https://habr.com/ru/companies/arenadata/articles/921252/
#spark #data_science #data_engineering #bigdata #sql #lakehouse #datalake #хранение_данных #hadoop #производительность
-
От реляционных СУБД к экосистеме Hadoop
Привет, Хабр! Недавно я понял, что не знаю, что такое Hadoop. (На этом моменте становится понятно, что данная статья ориентирована на людей, которые не имеют экспертизы и реального опыта взаимодействия с продуктами экосистемы Hadoop) Сам я являюсь разработчиком, и ежедневно взаимодействую с различными СУБД – в основном, с пресловутой PostgreSQL. Каково же было мое удивление, когда я узнал, что на проде в эту БД данные попадают не напрямую – а с какого-то Greenplum, а туда они, в свою очередь, приходят с некоего Hadoop. В этот момент я решил узнать, чем обоснована необходимость использования этих инструментов и что они из себя представляют.
-
There's a lot talk about "ZeroDisk" infrastructure backed by S3. The pitch is "move your data from locally attached NVMe storage to S3 and your applications will scale easier and be more performant!"
Maybe I'm getting too old for this shit, but I swear to dog this is the 4th such cycle in my career:
1. NFS
2. iSCSI / Fibrechannel
3. Hadoop / HDFS
4. ZeroDisk with S3Am I the only one that's like: "wait, move TBs of data to S3 from NVMe to increase performance? Are you high?"
It doesn't work, so you scale up. Now you're back to local NVMe "cache disks" running instances as expensive as the locally attached NVMe instances when you add those costs to your S3 bill. The performance is worse because of course it is.
It always comes back to the two hard problems in computer science: naming things, cache invalidation, and off-by-one errors. 😂
-
No response yet to my #syslog_ng #HDFS destination question:
Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...
-
No response yet to my #syslog_ng #HDFS destination question:
Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...
-
No response yet to my #syslog_ng #HDFS destination question:
Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...
-
No response yet to my #syslog_ng #HDFS destination question:
Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...
-
No response yet to my #syslog_ng #HDFS destination question:
Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...
-
Влияние маленьких файлов на Big Data: HDFS vs S3
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды
https://habr.com/ru/companies/arenadata/articles/915684/
#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio
-
Влияние маленьких файлов на Big Data: HDFS vs S3
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды
https://habr.com/ru/companies/arenadata/articles/915684/
#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio
-
Влияние маленьких файлов на Big Data: HDFS vs S3
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды
https://habr.com/ru/companies/arenadata/articles/915684/
#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio
-
Влияние маленьких файлов на Big Data: HDFS vs S3
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды
https://habr.com/ru/companies/arenadata/articles/915684/
#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio
-
Соединение SortMergeJoin в Apache Spark
Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории проекта. Вот здесь :) Первое, что рассмотрим - это конструктор кейс-класса 1. Конструктор SortMergeJoinExec
-
Как я удалил clickstream, но его восстановили из небытия
Всем привет! Я Дмитрий Немчин из Т-Банка. Расскажу не очень успешную историю о том как я удалил данные и что из этого вышло. В ИТ я больше 12 лет, начинал DBA и разработчиком в кровавом энтепрайзе с Oracle. В 2015 году познакомился с Greenplum в Т, да так тут и остался. С 2017 года стал лидить команду, потом все чуть усложнилось и команда стала не одна. Возможно, вы меня могли видеть как организатора Greenplum-митапов в России. Но команда командой, менеджмент менеджментом, а руки чешутся..
-
Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML
Привет, Хабр! Я Дмитрий Жихарев, CPO Платформы искусственного интеллекта RAISA в Лаборатории ИИ РСХБ-Интех. В этой статье я и архитектор нашей платформы Александр Рындин @aryndin9999 расскажем о том, как мы построили взаимодействие Платформы ИИ и Озера данных для работы с витринами данных моделей машинного обучения с использованием Spark.
https://habr.com/ru/companies/rshb/articles/904072/
#spark #arenadata #hadoop #datalake #витрина_данных #ai #платформа #livy
-
Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json
-
Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json
-
Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json
-
Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json
-
Any hadoop experts out there looking for some consulting? Got a hadoop cluster that needs some expert TLC.
-
Ah yes, let's compare #Iceberg to #Hadoop, because nothing says "modern" like reminiscing about decade-old #tech 📅💾. This is the part where we pretend everything old is new again, while grabbing our #vintage floppy disks to join the 'modern' #data #revolution 🚀😂.
https://blog.det.life/apache-iceberg-the-hadoop-of-the-modern-data-stack-c83f63a4ebb9 #modern #data #HackerNews #ngated -
Apache iceberg the Hadoop of the modern-data-stack? — https://blog.det.life/apache-iceberg-the-hadoop-of-the-modern-data-stack-c83f63a4ebb9
#HackerNews #ApacheIceberg #ModernDataStack #Hadoop #DataEngineering #BigData -
Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse
Привет, Хабр! Меня зовут Алексей Струченко, я работаю архитектором информационных систем в Arenadata. Сегодня хотелось бы поговорить о хранилищах данных — их видах, ключевых особенностях и о том, как выбрать подходящее решение. В эпоху цифровой трансформации данные стали одним из самых ценных активов для компаний любого масштаба и сферы деятельности. Эффективное хранение, обработка и анализ больших объёмов данных помогают организациям принимать обоснованные решения, повышать операционную эффективность и создавать конкурентные преимущества. Однако с ростом объёмов данных и усложнением их структуры традиционные методы хранения сталкиваются с ограничениями. В этой статье мы подробно рассмотрим подходы к хранению данных: Data Warehouse (DWH) , Data Lake и относительно новую концепцию Lakehouse . Разберем их особенности, различия, преимущества и недостатки, а также предложим рекомендации по выбору каждого подхода. Всплыть
https://habr.com/ru/companies/arenadata/articles/885722/
#dwh #data_lake #lakehouse #хранение_данных #big_data #администрирование_бд #базы_данных #озеро_данных #spark #hadoop