#hdfs — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #hdfs, aggregated by home.social.
-
apache iceberg и его философия
iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata
https://habr.com/ru/articles/1033546/
#iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap
-
apache iceberg и его философия
iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata
https://habr.com/ru/articles/1033546/
#iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap
-
apache iceberg и его философия
iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata
https://habr.com/ru/articles/1033546/
#iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap
-
apache iceberg и его философия
iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata
https://habr.com/ru/articles/1033546/
#iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap
-
Is there anyone still using #HDFS? Not just with #syslog_ng, but at all. I'm curious, as the HDFS destination is the last #Java-based driver in syslog-ng.
Nobody responded to my related posts for years, so 4.11 will be the last release to have it.
#LogManagement #BigData -
Is there anyone still using #HDFS? Not just with #syslog_ng, but at all. I'm curious, as the HDFS destination is the last #Java-based driver in syslog-ng.
Nobody responded to my related posts for years, so 4.11 will be the last release to have it.
#LogManagement #BigData -
Is there anyone still using #HDFS? Not just with #syslog_ng, but at all. I'm curious, as the HDFS destination is the last #Java-based driver in syslog-ng.
Nobody responded to my related posts for years, so 4.11 will be the last release to have it.
#LogManagement #BigData -
Is there anyone still using #HDFS? Not just with #syslog_ng, but at all. I'm curious, as the HDFS destination is the last #Java-based driver in syslog-ng.
Nobody responded to my related posts for years, so 4.11 will be the last release to have it.
#LogManagement #BigData -
Is there anyone still using #HDFS? Not just with #syslog_ng, but at all. I'm curious, as the HDFS destination is the last #Java-based driver in syslog-ng.
Nobody responded to my related posts for years, so 4.11 will be the last release to have it.
#LogManagement #BigData -
Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними
Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.
https://habr.com/ru/companies/datasapience/articles/941046/
#s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh
-
Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними
Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.
https://habr.com/ru/companies/datasapience/articles/941046/
#s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh
-
Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними
Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.
https://habr.com/ru/companies/datasapience/articles/941046/
#s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh
-
Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними
Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.
https://habr.com/ru/companies/datasapience/articles/941046/
#s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh
-
The August syslog-ng newsletter is now available on-line:
- Deprecating #Java-based drivers from syslog-ng: Is #HDFS next?
- Your first steps configuring #syslog_ng
- #Prometheus exporter in syslog-ng
-
The August syslog-ng newsletter is now available on-line:
- Deprecating #Java-based drivers from syslog-ng: Is #HDFS next?
- Your first steps configuring #syslog_ng
- #Prometheus exporter in syslog-ng
-
The August syslog-ng newsletter is now available on-line:
- Deprecating #Java-based drivers from syslog-ng: Is #HDFS next?
- Your first steps configuring #syslog_ng
- #Prometheus exporter in syslog-ng
-
The August syslog-ng newsletter is now available on-line:
- Deprecating #Java-based drivers from syslog-ng: Is #HDFS next?
- Your first steps configuring #syslog_ng
- #Prometheus exporter in syslog-ng
-
The August syslog-ng newsletter is now available on-line:
- Deprecating #Java-based drivers from syslog-ng: Is #HDFS next?
- Your first steps configuring #syslog_ng
- #Prometheus exporter in syslog-ng
-
While most #Java-based drivers have been deprecated in #syslog_ng years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
-
While most #Java-based drivers have been deprecated in #syslog_ng years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
-
While most #Java-based drivers have been deprecated in #syslog_ng years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
-
While most #Java-based drivers have been deprecated in #syslog_ng years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
-
While most #Java-based drivers have been deprecated in #syslog_ng years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
-
No response yet to my #syslog_ng #HDFS destination question:
Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...
-
No response yet to my #syslog_ng #HDFS destination question:
Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...
-
No response yet to my #syslog_ng #HDFS destination question:
Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...
-
No response yet to my #syslog_ng #HDFS destination question:
Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...
-
No response yet to my #syslog_ng #HDFS destination question:
Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...
-
Влияние маленьких файлов на Big Data: HDFS vs S3
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды
https://habr.com/ru/companies/arenadata/articles/915684/
#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio
-
Влияние маленьких файлов на Big Data: HDFS vs S3
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды
https://habr.com/ru/companies/arenadata/articles/915684/
#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio
-
Влияние маленьких файлов на Big Data: HDFS vs S3
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды
https://habr.com/ru/companies/arenadata/articles/915684/
#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio
-
Влияние маленьких файлов на Big Data: HDFS vs S3
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды
https://habr.com/ru/companies/arenadata/articles/915684/
#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio
-
Most #Java-based drivers have been deprecated in #syslog_ng years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next -
Most #Java-based drivers have been deprecated in #syslog_ng years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next -
Most #Java-based drivers have been deprecated in #syslog_ng years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next -
Most #Java-based drivers have been deprecated in #syslog_ng years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next -
Most #Java-based drivers have been deprecated in #syslog_ng years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
https://www.syslog-ng.com/community/b/blog/posts/deprecating-java-based-drivers-from-syslog-ng-is-hdfs-next -
Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json
-
Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json
-
Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json
-
Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json
-
so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: https://www.openlogic.com/blog/using-cassandra-kafka-and-spark-ai
Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.
If anyone has beginner resources, I'll likely be pointing folks to some resources
-
so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: https://www.openlogic.com/blog/using-cassandra-kafka-and-spark-ai
Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.
If anyone has beginner resources, I'll likely be pointing folks to some resources
-
so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: https://www.openlogic.com/blog/using-cassandra-kafka-and-spark-ai
Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.
If anyone has beginner resources, I'll likely be pointing folks to some resources
-
so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: https://www.openlogic.com/blog/using-cassandra-kafka-and-spark-ai
Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.
If anyone has beginner resources, I'll likely be pointing folks to some resources
-
so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: https://www.openlogic.com/blog/using-cassandra-kafka-and-spark-ai
Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.
If anyone has beginner resources, I'll likely be pointing folks to some resources
-
Мой опыт эксплуатации кластера Trino
Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata. Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData .
https://habr.com/ru/articles/863854/
#trino #trinosql #hdfs #iceberg #cedrusdata #presto #prestodb
-
Мой опыт эксплуатации кластера Trino
Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata. Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData .
https://habr.com/ru/articles/863854/
#trino #trinosql #hdfs #iceberg #cedrusdata #presto #prestodb
-
Мой опыт эксплуатации кластера Trino
Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata. Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData .
https://habr.com/ru/articles/863854/
#trino #trinosql #hdfs #iceberg #cedrusdata #presto #prestodb
-
Мой опыт эксплуатации кластера Trino
Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata. Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData .
https://habr.com/ru/articles/863854/
#trino #trinosql #hdfs #iceberg #cedrusdata #presto #prestodb