home.social

#hdfs — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #hdfs, aggregated by home.social.

  1. apache iceberg и его философия

    iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

    habr.com/ru/articles/1033546/

    #iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

  2. apache iceberg и его философия

    iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

    habr.com/ru/articles/1033546/

    #iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

  3. apache iceberg и его философия

    iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

    habr.com/ru/articles/1033546/

    #iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

  4. apache iceberg и его философия

    iceberg и его философия metadata расскажем почему iceberg эффективно выполняет запросы и прост в управлении данными благодаря своей metadata

    habr.com/ru/articles/1033546/

    #iceberg #metadata #data_lake #s3 #hdfs #data_lakehouse #acid #olap

  5. Is there anyone still using #HDFS? Not just with #syslog_ng, but at all. I'm curious, as the HDFS destination is the last #Java-based driver in syslog-ng.

    syslog-ng.com/community/b/blog

    Nobody responded to my related posts for years, so 4.11 will be the last release to have it.
    #LogManagement #BigData

  6. Is there anyone still using ? Not just with , but at all. I'm curious, as the HDFS destination is the last -based driver in syslog-ng.

    syslog-ng.com/community/b/blog

    Nobody responded to my related posts for years, so 4.11 will be the last release to have it.

  7. Is there anyone still using #HDFS? Not just with #syslog_ng, but at all. I'm curious, as the HDFS destination is the last #Java-based driver in syslog-ng.

    syslog-ng.com/community/b/blog

    Nobody responded to my related posts for years, so 4.11 will be the last release to have it.
    #LogManagement #BigData

  8. Is there anyone still using #HDFS? Not just with #syslog_ng, but at all. I'm curious, as the HDFS destination is the last #Java-based driver in syslog-ng.

    syslog-ng.com/community/b/blog

    Nobody responded to my related posts for years, so 4.11 will be the last release to have it.
    #LogManagement #BigData

  9. Is there anyone still using #HDFS? Not just with #syslog_ng, but at all. I'm curious, as the HDFS destination is the last #Java-based driver in syslog-ng.

    syslog-ng.com/community/b/blog

    Nobody responded to my related posts for years, so 4.11 will be the last release to have it.
    #LogManagement #BigData

  10. Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

    Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

    habr.com/ru/companies/datasapi

    #s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

  11. Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

    Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

    habr.com/ru/companies/datasapi

    #s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

  12. Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

    Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

    habr.com/ru/companies/datasapi

    #s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

  13. Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

    Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

    habr.com/ru/companies/datasapi

    #s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

  14. The August syslog-ng newsletter is now available on-line:

    - Deprecating #Java-based drivers from syslog-ng: Is #HDFS next?

    - Your first steps configuring #syslog_ng

    - #Prometheus exporter in syslog-ng

    Read it at syslog-ng.com/community/b/blog

  15. The August syslog-ng newsletter is now available on-line:

    - Deprecating -based drivers from syslog-ng: Is next?

    - Your first steps configuring

    - exporter in syslog-ng

    Read it at syslog-ng.com/community/b/blog

  16. The August syslog-ng newsletter is now available on-line:

    - Deprecating #Java-based drivers from syslog-ng: Is #HDFS next?

    - Your first steps configuring #syslog_ng

    - #Prometheus exporter in syslog-ng

    Read it at syslog-ng.com/community/b/blog

  17. The August syslog-ng newsletter is now available on-line:

    - Deprecating #Java-based drivers from syslog-ng: Is #HDFS next?

    - Your first steps configuring #syslog_ng

    - #Prometheus exporter in syslog-ng

    Read it at syslog-ng.com/community/b/blog

  18. The August syslog-ng newsletter is now available on-line:

    - Deprecating #Java-based drivers from syslog-ng: Is #HDFS next?

    - Your first steps configuring #syslog_ng

    - #Prometheus exporter in syslog-ng

    Read it at syslog-ng.com/community/b/blog

  19. While most #Java-based drivers have been deprecated in #syslog_ng years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.

    syslog-ng.com/community/b/blog

  20. While most -based drivers have been deprecated in years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is , so we want to ask the syslog-ng community if the HDFS destination is still needed for them.

    syslog-ng.com/community/b/blog

  21. While most #Java-based drivers have been deprecated in #syslog_ng years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.

    syslog-ng.com/community/b/blog

  22. While most #Java-based drivers have been deprecated in #syslog_ng years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.

    syslog-ng.com/community/b/blog

  23. While most #Java-based drivers have been deprecated in #syslog_ng years ago, we have recently removed all of them in preparation to syslog-ng 4.9.0. Right now, the only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.

    syslog-ng.com/community/b/blog

  24. No response yet to my #syslog_ng #HDFS destination question:

    syslog-ng.com/community/b/blog

    Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

  25. No response yet to my destination question:

    syslog-ng.com/community/b/blog

    Most likely it means that we can drop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my accounts...

  26. No response yet to my #syslog_ng #HDFS destination question:

    syslog-ng.com/community/b/blog

    Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

  27. No response yet to my #syslog_ng #HDFS destination question:

    syslog-ng.com/community/b/blog

    Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

  28. No response yet to my #syslog_ng #HDFS destination question:

    syslog-ng.com/community/b/blog

    Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

  29. Влияние маленьких файлов на Big Data: HDFS vs S3

    Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды

    habr.com/ru/companies/arenadat

    #bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio

  30. Влияние маленьких файлов на Big Data: HDFS vs S3

    Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды

    habr.com/ru/companies/arenadat

    #bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio

  31. Влияние маленьких файлов на Big Data: HDFS vs S3

    Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды

    habr.com/ru/companies/arenadat

    #bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio

  32. Влияние маленьких файлов на Big Data: HDFS vs S3

    Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды

    habr.com/ru/companies/arenadat

    #bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio

  33. Most #Java-based drivers have been deprecated in #syslog_ng years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
    syslog-ng.com/community/b/blog

  34. Most -based drivers have been deprecated in years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is , so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
    syslog-ng.com/community/b/blog

  35. Most #Java-based drivers have been deprecated in #syslog_ng years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
    syslog-ng.com/community/b/blog

  36. Most #Java-based drivers have been deprecated in #syslog_ng years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
    syslog-ng.com/community/b/blog

  37. Most #Java-based drivers have been deprecated in #syslog_ng years ago, and removed while preparing for 4.9.0. The only Java-based driver remaining is #HDFS, so we want to ask the syslog-ng community if the HDFS destination is still needed for them.
    syslog-ng.com/community/b/blog

  38. Методы расширения атрибутивного состава таблиц БД

    Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

    habr.com/ru/companies/T1Holdin

    #hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

  39. Методы расширения атрибутивного состава таблиц БД

    Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

    habr.com/ru/companies/T1Holdin

    #hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

  40. Методы расширения атрибутивного состава таблиц БД

    Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

    habr.com/ru/companies/T1Holdin

    #hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

  41. Методы расширения атрибутивного состава таблиц БД

    Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

    habr.com/ru/companies/T1Holdin

    #hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

  42. so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: openlogic.com/blog/using-cassa

    Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.

    If anyone has beginner resources, I'll likely be pointing folks to some resources

  43. so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: openlogic.com/blog/using-cassa

    Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.

    If anyone has beginner resources, I'll likely be pointing folks to some resources

  44. so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: openlogic.com/blog/using-cassa

    Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.

    If anyone has beginner resources, I'll likely be pointing folks to some resources

  45. so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: openlogic.com/blog/using-cassa

    Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.

    If anyone has beginner resources, I'll likely be pointing folks to some resources

  46. so, gonna write some stuff on #HDFS #MapReduce #yarn and maybe clustering. Also, #machinelearning was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: openlogic.com/blog/using-cassa

    Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.

    If anyone has beginner resources, I'll likely be pointing folks to some resources

  47. Мой опыт эксплуатации кластера Trino

    Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata. Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData .

    habr.com/ru/articles/863854/

    #trino #trinosql #hdfs #iceberg #cedrusdata #presto #prestodb

  48. Мой опыт эксплуатации кластера Trino

    Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata. Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData .

    habr.com/ru/articles/863854/

    #trino #trinosql #hdfs #iceberg #cedrusdata #presto #prestodb

  49. Мой опыт эксплуатации кластера Trino

    Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata. Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData .

    habr.com/ru/articles/863854/

    #trino #trinosql #hdfs #iceberg #cedrusdata #presto #prestodb

  50. Мой опыт эксплуатации кластера Trino

    Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata. Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData .

    habr.com/ru/articles/863854/

    #trino #trinosql #hdfs #iceberg #cedrusdata #presto #prestodb