home.social

#apache_parquet — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #apache_parquet, aggregated by home.social.

  1. New nf-parquet version 0.2.1 deployed using new plugin repository

    Interesting the new way to publish plugins, once I use it a little more I'll write a post about it

    #Nextflow #parquet #apache_parquet

    registry.nextflow.io/plugins/n

  2. New nf-parquet version 0.2.1 deployed using new plugin repository

    Interesting the new way to publish plugins, once I use it a little more I'll write a post about it

    #Nextflow #parquet #apache_parquet

    registry.nextflow.io/plugins/n

  3. New nf-parquet version 0.2.1 deployed using new plugin repository

    Interesting the new way to publish plugins, once I use it a little more I'll write a post about it

    #Nextflow #parquet #apache_parquet

    registry.nextflow.io/plugins/n

  4. New nf-parquet version 0.2.1 deployed using new plugin repository

    Interesting the new way to publish plugins, once I use it a little more I'll write a post about it

    #Nextflow #parquet #apache_parquet

    registry.nextflow.io/plugins/n

  5. New nf-parquet version 0.2.1 deployed using new plugin repository

    Interesting the new way to publish plugins, once I use it a little more I'll write a post about it

    #Nextflow #parquet #apache_parquet

    registry.nextflow.io/plugins/n

  6. Методы расширения атрибутивного состава таблиц БД

    Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

    habr.com/ru/companies/T1Holdin

    #hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

  7. Методы расширения атрибутивного состава таблиц БД

    Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

    habr.com/ru/companies/T1Holdin

    #hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

  8. Методы расширения атрибутивного состава таблиц БД

    Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

    habr.com/ru/companies/T1Holdin

    #hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

  9. Методы расширения атрибутивного состава таблиц БД

    Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

    habr.com/ru/companies/T1Holdin

    #hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

  10. ZIP-бомба в формате Apache Parquet

    Давние хаброжители помнят, как в 2015 году ZIP-бомба в формате PNG ненадолго вывела из строя Habrastorage. С тех пор появились новые разновидности этого «оружия»: например, разработаны нерекурсивные и компиляторные бомбы (29 байт кода → 16 ГБ .exe). Подобного рода экспоиты можно встроить не только в формат ZIP или PNG, но и в других форматы файлов, которые поддерживают сжатие. Например, в формате Apache Parquet .

    habr.com/ru/companies/globalsi

    #ZIPбомба #Apache_Parquet #DoSатака #Thrift

  11. ZIP-бомба в формате Apache Parquet

    Давние хаброжители помнят, как в 2015 году ZIP-бомба в формате PNG ненадолго вывела из строя Habrastorage. С тех пор появились новые разновидности этого «оружия»: например, разработаны нерекурсивные и компиляторные бомбы (29 байт кода → 16 ГБ .exe). Подобного рода экспоиты можно встроить не только в формат ZIP или PNG, но и в других форматы файлов, которые поддерживают сжатие. Например, в формате Apache Parquet .

    habr.com/ru/companies/globalsi

    #ZIPбомба #Apache_Parquet #DoSатака #Thrift

  12. ZIP-бомба в формате Apache Parquet

    Давние хаброжители помнят, как в 2015 году ZIP-бомба в формате PNG ненадолго вывела из строя Habrastorage. С тех пор появились новые разновидности этого «оружия»: например, разработаны нерекурсивные и компиляторные бомбы (29 байт кода → 16 ГБ .exe). Подобного рода экспоиты можно встроить не только в формат ZIP или PNG, но и в других форматы файлов, которые поддерживают сжатие. Например, в формате Apache Parquet .

    habr.com/ru/companies/globalsi

    #ZIPбомба #Apache_Parquet #DoSатака #Thrift

  13. ZIP-бомба в формате Apache Parquet

    Давние хаброжители помнят, как в 2015 году ZIP-бомба в формате PNG ненадолго вывела из строя Habrastorage. С тех пор появились новые разновидности этого «оружия»: например, разработаны нерекурсивные и компиляторные бомбы (29 байт кода → 16 ГБ .exe). Подобного рода экспоиты можно встроить не только в формат ZIP или PNG, но и в других форматы файлов, которые поддерживают сжатие. Например, в формате Apache Parquet .

    habr.com/ru/companies/globalsi

    #ZIPбомба #Apache_Parquet #DoSатака #Thrift

  14. [Перевод] Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

    По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора. Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

    habr.com/ru/articles/784372/

    #apache_parquet #data_lake #data_processing #storage

  15. [Перевод] Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

    По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора. Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

    habr.com/ru/articles/784372/

    #apache_parquet #data_lake #data_processing #storage