#apache_parquet — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #apache_parquet, aggregated by home.social.

Jorge @[email protected] · 2025-09-05 · 17:35 UTC

New nf-parquet version 0.2.1 deployed using new plugin repository
Interesting the new way to publish plugins, once I use it a little more I'll write a post about it
#Nextflow #parquet #apache_parquet
https://registry.nextflow.io/plugins/nf-parquet

#nextflow #parquet #apache_parquet
Jorge @[email protected] · 2025-09-05 · 17:35 UTC

New nf-parquet version 0.2.1 deployed using new plugin repository
Interesting the new way to publish plugins, once I use it a little more I'll write a post about it
#Nextflow #parquet #apache_parquet
https://registry.nextflow.io/plugins/nf-parquet

#nextflow #parquet #apache_parquet
Jorge @[email protected] · 2025-09-05 · 17:35 UTC

New nf-parquet version 0.2.1 deployed using new plugin repository
Interesting the new way to publish plugins, once I use it a little more I'll write a post about it
#Nextflow #parquet #apache_parquet
https://registry.nextflow.io/plugins/nf-parquet

#nextflow #parquet #apache_parquet
Jorge @[email protected] · 2025-09-05 · 17:35 UTC

New nf-parquet version 0.2.1 deployed using new plugin repository
Interesting the new way to publish plugins, once I use it a little more I'll write a post about it
#Nextflow #parquet #apache_parquet
https://registry.nextflow.io/plugins/nf-parquet

#apache_parquet #parquet #nextflow
Jorge @[email protected] · 2025-09-05 · 17:35 UTC

New nf-parquet version 0.2.1 deployed using new plugin repository
Interesting the new way to publish plugins, once I use it a little more I'll write a post about it
#Nextflow #parquet #apache_parquet
https://registry.nextflow.io/plugins/nf-parquet

#nextflow #parquet #apache_parquet
Habr @[email protected] · 2025-04-23 · 12:42 UTC

Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

#hadoop #spark #airflow #hive #hdfs #apache_parquet
Habr @[email protected] · 2025-04-23 · 12:42 UTC

Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

#hadoop #spark #airflow #hive #hdfs #apache_parquet
Habr @[email protected] · 2025-04-23 · 12:42 UTC

Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

#hadoop #spark #airflow #hive #hdfs #apache_parquet
Habr @[email protected] · 2025-04-23 · 12:42 UTC

Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

#json #eav #sql #ddl #apache_parquet #hdfs
:rss: Hacker News @[email protected] · 2025-04-06 · 17:49 UTC

Max severity RCE flaw discovered in widely used Apache Parquet
https://www.bleepingcomputer.com/news/security/max-severity-rce-flaw-discovered-in-widely-used-apache-parquet/
#ycombinator #computers #windows #linux #mac #support #tech_support #spyware #malware #virus #security #Apache #Apache_Parquet #Big_Data #RCE #Remote_Code_Execution #Vulnerability #virus_removal #malware_removal #computer_help #technical_support

#ycombinator #computers #windows #linux #mac #support
:rss: Hacker News @[email protected] · 2025-04-06 · 17:49 UTC

Max severity RCE flaw discovered in widely used Apache Parquet
https://www.bleepingcomputer.com/news/security/max-severity-rce-flaw-discovered-in-widely-used-apache-parquet/
#ycombinator #computers #windows #linux #mac #support #tech_support #spyware #malware #virus #security #Apache #Apache_Parquet #Big_Data #RCE #Remote_Code_Execution #Vulnerability #virus_removal #malware_removal #computer_help #technical_support

#ycombinator #computers #windows #linux #mac #support
:rss: Hacker News @[email protected] · 2025-04-06 · 17:49 UTC

Max severity RCE flaw discovered in widely used Apache Parquet
https://www.bleepingcomputer.com/news/security/max-severity-rce-flaw-discovered-in-widely-used-apache-parquet/
#ycombinator #computers #windows #linux #mac #support #tech_support #spyware #malware #virus #security #Apache #Apache_Parquet #Big_Data #RCE #Remote_Code_Execution #Vulnerability #virus_removal #malware_removal #computer_help #technical_support

#technical_support #computer_help #malware_removal #virus_removal #vulnerability #remote_code_execution
:rss: Hacker News @[email protected] · 2025-04-06 · 17:49 UTC

Max severity RCE flaw discovered in widely used Apache Parquet
https://www.bleepingcomputer.com/news/security/max-severity-rce-flaw-discovered-in-widely-used-apache-parquet/
#ycombinator #computers #windows #linux #mac #support #tech_support #spyware #malware #virus #security #Apache #Apache_Parquet #Big_Data #RCE #Remote_Code_Execution #Vulnerability #virus_removal #malware_removal #computer_help #technical_support

#ycombinator #computers #windows #linux #mac #support
:rss: DevelopersIO @[email protected] · 2025-03-31 · 01:14 UTC

DatabricksのUnity Catalogを利用してS3にDelta Lakeを構築する
https://dev.classmethod.jp/articles/databricks-unity-catalog-s3-delta-lake/
#dev_classmethod #Databricks #Amazon_S3 #Apache_Parquet #PySpark #AWS

#dev_classmethod #databricks #amazon_s3 #apache_parquet #pyspark #aws
:rss: DevelopersIO @[email protected] · 2025-03-31 · 01:14 UTC

DatabricksのUnity Catalogを利用してS3にDelta Lakeを構築する
https://dev.classmethod.jp/articles/databricks-unity-catalog-s3-delta-lake/
#dev_classmethod #Databricks #Amazon_S3 #Apache_Parquet #PySpark #AWS

#dev_classmethod #databricks #amazon_s3 #apache_parquet #pyspark #aws
:rss: DevelopersIO @[email protected] · 2025-03-28 · 06:11 UTC

DatabricksのUnity Catalogを利用してS3のデータを外部テーブルとして読み込んでみた
https://dev.classmethod.jp/articles/databricks-unity-catalog-s3/
#dev_classmethod #Databricks #Amazon_S3 #Apache_Parquet #Hive #AWS

#dev_classmethod #databricks #amazon_s3 #apache_parquet #hive #aws
:rss: DevelopersIO @[email protected] · 2025-03-28 · 06:11 UTC

DatabricksのUnity Catalogを利用してS3のデータを外部テーブルとして読み込んでみた
https://dev.classmethod.jp/articles/databricks-unity-catalog-s3/
#dev_classmethod #Databricks #Amazon_S3 #Apache_Parquet #Hive #AWS

#dev_classmethod #databricks #amazon_s3 #apache_parquet #hive #aws
:rss: DevelopersIO @[email protected] · 2025-03-04 · 10:57 UTC

firehoseを使ってs3にparquet形式でデータを保存する
https://dev.classmethod.jp/articles/firehose-s3-parquet/
#dev_classmethod #AWS #Amazon_Data_Firehose #Apache_Parquet #AWS_CDK #TypeScript #AWS_Glue

#dev_classmethod #aws #amazon_data_firehose #apache_parquet #aws_cdk #typescript
:rss: DevelopersIO @[email protected] · 2025-03-04 · 10:57 UTC

firehoseを使ってs3にparquet形式でデータを保存する
https://dev.classmethod.jp/articles/firehose-s3-parquet/
#dev_classmethod #AWS #Amazon_Data_Firehose #Apache_Parquet #AWS_CDK #TypeScript #AWS_Glue

#dev_classmethod #aws #amazon_data_firehose #apache_parquet #aws_cdk #typescript
:rss: DevelopersIO @[email protected] · 2025-03-04 · 10:57 UTC

firehoseを使ってs3にparquet形式でデータを保存する
https://dev.classmethod.jp/articles/firehose-s3-parquet/
#dev_classmethod #AWS #Amazon_Data_Firehose #Apache_Parquet #AWS_CDK #TypeScript #AWS_Glue

#dev_classmethod #aws #amazon_data_firehose #apache_parquet #aws_cdk #typescript
:rss: DevelopersIO @[email protected] · 2025-03-04 · 10:57 UTC

firehoseを使ってs3にparquet形式でデータを保存する
https://dev.classmethod.jp/articles/firehose-s3-parquet/
#dev_classmethod #AWS #Amazon_Data_Firehose #Apache_Parquet #AWS_CDK #TypeScript #AWS_Glue

#aws_glue #typescript #aws_cdk #apache_parquet #amazon_data_firehose #aws
:rss: DevelopersIO @[email protected] · 2025-03-04 · 10:57 UTC

firehoseを使ってs3にparquet形式でデータを保存する
https://dev.classmethod.jp/articles/firehose-s3-parquet/
#dev_classmethod #AWS #Amazon_Data_Firehose #Apache_Parquet #AWS_CDK #TypeScript #AWS_Glue

#dev_classmethod #aws #amazon_data_firehose #apache_parquet #aws_cdk #typescript
:rss: DevelopersIO @[email protected] · 2025-02-14 · 10:57 UTC

Cloud Storage 上の Parquet ファイルのスキーマ情報をメタデータのみで取得する
https://dev.classmethod.jp/articles/gcs-parquet-metadata-schema/
#dev_classmethod #Google_Cloud_GCP #Google_Cloud_Storage #Apache_Parquet #Python

#dev_classmethod #google_cloud_gcp #google_cloud_storage #apache_parquet #python
:rss: DevelopersIO @[email protected] · 2025-02-14 · 10:57 UTC

Cloud Storage 上の Parquet ファイルのスキーマ情報をメタデータのみで取得する
https://dev.classmethod.jp/articles/gcs-parquet-metadata-schema/
#dev_classmethod #Google_Cloud_GCP #Google_Cloud_Storage #Apache_Parquet #Python

#dev_classmethod #google_cloud_gcp #google_cloud_storage #apache_parquet #python
:rss: DevelopersIO @[email protected] · 2025-02-14 · 10:57 UTC

Cloud Storage 上の Parquet ファイルのスキーマ情報をメタデータのみで取得する
https://dev.classmethod.jp/articles/gcs-parquet-metadata-schema/
#dev_classmethod #Google_Cloud_GCP #Google_Cloud_Storage #Apache_Parquet #Python

#dev_classmethod #google_cloud_gcp #google_cloud_storage #apache_parquet #python
:rss: DevelopersIO @[email protected] · 2025-02-14 · 10:57 UTC

Cloud Storage 上の Parquet ファイルのスキーマ情報をメタデータのみで取得する
https://dev.classmethod.jp/articles/gcs-parquet-metadata-schema/
#dev_classmethod #Google_Cloud_GCP #Google_Cloud_Storage #Apache_Parquet #Python

#python #apache_parquet #google_cloud_storage #google_cloud_gcp #dev_classmethod
:rss: DevelopersIO @[email protected] · 2025-02-14 · 10:57 UTC

Cloud Storage 上の Parquet ファイルのスキーマ情報をメタデータのみで取得する
https://dev.classmethod.jp/articles/gcs-parquet-metadata-schema/
#dev_classmethod #Google_Cloud_GCP #Google_Cloud_Storage #Apache_Parquet #Python

#dev_classmethod #google_cloud_gcp #google_cloud_storage #apache_parquet #python
:rss: DevelopersIO @[email protected] · 2025-01-30 · 11:32 UTC

BigQuery で Parquet と CSV を比較してみる
https://dev.classmethod.jp/articles/bigquery-parquet-csv/
#dev_classmethod #Google_Cloud_GCP #Google_BigQuery #Google_Cloud_Storage #Apache_Parquet #CSV

#dev_classmethod #google_cloud_gcp #google_bigquery #google_cloud_storage #apache_parquet #csv
:rss: DevelopersIO @[email protected] · 2025-01-30 · 11:32 UTC

BigQuery で Parquet と CSV を比較してみる
https://dev.classmethod.jp/articles/bigquery-parquet-csv/
#dev_classmethod #Google_Cloud_GCP #Google_BigQuery #Google_Cloud_Storage #Apache_Parquet #CSV

#dev_classmethod #google_cloud_gcp #google_bigquery #google_cloud_storage #apache_parquet #csv
Habr @[email protected] · 2024-12-08 · 18:02 UTC

ZIP-бомба в формате Apache Parquet
Давние хаброжители помнят, как в 2015 году ZIP-бомба в формате PNG ненадолго вывела из строя Habrastorage. С тех пор появились новые разновидности этого «оружия»: например, разработаны нерекурсивные и компиляторные бомбы (29 байт кода → 16 ГБ .exe). Подобного рода экспоиты можно встроить не только в формат ZIP или PNG, но и в других форматы файлов, которые поддерживают сжатие. Например, в формате Apache Parquet .
https://habr.com/ru/companies/globalsign/articles/864886/
#ZIPбомба #Apache_Parquet #DoSатака #Thrift

#zipбомба #apache_parquet #dosатака #thrift
Habr @[email protected] · 2024-12-08 · 18:02 UTC

ZIP-бомба в формате Apache Parquet
Давние хаброжители помнят, как в 2015 году ZIP-бомба в формате PNG ненадолго вывела из строя Habrastorage. С тех пор появились новые разновидности этого «оружия»: например, разработаны нерекурсивные и компиляторные бомбы (29 байт кода → 16 ГБ .exe). Подобного рода экспоиты можно встроить не только в формат ZIP или PNG, но и в других форматы файлов, которые поддерживают сжатие. Например, в формате Apache Parquet .
https://habr.com/ru/companies/globalsign/articles/864886/
#ZIPбомба #Apache_Parquet #DoSатака #Thrift

#zipбомба #apache_parquet #dosатака #thrift
Habr @[email protected] · 2024-12-08 · 18:02 UTC

ZIP-бомба в формате Apache Parquet
Давние хаброжители помнят, как в 2015 году ZIP-бомба в формате PNG ненадолго вывела из строя Habrastorage. С тех пор появились новые разновидности этого «оружия»: например, разработаны нерекурсивные и компиляторные бомбы (29 байт кода → 16 ГБ .exe). Подобного рода экспоиты можно встроить не только в формат ZIP или PNG, но и в других форматы файлов, которые поддерживают сжатие. Например, в формате Apache Parquet .
https://habr.com/ru/companies/globalsign/articles/864886/
#ZIPбомба #Apache_Parquet #DoSатака #Thrift

#zipбомба #apache_parquet #dosатака #thrift
Habr @[email protected] · 2024-12-08 · 18:02 UTC

ZIP-бомба в формате Apache Parquet
Давние хаброжители помнят, как в 2015 году ZIP-бомба в формате PNG ненадолго вывела из строя Habrastorage. С тех пор появились новые разновидности этого «оружия»: например, разработаны нерекурсивные и компиляторные бомбы (29 байт кода → 16 ГБ .exe). Подобного рода экспоиты можно встроить не только в формат ZIP или PNG, но и в других форматы файлов, которые поддерживают сжатие. Например, в формате Apache Parquet .
https://habr.com/ru/companies/globalsign/articles/864886/
#ZIPбомба #Apache_Parquet #DoSатака #Thrift

#thrift #dosатака #apache_parquet #zipбомба
:rss: DevelopersIO @[email protected] · 2024-05-09 · 06:48 UTC

S3にあるparquetファイルのメタデータのみにアクセスしてスキーマ情報を取得する
https://dev.classmethod.jp/articles/s3-parquet-get-schema-data/
#dev_classmethod #Python #Amazon_S3 #Apache_Parquet #Boto3

#dev_classmethod #python #amazon_s3 #apache_parquet #boto3
:rss: DevelopersIO @[email protected] · 2024-05-09 · 06:48 UTC

S3にあるparquetファイルのメタデータのみにアクセスしてスキーマ情報を取得する
https://dev.classmethod.jp/articles/s3-parquet-get-schema-data/
#dev_classmethod #Python #Amazon_S3 #Apache_Parquet #Boto3

#dev_classmethod #python #amazon_s3 #apache_parquet #boto3
:rss: DevelopersIO @[email protected] · 2024-05-09 · 06:48 UTC

S3にあるparquetファイルのメタデータのみにアクセスしてスキーマ情報を取得する
https://dev.classmethod.jp/articles/s3-parquet-get-schema-data/
#dev_classmethod #Python #Amazon_S3 #Apache_Parquet #Boto3

#dev_classmethod #python #amazon_s3 #apache_parquet #boto3
:rss: DevelopersIO @[email protected] · 2024-05-09 · 06:48 UTC

S3にあるparquetファイルのメタデータのみにアクセスしてスキーマ情報を取得する
https://dev.classmethod.jp/articles/s3-parquet-get-schema-data/
#dev_classmethod #Python #Amazon_S3 #Apache_Parquet #Boto3

#boto3 #apache_parquet #amazon_s3 #python #dev_classmethod
:rss: DevelopersIO @[email protected] · 2024-05-09 · 06:48 UTC

S3にあるparquetファイルのメタデータのみにアクセスしてスキーマ情報を取得する
https://dev.classmethod.jp/articles/s3-parquet-get-schema-data/
#dev_classmethod #Python #Amazon_S3 #Apache_Parquet #Boto3

#dev_classmethod #python #amazon_s3 #apache_parquet #boto3
Habr @[email protected] · 2024-01-02 · 08:07 UTC

[Перевод] Выборочное удаление столбцов для повышения эффективности хранения в озерах данных
По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора. Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.
https://habr.com/ru/articles/784372/
#apache_parquet #data_lake #data_processing #storage

#storage #data_processing #data_lake #apache_parquet
Habr @[email protected] · 2024-01-02 · 08:07 UTC

[Перевод] Выборочное удаление столбцов для повышения эффективности хранения в озерах данных
По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора. Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.
https://habr.com/ru/articles/784372/
#apache_parquet #data_lake #data_processing #storage

#storage #data_processing #data_lake #apache_parquet