#pyspark — Public Fediverse posts on home.social

Saad khan @[email protected] · 2026-05-13 · 20:17 UTC

🔍 Spark + Elasticsearch Debugging 🧵

Building a cybersecurity analytics platform. Hit 2 blockers:

❌ JAR path mismatch → Fixed absolute path
❌ No data nodes (single-node Docker ES) → Added es.nodes.wan.only=true

✅ Result: 89 records loaded. Working pipeline!

Lesson: Verify JAR paths + disable node discovery for single-node ES.

#PySpark #Elasticsearch #DataEngineering #CyberSecurity #Debugging

#debugging #cybersecurity #dataengineering #elasticsearch #pyspark

Saad khan @[email protected] · 2026-05-13 · 20:17 UTC

🔍 Spark + Elasticsearch Debugging 🧵

Building a cybersecurity analytics platform. Hit 2 blockers:

❌ JAR path mismatch → Fixed absolute path
❌ No data nodes (single-node Docker ES) → Added es.nodes.wan.only=true

✅ Result: 89 records loaded. Working pipeline!

Lesson: Verify JAR paths + disable node discovery for single-node ES.

#PySpark #Elasticsearch #DataEngineering #CyberSecurity #Debugging

#pyspark #elasticsearch #dataengineering #cybersecurity #debugging

Scott Edwards @[email protected] · 2026-04-20 · 01:27 UTC

@thealexmerced thanks! Added to wish list in manning. Better 2buy there vs Amazon to get the ai features?

I guess Manning got rid of old option to buy coins 2 read individual pages? was a cool feature 2 bad.

Thanks for reminder about #datafusion i guess it & #polars have excellent #iceberg support & can be used from #rust

I was thinking about replacing a #pyspark glue job with a rust #lambda on #aws

Just found your excellent medium account. Best of luck at your upcoming talk!

#datafusion #polars #iceberg #rust #pyspark #lambda

Python Job Support @[email protected] · 2025-12-29 · 17:00 UTC

Spark SQL for Data Engineering 1 : I am going to start spark sql sessions as series. #sparksql

Spark SQL Part 1 : I am going to start spark sql sessions as series. #sparksql #deltalake #pyspark ' Databricks Notebooks code for ... source

https://quadexcel.com/wp/spark-sql-for-data-engineering-1-i-am-going-to-start-spark-sql-sessions-as-series-sparksql/

#sparksql #deltalake #pyspark

Habr @[email protected] · 2025-10-10 · 08:12 UTC

Продвинутый анализ на PySpark: учимся работать с рекуррентными соотношениями

Обработка и анализ временных последовательностей (временных рядов) достаточно часто встречающаяся задача. Обычно она решается с помощью идентичных подходов и методов. Однако когда анализ временного ряда предполагает выражение каждого последующего элемента через предыдущие, возникают проблемы с эффективностью реализации такого анализа. Это особенно актуально в контексте больших данных. В данной статье я продемонстрирую подход к анализу и вычислению рекуррентных соотношений. В качестве примера будет представлена реализация на базе Apache Spark и Python метода экспоненциальной скользящей средней с использованием DataFrame API. Мы рассмотрим метод агрегации данных, совместимый со Spark Connect, который был добавлен в версию 3.1 (для Scala - начиная с версии фреймворка 3.0), а именно – функцию aggregate.

https://habr.com/ru/companies/axenix/articles/952278/

#apache_spark #pyspark #python #рекуррентные_соотношения #временные_ряды #анализ_данных #spark_connect

#spark_connect #анализ_данных #временные_ряды #рекуррентные_соотношения #python #pyspark

Habr @[email protected] · 2025-06-02 · 11:52 UTC

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

https://habr.com/ru/companies/lentatech/articles/914884/

#airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator

#orchestrator #big_data #mlops #spark #operator #dags

Habr @[email protected] · 2025-06-02 · 11:52 UTC

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

https://habr.com/ru/companies/lentatech/articles/914884/

#airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator

#orchestrator #big_data #mlops #spark #operator #dags

Habr @[email protected] · 2025-06-02 · 11:52 UTC

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

https://habr.com/ru/companies/lentatech/articles/914884/

#airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator

#orchestrator #big_data #mlops #spark #operator #dags

Habr @[email protected] · 2025-06-02 · 11:52 UTC

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

https://habr.com/ru/companies/lentatech/articles/914884/

#airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator

#airflow #kubernetes #python3 #pyspark #dags #operator

:rss: DevelopersIO @[email protected] · 2025-05-28 · 01:49 UTC

【AWS Glue】Glueジョブでdynamic_frameをソースに利用したらキャストエラーで困った話
https://dev.classmethod.jp/articles/aws-glue-glue-dynamic-frame-cast-error/

#dev_classmethod #AWS_Glue #Apache_Spark #PySpark #Apache_Iceberg

#dev_classmethod #aws_glue #apache_spark #pyspark #apache_iceberg

:rss: DevelopersIO @[email protected] · 2025-04-27 · 09:44 UTC

AWS Glue for Spark のジョブから、AWS CodeArtifact を経由して PyPI のライブラリをインストールする
https://dev.classmethod.jp/articles/aws-glue-for-spark-aws-codeartifact-pypi/

#dev_classmethod #AWS_Glue #AWS_CodeArtifact #PyPI #Spark #PySpark

#dev_classmethod #aws_glue #aws_codeartifact #pypi #spark #pyspark

:rss: DevelopersIO @[email protected] · 2025-04-14 · 00:41 UTC

AWS Glue 5.0からPythonのライブラリをrequirements.txtで指定できるようになったので検証してみた
https://dev.classmethod.jp/articles/aws-glue5-python-requirements-txt/

#dev_classmethod #AWS_Glue #PySpark #Spark

#dev_classmethod #aws_glue #pyspark #spark

:rss: DevelopersIO @[email protected] · 2025-04-13 · 23:55 UTC

AWS Glue for Spark のチュートリアルをやってみた（ワークアラウンドとデータ確認手順付き）
https://dev.classmethod.jp/articles/aws-glue-for-spark-tutorial/

#dev_classmethod #AWS_Glue #Spark #PySpark

#dev_classmethod #aws_glue #spark #pyspark

:rss: DevelopersIO @[email protected] · 2025-04-04 · 10:41 UTC

AWS Glue for SparkからDatabricksのテーブルにアクセスしてみた
https://dev.classmethod.jp/articles/aws-glue-for-spark-databricks/

#dev_classmethod #Databricks #AWS_Glue #PySpark #JDBC

#dev_classmethod #databricks #aws_glue #pyspark #jdbc

:rss: DevelopersIO @[email protected] · 2025-03-31 · 01:14 UTC

DatabricksのUnity Catalogを利用してS3にDelta Lakeを構築する
https://dev.classmethod.jp/articles/databricks-unity-catalog-s3-delta-lake/

#dev_classmethod #Databricks #Amazon_S3 #Apache_Parquet #PySpark #AWS

#dev_classmethod #databricks #amazon_s3 #apache_parquet #pyspark #aws

Habr @[email protected] · 2024-06-10 · 07:42 UTC

Как маскировка данных спасает вашу приватность

Сколько личной информации о вас хранится в мире онлайна? От финансовых операций и медицинских досье до социальных сетей и корпоративных баз данных – данные каждого из нас оказываются в цифровом пространстве, привлекая внимание злоумышленников и вызывая беспокойство как у нас, так и у служб безопасности. Одним из распространенных методов защиты является маскировка данных. Для более ясного понимания этого процесса давайте рассмотрим различные техники маскировки и попробуем разобраться, с чем это едят. Данная статья нацелена на джунов и специалистов, которые только начинают погружаться в тематику.

https://habr.com/ru/companies/neoflex/articles/820333/

#neoflex #data_security #personal_data #masking #machine_learning #how_to #data_leakage_prevention #sql #pyspark

#pyspark #sql #data_leakage_prevention #how_to #machine_learning #masking

Habr @[email protected] · 2024-04-15 · 06:32 UTC

Spark. План запросов на примерах

Всем привет! В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

https://habr.com/ru/articles/807421/

#apache_spark #pyspark #sql #python #bigdata #data_engineering #explain #execution_plan #план_запроса #dataframe

#dataframe #план_запроса #execution_plan #explain #data_engineering #bigdata

Python Coruña @[email protected] · 2024-03-10 · 11:45 UTC

Xa podedes apuntarvos ao evento de marzo: https://www.meetup.com/python-a-coruna/events/298865393/ no que Erie nos falará de #PySpark e Rober de #featureFlagging #Python #Coruña #PythonCoruña

#pyspark #featureflagging #python #coruna #pythoncoruna

Kedro @[email protected] · 2023-08-17 · 08:31 UTC

New blog post: How to integrate Kedro and Databricks Connect 🔶

In this blog post, our colleague Diego Lira explains how to use Databricks Connect with Kedro for a development experience that works completely inside an IDE.

https://kedro.org/blog/how-to-integrate-kedro-and-databricks-connect

Install it with

```
pip install databricks-connect
```

#kedro #python #pydata #datascience #databricks #dbx #spark #pyspark

#kedro #python #pydata #datascience #databricks #dbx

Antonin Delpeuch @[email protected] · 2022-10-30 · 19:19 UTC

@shmarkus @java_discussions there is also #py4j which is quite successful, for instance it powers the popular #pyspark. And #GraalPython which could hopefully provide a sort of replacement for #jython on the long run, although the authors do not aim for that

#jython #graalpython #pyspark #py4j