home.social

#pyspark — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #pyspark, aggregated by home.social.

  1. 🔍 Spark + Elasticsearch Debugging 🧵

    Building a cybersecurity analytics platform. Hit 2 blockers:

    ❌ JAR path mismatch → Fixed absolute path
    ❌ No data nodes (single-node Docker ES) → Added es.nodes.wan.only=true

    ✅ Result: 89 records loaded. Working pipeline!

    Lesson: Verify JAR paths + disable node discovery for single-node ES.

    #PySpark #Elasticsearch #DataEngineering #CyberSecurity #Debugging

  2. 🔍 Spark + Elasticsearch Debugging 🧵

    Building a cybersecurity analytics platform. Hit 2 blockers:

    ❌ JAR path mismatch → Fixed absolute path
    ❌ No data nodes (single-node Docker ES) → Added es.nodes.wan.only=true

    ✅ Result: 89 records loaded. Working pipeline!

    Lesson: Verify JAR paths + disable node discovery for single-node ES.

    #PySpark #Elasticsearch #DataEngineering #CyberSecurity #Debugging

  3. @thealexmerced thanks! Added to wish list in manning. Better 2buy there vs Amazon to get the ai features?

    I guess Manning got rid of old option to buy coins 2 read individual pages? was a cool feature 2 bad.

    Thanks for reminder about #datafusion i guess it & #polars have excellent #iceberg support & can be used from #rust

    I was thinking about replacing a #pyspark glue job with a rust #lambda on #aws

    Just found your excellent medium account. Best of luck at your upcoming talk!

  4. Spark SQL for Data Engineering 1 : I am going to start spark sql sessions as series. #sparksql

    Spark SQL Part 1 : I am going to start spark sql sessions as series. #sparksql #deltalake #pyspark ' Databricks Notebooks code for ... source

    quadexcel.com/wp/spark-sql-for

  5. Продвинутый анализ на PySpark: учимся работать с рекуррентными соотношениями

    Обработка и анализ временных последовательностей (временных рядов) достаточно часто встречающаяся задача. Обычно она решается с помощью идентичных подходов и методов. Однако когда анализ временного ряда предполагает выражение каждого последующего элемента через предыдущие, возникают проблемы с эффективностью реализации такого анализа. Это особенно актуально в контексте больших данных. В данной статье я продемонстрирую подход к анализу и вычислению рекуррентных соотношений. В качестве примера будет представлена реализация на базе Apache Spark и Python метода экспоненциальной скользящей средней с использованием DataFrame API. Мы рассмотрим метод агрегации данных, совместимый со Spark Connect, который был добавлен в версию 3.1 (для Scala - начиная с версии фреймворка 3.0), а именно – функцию aggregate.

    habr.com/ru/companies/axenix/a

    #apache_spark #pyspark #python #рекуррентные_соотношения #временные_ряды #анализ_данных #spark_connect

  6. Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

    Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

    habr.com/ru/companies/lentatec

    #airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator

  7. Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

    Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

    habr.com/ru/companies/lentatec

    #airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator

  8. Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

    Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

    habr.com/ru/companies/lentatec

    #airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator

  9. Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

    Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

    habr.com/ru/companies/lentatec

    #airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator

  10. Как маскировка данных спасает вашу приватность

    Сколько личной информации о вас хранится в мире онлайна? От финансовых операций и медицинских досье до социальных сетей и корпоративных баз данных – данные каждого из нас оказываются в цифровом пространстве, привлекая внимание злоумышленников и вызывая беспокойство как у нас, так и у служб безопасности. Одним из распространенных методов защиты является маскировка данных. Для более ясного понимания этого процесса давайте рассмотрим различные техники маскировки и попробуем разобраться, с чем это едят. Данная статья нацелена на джунов и специалистов, которые только начинают погружаться в тематику.

    habr.com/ru/companies/neoflex/

    #neoflex #data_security #personal_data #masking #machine_learning #how_to #data_leakage_prevention #sql #pyspark

  11. Spark. План запросов на примерах

    Всем привет! В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

    habr.com/ru/articles/807421/

    #apache_spark #pyspark #sql #python #bigdata #data_engineering #explain #execution_plan #план_запроса #dataframe

  12. New blog post: How to integrate Kedro and Databricks Connect 🔶

    In this blog post, our colleague Diego Lira explains how to use Databricks Connect with Kedro for a development experience that works completely inside an IDE.

    kedro.org/blog/how-to-integrat

    Install it with

    ```
    pip install databricks-connect
    ```

    #kedro #python #pydata #datascience #databricks #dbx #spark #pyspark

  13. @shmarkus @java_discussions there is also #py4j which is quite successful, for instance it powers the popular #pyspark. And #GraalPython which could hopefully provide a sort of replacement for #jython on the long run, although the authors do not aim for that