#pyspark — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #pyspark, aggregated by home.social.
-
🔍 Spark + Elasticsearch Debugging 🧵
Building a cybersecurity analytics platform. Hit 2 blockers:
❌ JAR path mismatch → Fixed absolute path
❌ No data nodes (single-node Docker ES) → Added es.nodes.wan.only=true✅ Result: 89 records loaded. Working pipeline!
Lesson: Verify JAR paths + disable node discovery for single-node ES.
#PySpark #Elasticsearch #DataEngineering #CyberSecurity #Debugging
-
🔍 Spark + Elasticsearch Debugging 🧵
Building a cybersecurity analytics platform. Hit 2 blockers:
❌ JAR path mismatch → Fixed absolute path
❌ No data nodes (single-node Docker ES) → Added es.nodes.wan.only=true✅ Result: 89 records loaded. Working pipeline!
Lesson: Verify JAR paths + disable node discovery for single-node ES.
#PySpark #Elasticsearch #DataEngineering #CyberSecurity #Debugging
-
@thealexmerced thanks! Added to wish list in manning. Better 2buy there vs Amazon to get the ai features?
I guess Manning got rid of old option to buy coins 2 read individual pages? was a cool feature 2 bad.
Thanks for reminder about #datafusion i guess it & #polars have excellent #iceberg support & can be used from #rust
I was thinking about replacing a #pyspark glue job with a rust #lambda on #aws
Just found your excellent medium account. Best of luck at your upcoming talk!
-
Spark SQL for Data Engineering 1 : I am going to start spark sql sessions as series. #sparksql
Spark SQL Part 1 : I am going to start spark sql sessions as series. #sparksql #deltalake #pyspark ' Databricks Notebooks code for ... source
-
Продвинутый анализ на PySpark: учимся работать с рекуррентными соотношениями
Обработка и анализ временных последовательностей (временных рядов) достаточно часто встречающаяся задача. Обычно она решается с помощью идентичных подходов и методов. Однако когда анализ временного ряда предполагает выражение каждого последующего элемента через предыдущие, возникают проблемы с эффективностью реализации такого анализа. Это особенно актуально в контексте больших данных. В данной статье я продемонстрирую подход к анализу и вычислению рекуррентных соотношений. В качестве примера будет представлена реализация на базе Apache Spark и Python метода экспоненциальной скользящей средней с использованием DataFrame API. Мы рассмотрим метод агрегации данных, совместимый со Spark Connect, который был добавлен в версию 3.1 (для Scala - начиная с версии фреймворка 3.0), а именно – функцию aggregate.
https://habr.com/ru/companies/axenix/articles/952278/
#apache_spark #pyspark #python #рекуррентные_соотношения #временные_ряды #анализ_данных #spark_connect
-
Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow
Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.
https://habr.com/ru/companies/lentatech/articles/914884/
#airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator
-
Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow
Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.
https://habr.com/ru/companies/lentatech/articles/914884/
#airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator
-
Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow
Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.
https://habr.com/ru/companies/lentatech/articles/914884/
#airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator
-
Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow
Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.
https://habr.com/ru/companies/lentatech/articles/914884/
#airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator
-
【AWS Glue】Glueジョブでdynamic_frameをソースに利用したらキャストエラーで困った話
https://dev.classmethod.jp/articles/aws-glue-glue-dynamic-frame-cast-error/#dev_classmethod #AWS_Glue #Apache_Spark #PySpark #Apache_Iceberg
-
AWS Glue for Spark のジョブから、AWS CodeArtifact を経由して PyPI のライブラリをインストールする
https://dev.classmethod.jp/articles/aws-glue-for-spark-aws-codeartifact-pypi/#dev_classmethod #AWS_Glue #AWS_CodeArtifact #PyPI #Spark #PySpark
-
AWS Glue 5.0からPythonのライブラリをrequirements.txtで指定できるようになったので検証してみた
https://dev.classmethod.jp/articles/aws-glue5-python-requirements-txt/ -
AWS Glue for Spark のチュートリアルをやってみた(ワークアラウンドとデータ確認手順付き)
https://dev.classmethod.jp/articles/aws-glue-for-spark-tutorial/ -
AWS Glue for SparkからDatabricksのテーブルにアクセスしてみた
https://dev.classmethod.jp/articles/aws-glue-for-spark-databricks/ -
DatabricksのUnity Catalogを利用してS3にDelta Lakeを構築する
https://dev.classmethod.jp/articles/databricks-unity-catalog-s3-delta-lake/#dev_classmethod #Databricks #Amazon_S3 #Apache_Parquet #PySpark #AWS
-
Как маскировка данных спасает вашу приватность
Сколько личной информации о вас хранится в мире онлайна? От финансовых операций и медицинских досье до социальных сетей и корпоративных баз данных – данные каждого из нас оказываются в цифровом пространстве, привлекая внимание злоумышленников и вызывая беспокойство как у нас, так и у служб безопасности. Одним из распространенных методов защиты является маскировка данных. Для более ясного понимания этого процесса давайте рассмотрим различные техники маскировки и попробуем разобраться, с чем это едят. Данная статья нацелена на джунов и специалистов, которые только начинают погружаться в тематику.
https://habr.com/ru/companies/neoflex/articles/820333/
#neoflex #data_security #personal_data #masking #machine_learning #how_to #data_leakage_prevention #sql #pyspark
-
Spark. План запросов на примерах
Всем привет! В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.
https://habr.com/ru/articles/807421/
#apache_spark #pyspark #sql #python #bigdata #data_engineering #explain #execution_plan #план_запроса #dataframe
-
Xa podedes apuntarvos ao evento de marzo: https://www.meetup.com/python-a-coruna/events/298865393/ no que Erie nos falará de #PySpark e Rober de #featureFlagging #Python #Coruña #PythonCoruña
-
New blog post: How to integrate Kedro and Databricks Connect 🔶
In this blog post, our colleague Diego Lira explains how to use Databricks Connect with Kedro for a development experience that works completely inside an IDE.
https://kedro.org/blog/how-to-integrate-kedro-and-databricks-connect
Install it with
```
pip install databricks-connect
```#kedro #python #pydata #datascience #databricks #dbx #spark #pyspark
-
@shmarkus @java_discussions there is also #py4j which is quite successful, for instance it powers the popular #pyspark. And #GraalPython which could hopefully provide a sort of replacement for #jython on the long run, although the authors do not aim for that