home.social

#apache_airflow — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #apache_airflow, aggregated by home.social.

  1. Как я сделал Variables в Airflow 3 удобнее

    Ровно год назад, 22 апреля, вышел Airflow 3, который сильно изменил архитектуру и UX платформы. Но одно из изменений неожиданно ухудшило повседневную работу — Variables: маленькое поле ввода, неудобный JSON и отсутствие нормального редактирования. В статье разбираю, что именно сломалось в привычном сценарии и как я решил это с помощью собственного плагина.

    habr.com/ru/articles/1023060/

    #Python_plugin #Apache_Airflow #Airflow_Variables #JSON_configuration #DAG_configuration #Data_Engineering #Airflow_plugin #configuration_management

  2. Основы ETL на примере работы с Superset, Airflow и ClickHouse

    В этой статье я расскажу, как можно запустить простой ETL-процесс на виртуальном сервере, используя связку Superset, Airflow и ClickHouse. В качестве платформы я взял готовую конфигурацию от Beget, включающую Superset и Airflow из коробки — это позволяет сосредоточиться на логике обработки данных, а не на настройке окружения. В качестве примера мы подготовим процесс выгрузки и визуализации данных о товарах с сайта Wildberries. Для извлечения данных мы будем использовать Python-библиотеки selenium и BeautifulSoup — они хорошо подходят для парсинга веб-страниц. Дополнительно применим re для обработки текстовой информации с помощью регулярных выражений.

    habr.com/ru/companies/beget/ar

    #etl #apache_airflow #apache_superset #clickhouse #dag #обработка_данных #biинструменты #анализ_данных #beget

  3. Интеграция с ClickHouse: NiFi vs Airflow

    На связи Никита Скирдин, программист 1С компании «Белый код». В прошлой статье мы уже говорили о загрузке данных для системы BI-аналитики. В этой же статье разберем решение задачи с использованием Apache NiFi — системы для автоматизации потоков данных. Хотя NiFi позиционируется как ETL-инструмент (extract transform load), позволяющий внутри себя осуществить необходимые преобразования над поступающими данными, ничто не мешает нам использовать его также для ELT-процесса (extract load transform).

    habr.com/ru/companies/w_code/a

    #интеграция #сравнение #clickhouse #apache_airflow #nifi

  4. Работа с библиотеками, которые не установлены в Airflow

    Данные библиотеки можно использовать при работе со SparkOperator: 1. Создание виртуального окружения с необходимыми библиотеками 2. Создание задачи в даге и установка окружения в SparkSubmit

    habr.com/ru/articles/889394/

    #apache_airflow #bigdata #python #виртуальное_окружение #практики_программирования #dags #bash #etl

  5. Агрегация данных для аналитики продаж с помощью DataSphere Jobs и Airflow SDK

    В маркетинге и продажах крупных компаний есть несколько аналитических задач, которые требуют регулярной обработки сотен тысяч и миллионов записей из разных источников. Например, это прогнозирование продаж или планирование рекламных кампаний. Как правило, их решение не обходится без построения длинного пайплайна обработки данных. ML‑инженеру или аналитику данных нужен ансамбль из нескольких моделей и сервисов, чтобы собрать качественный датасет, провести эксперименты и выбрать наиболее подходящие алгоритмы. Сбор, очистка и агрегация данных занимают большую часть времени и вычислительных ресурсов, а эти затраты хочется оптимизировать. В статье покажем, как мы ускорили построение пайплайнов обработки данных с помощью связки DataSphere Jobs и Apache Airflow™.

    habr.com/ru/companies/yandex_c

    #apache_airflow #datasphere #пайплайн #dag