home.social

#apache_airflow — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #apache_airflow, aggregated by home.social.

  1. Как я сделал Variables в Airflow 3 удобнее

    Ровно год назад, 22 апреля, вышел Airflow 3, который сильно изменил архитектуру и UX платформы. Но одно из изменений неожиданно ухудшило повседневную работу — Variables: маленькое поле ввода, неудобный JSON и отсутствие нормального редактирования. В статье разбираю, что именно сломалось в привычном сценарии и как я решил это с помощью собственного плагина.

    habr.com/ru/articles/1023060/

    #Python_plugin #Apache_Airflow #Airflow_Variables #JSON_configuration #DAG_configuration #Data_Engineering #Airflow_plugin #configuration_management

  2. Как я сделал Variables в Airflow 3 удобнее

    Ровно год назад, 22 апреля, вышел Airflow 3, который сильно изменил архитектуру и UX платформы. Но одно из изменений неожиданно ухудшило повседневную работу — Variables: маленькое поле ввода, неудобный JSON и отсутствие нормального редактирования. В статье разбираю, что именно сломалось в привычном сценарии и как я решил это с помощью собственного плагина.

    habr.com/ru/articles/1023060/

    #Python_plugin #Apache_Airflow #Airflow_Variables #JSON_configuration #DAG_configuration #Data_Engineering #Airflow_plugin #configuration_management

  3. Как я сделал Variables в Airflow 3 удобнее

    Ровно год назад, 22 апреля, вышел Airflow 3, который сильно изменил архитектуру и UX платформы. Но одно из изменений неожиданно ухудшило повседневную работу — Variables: маленькое поле ввода, неудобный JSON и отсутствие нормального редактирования. В статье разбираю, что именно сломалось в привычном сценарии и как я решил это с помощью собственного плагина.

    habr.com/ru/articles/1023060/

    #Python_plugin #Apache_Airflow #Airflow_Variables #JSON_configuration #DAG_configuration #Data_Engineering #Airflow_plugin #configuration_management

  4. Как я сделал Variables в Airflow 3 удобнее

    Ровно год назад, 22 апреля, вышел Airflow 3, который сильно изменил архитектуру и UX платформы. Но одно из изменений неожиданно ухудшило повседневную работу — Variables: маленькое поле ввода, неудобный JSON и отсутствие нормального редактирования. В статье разбираю, что именно сломалось в привычном сценарии и как я решил это с помощью собственного плагина.

    habr.com/ru/articles/1023060/

    #Python_plugin #Apache_Airflow #Airflow_Variables #JSON_configuration #DAG_configuration #Data_Engineering #Airflow_plugin #configuration_management

  5. Основы ETL на примере работы с Superset, Airflow и ClickHouse

    В этой статье я расскажу, как можно запустить простой ETL-процесс на виртуальном сервере, используя связку Superset, Airflow и ClickHouse. В качестве платформы я взял готовую конфигурацию от Beget, включающую Superset и Airflow из коробки — это позволяет сосредоточиться на логике обработки данных, а не на настройке окружения. В качестве примера мы подготовим процесс выгрузки и визуализации данных о товарах с сайта Wildberries. Для извлечения данных мы будем использовать Python-библиотеки selenium и BeautifulSoup — они хорошо подходят для парсинга веб-страниц. Дополнительно применим re для обработки текстовой информации с помощью регулярных выражений.

    habr.com/ru/companies/beget/ar

    #etl #apache_airflow #apache_superset #clickhouse #dag #обработка_данных #biинструменты #анализ_данных #beget

  6. Основы ETL на примере работы с Superset, Airflow и ClickHouse

    В этой статье я расскажу, как можно запустить простой ETL-процесс на виртуальном сервере, используя связку Superset, Airflow и ClickHouse. В качестве платформы я взял готовую конфигурацию от Beget, включающую Superset и Airflow из коробки — это позволяет сосредоточиться на логике обработки данных, а не на настройке окружения. В качестве примера мы подготовим процесс выгрузки и визуализации данных о товарах с сайта Wildberries. Для извлечения данных мы будем использовать Python-библиотеки selenium и BeautifulSoup — они хорошо подходят для парсинга веб-страниц. Дополнительно применим re для обработки текстовой информации с помощью регулярных выражений.

    habr.com/ru/companies/beget/ar

    #etl #apache_airflow #apache_superset #clickhouse #dag #обработка_данных #biинструменты #анализ_данных #beget

  7. Основы ETL на примере работы с Superset, Airflow и ClickHouse

    В этой статье я расскажу, как можно запустить простой ETL-процесс на виртуальном сервере, используя связку Superset, Airflow и ClickHouse. В качестве платформы я взял готовую конфигурацию от Beget, включающую Superset и Airflow из коробки — это позволяет сосредоточиться на логике обработки данных, а не на настройке окружения. В качестве примера мы подготовим процесс выгрузки и визуализации данных о товарах с сайта Wildberries. Для извлечения данных мы будем использовать Python-библиотеки selenium и BeautifulSoup — они хорошо подходят для парсинга веб-страниц. Дополнительно применим re для обработки текстовой информации с помощью регулярных выражений.

    habr.com/ru/companies/beget/ar

    #etl #apache_airflow #apache_superset #clickhouse #dag #обработка_данных #biинструменты #анализ_данных #beget

  8. Основы ETL на примере работы с Superset, Airflow и ClickHouse

    В этой статье я расскажу, как можно запустить простой ETL-процесс на виртуальном сервере, используя связку Superset, Airflow и ClickHouse. В качестве платформы я взял готовую конфигурацию от Beget, включающую Superset и Airflow из коробки — это позволяет сосредоточиться на логике обработки данных, а не на настройке окружения. В качестве примера мы подготовим процесс выгрузки и визуализации данных о товарах с сайта Wildberries. Для извлечения данных мы будем использовать Python-библиотеки selenium и BeautifulSoup — они хорошо подходят для парсинга веб-страниц. Дополнительно применим re для обработки текстовой информации с помощью регулярных выражений.

    habr.com/ru/companies/beget/ar

    #etl #apache_airflow #apache_superset #clickhouse #dag #обработка_данных #biинструменты #анализ_данных #beget

  9. Интеграция с ClickHouse: NiFi vs Airflow

    На связи Никита Скирдин, программист 1С компании «Белый код». В прошлой статье мы уже говорили о загрузке данных для системы BI-аналитики. В этой же статье разберем решение задачи с использованием Apache NiFi — системы для автоматизации потоков данных. Хотя NiFi позиционируется как ETL-инструмент (extract transform load), позволяющий внутри себя осуществить необходимые преобразования над поступающими данными, ничто не мешает нам использовать его также для ELT-процесса (extract load transform).

    habr.com/ru/companies/w_code/a

    #интеграция #сравнение #clickhouse #apache_airflow #nifi

  10. Долгожданный релиз Airflow 3.0.0

    Привет, Хабр! Я Георгий Новожилов, инженер данных в «ДАР» (ГК «КОРУС Консалтинг»). В моём стеке и стеке моих коллег Airflow, можно сказать, незаменим. Он помогает нам планировать, запускать и отслеживать сотни задач обработки данных, которые крутятся в кластере каждый день. 22 апреля 2025 года компания Apache выпустила новую версию своего оркестратора, которая была в разработке последние 4 года. Среди ключевых изменений — новый интерфейс, обновлённая и защищённая архитектура, а также стабильный интерфейс разработки. В этой статье предлагаю рассмотреть, какие ещё нововведения нам привезли в масштабном обновлении Apache Airflow 3.0.0.

    habr.com/ru/articles/913464/

    #airflow #apache_airflow #релиз #pipeline #оркестратор #airflow_3

  11. Долгожданный релиз Airflow 3.0.0

    Привет, Хабр! Я Георгий Новожилов, инженер данных в «ДАР» (ГК «КОРУС Консалтинг»). В моём стеке и стеке моих коллег Airflow, можно сказать, незаменим. Он помогает нам планировать, запускать и отслеживать сотни задач обработки данных, которые крутятся в кластере каждый день. 22 апреля 2025 года компания Apache выпустила новую версию своего оркестратора, которая была в разработке последние 4 года. Среди ключевых изменений — новый интерфейс, обновлённая и защищённая архитектура, а также стабильный интерфейс разработки. В этой статье предлагаю рассмотреть, какие ещё нововведения нам привезли в масштабном обновлении Apache Airflow 3.0.0.

    habr.com/ru/articles/913464/

    #airflow #apache_airflow #релиз #pipeline #оркестратор #airflow_3

  12. Долгожданный релиз Airflow 3.0.0

    Привет, Хабр! Я Георгий Новожилов, инженер данных в «ДАР» (ГК «КОРУС Консалтинг»). В моём стеке и стеке моих коллег Airflow, можно сказать, незаменим. Он помогает нам планировать, запускать и отслеживать сотни задач обработки данных, которые крутятся в кластере каждый день. 22 апреля 2025 года компания Apache выпустила новую версию своего оркестратора, которая была в разработке последние 4 года. Среди ключевых изменений — новый интерфейс, обновлённая и защищённая архитектура, а также стабильный интерфейс разработки. В этой статье предлагаю рассмотреть, какие ещё нововведения нам привезли в масштабном обновлении Apache Airflow 3.0.0.

    habr.com/ru/articles/913464/

    #airflow #apache_airflow #релиз #pipeline #оркестратор #airflow_3

  13. Долгожданный релиз Airflow 3.0.0

    Привет, Хабр! Я Георгий Новожилов, инженер данных в «ДАР» (ГК «КОРУС Консалтинг»). В моём стеке и стеке моих коллег Airflow, можно сказать, незаменим. Он помогает нам планировать, запускать и отслеживать сотни задач обработки данных, которые крутятся в кластере каждый день. 22 апреля 2025 года компания Apache выпустила новую версию своего оркестратора, которая была в разработке последние 4 года. Среди ключевых изменений — новый интерфейс, обновлённая и защищённая архитектура, а также стабильный интерфейс разработки. В этой статье предлагаю рассмотреть, какие ещё нововведения нам привезли в масштабном обновлении Apache Airflow 3.0.0.

    habr.com/ru/articles/913464/

    #airflow #apache_airflow #релиз #pipeline #оркестратор #airflow_3

  14. Планировщики процессов — другие open source решения

    Такие workflow-оркестраторы, как Metaflow или Apache Airflow, на слуху. Однако в их тени существуют не менее интересные решения — например, StepWise, Dagu, Windmill, Flyte и µTask. Они предоставляют интересные возможности для автоматизации, ускорения и упрощения настройки сложных workflow, и часто обладают более современной архитектурой, меньшим порогом входа или ярко выраженной специализацией для типовых задач. Сегодня познакомимся подробнее с инструментами, которые расширят ваш арсенал и помогут создавать более надёжные и экономичные системы.

    habr.com/ru/companies/mws/arti

    #metaflow #apache_airflow #StepWise #Dagu #Windmill #Flyte #workflow #работа_с_данными

  15. Работа с библиотеками, которые не установлены в Airflow

    Данные библиотеки можно использовать при работе со SparkOperator: 1. Создание виртуального окружения с необходимыми библиотеками 2. Создание задачи в даге и установка окружения в SparkSubmit

    habr.com/ru/articles/889394/

    #apache_airflow #bigdata #python #виртуальное_окружение #практики_программирования #dags #bash #etl

  16. Работа с библиотеками, которые не установлены в Airflow

    Данные библиотеки можно использовать при работе со SparkOperator: 1. Создание виртуального окружения с необходимыми библиотеками 2. Создание задачи в даге и установка окружения в SparkSubmit

    habr.com/ru/articles/889394/

    #apache_airflow #bigdata #python #виртуальное_окружение #практики_программирования #dags #bash #etl

  17. Работа с библиотеками, которые не установлены в Airflow

    Данные библиотеки можно использовать при работе со SparkOperator: 1. Создание виртуального окружения с необходимыми библиотеками 2. Создание задачи в даге и установка окружения в SparkSubmit

    habr.com/ru/articles/889394/

    #apache_airflow #bigdata #python #виртуальное_окружение #практики_программирования #dags #bash #etl

  18. Работа с библиотеками, которые не установлены в Airflow

    Данные библиотеки можно использовать при работе со SparkOperator: 1. Создание виртуального окружения с необходимыми библиотеками 2. Создание задачи в даге и установка окружения в SparkSubmit

    habr.com/ru/articles/889394/

    #apache_airflow #bigdata #python #виртуальное_окружение #практики_программирования #dags #bash #etl

  19. Рынок труда ML-специалистов в 2025 году: востребованные навыки и карьерные треки

    В одном из недавних интервью Марк Цукерберг заявил , что к 2025 году искусственный интеллект (ИИ) сможет выполнять большинство задач Middle-разработчиков в Meta (запрещенная в РФ организация). По словам Цукерберга, ИИ уже помогает писать код и постепенно забирает на себя простые инженерные задачи, но хорошие Middle-инженеры все еще будут нужны. Правда при условии, что они будут осваивать новые востребованные технологии. С учетом влияния компании на технологическую повестку во всем мире заявление звучит серьезно: крупные игроки индустрии уже сейчас диктуют направление, в котором будет развиваться рынок труда в связи с масштабированием ИИ — это автоматизация большей части функций и появление новых. В таких условиях многим специалистам придется адаптироваться и прокачивать навыки, чтобы оставаться востребованными на рынке.

    habr.com/ru/articles/882040/

    #машинное_обучение #mlинженер #ai_talent_hub #mlops #разработка_вебсервисов #рынок_труда_it #pytorch #scikitlearn #apache_airflow #postgresql

  20. Рынок труда ML-специалистов в 2025 году: востребованные навыки и карьерные треки

    В одном из недавних интервью Марк Цукерберг заявил , что к 2025 году искусственный интеллект (ИИ) сможет выполнять большинство задач Middle-разработчиков в Meta (запрещенная в РФ организация). По словам Цукерберга, ИИ уже помогает писать код и постепенно забирает на себя простые инженерные задачи, но хорошие Middle-инженеры все еще будут нужны. Правда при условии, что они будут осваивать новые востребованные технологии. С учетом влияния компании на технологическую повестку во всем мире заявление звучит серьезно: крупные игроки индустрии уже сейчас диктуют направление, в котором будет развиваться рынок труда в связи с масштабированием ИИ — это автоматизация большей части функций и появление новых. В таких условиях многим специалистам придется адаптироваться и прокачивать навыки, чтобы оставаться востребованными на рынке.

    habr.com/ru/articles/882040/

    #машинное_обучение #mlинженер #ai_talent_hub #mlops #разработка_вебсервисов #рынок_труда_it #pytorch #scikitlearn #apache_airflow #postgresql

  21. Рынок труда ML-специалистов в 2025 году: востребованные навыки и карьерные треки

    В одном из недавних интервью Марк Цукерберг заявил , что к 2025 году искусственный интеллект (ИИ) сможет выполнять большинство задач Middle-разработчиков в Meta (запрещенная в РФ организация). По словам Цукерберга, ИИ уже помогает писать код и постепенно забирает на себя простые инженерные задачи, но хорошие Middle-инженеры все еще будут нужны. Правда при условии, что они будут осваивать новые востребованные технологии. С учетом влияния компании на технологическую повестку во всем мире заявление звучит серьезно: крупные игроки индустрии уже сейчас диктуют направление, в котором будет развиваться рынок труда в связи с масштабированием ИИ — это автоматизация большей части функций и появление новых. В таких условиях многим специалистам придется адаптироваться и прокачивать навыки, чтобы оставаться востребованными на рынке.

    habr.com/ru/articles/882040/

    #машинное_обучение #mlинженер #ai_talent_hub #mlops #разработка_вебсервисов #рынок_труда_it #pytorch #scikitlearn #apache_airflow #postgresql

  22. Рынок труда ML-специалистов в 2025 году: востребованные навыки и карьерные треки

    В одном из недавних интервью Марк Цукерберг заявил , что к 2025 году искусственный интеллект (ИИ) сможет выполнять большинство задач Middle-разработчиков в Meta (запрещенная в РФ организация). По словам Цукерберга, ИИ уже помогает писать код и постепенно забирает на себя простые инженерные задачи, но хорошие Middle-инженеры все еще будут нужны. Правда при условии, что они будут осваивать новые востребованные технологии. С учетом влияния компании на технологическую повестку во всем мире заявление звучит серьезно: крупные игроки индустрии уже сейчас диктуют направление, в котором будет развиваться рынок труда в связи с масштабированием ИИ — это автоматизация большей части функций и появление новых. В таких условиях многим специалистам придется адаптироваться и прокачивать навыки, чтобы оставаться востребованными на рынке.

    habr.com/ru/articles/882040/

    #машинное_обучение #mlинженер #ai_talent_hub #mlops #разработка_вебсервисов #рынок_труда_it #pytorch #scikitlearn #apache_airflow #postgresql

  23. СОЗДАНИЕ ETL-ДВИЖКА ДЛЯ РЕПЛИКАЦИИ ДАННЫХ ИЗ APACHE HIVE В CLICKHOUSE

    Представлено создание ETL-движка, который помогает автоматически извлекать, преобразовывать и загружать данные из разных источников. Мы сосредоточились на разработке быстрого инструмента, который использует параллельную обработку и оптимизированные алгоритмы. Результаты тестирования показывают, что движок эффективно справляется с большими объемами данных, что помогает лучше анализировать информацию и принимать обоснованные бизнес-решения.

    habr.com/ru/articles/874262/

    #apache_hive #репликация_данных #python #clickhouse #apache_airflow #spark #jupyterlab #jupyter_notebook

  24. СОЗДАНИЕ ETL-ДВИЖКА ДЛЯ РЕПЛИКАЦИИ ДАННЫХ ИЗ APACHE HIVE В CLICKHOUSE

    Представлено создание ETL-движка, который помогает автоматически извлекать, преобразовывать и загружать данные из разных источников. Мы сосредоточились на разработке быстрого инструмента, который использует параллельную обработку и оптимизированные алгоритмы. Результаты тестирования показывают, что движок эффективно справляется с большими объемами данных, что помогает лучше анализировать информацию и принимать обоснованные бизнес-решения.

    habr.com/ru/articles/874262/

    #apache_hive #репликация_данных #python #clickhouse #apache_airflow #spark #jupyterlab #jupyter_notebook

  25. СОЗДАНИЕ ETL-ДВИЖКА ДЛЯ РЕПЛИКАЦИИ ДАННЫХ ИЗ APACHE HIVE В CLICKHOUSE

    Представлено создание ETL-движка, который помогает автоматически извлекать, преобразовывать и загружать данные из разных источников. Мы сосредоточились на разработке быстрого инструмента, который использует параллельную обработку и оптимизированные алгоритмы. Результаты тестирования показывают, что движок эффективно справляется с большими объемами данных, что помогает лучше анализировать информацию и принимать обоснованные бизнес-решения.

    habr.com/ru/articles/874262/

    #apache_hive #репликация_данных #python #clickhouse #apache_airflow #spark #jupyterlab #jupyter_notebook

  26. СОЗДАНИЕ ETL-ДВИЖКА ДЛЯ РЕПЛИКАЦИИ ДАННЫХ ИЗ APACHE HIVE В CLICKHOUSE

    Представлено создание ETL-движка, который помогает автоматически извлекать, преобразовывать и загружать данные из разных источников. Мы сосредоточились на разработке быстрого инструмента, который использует параллельную обработку и оптимизированные алгоритмы. Результаты тестирования показывают, что движок эффективно справляется с большими объемами данных, что помогает лучше анализировать информацию и принимать обоснованные бизнес-решения.

    habr.com/ru/articles/874262/

    #apache_hive #репликация_данных #python #clickhouse #apache_airflow #spark #jupyterlab #jupyter_notebook

  27. Как мы деплоем Apache Airflow для промышленного использования в Kubernetes

    Что делает инженер, если DAG не выполняется? Проверяет Airflow 50 раз, а потом вспоминает, что забыл поставить @dag над функцией. Развертывание Apache Airflow в промышленной среде — это сложная задача, требующая учета множества аспектов: от обеспечения безопасности конфиденциальных данных до эффективного управления ресурсами. Одной из ключевых проблем, с которыми сталкиваются команды, является безопасное управление секретами, оптимизация конфигураций и наблюдаемость. В этой статье мы рассмотрим, как использовать инструменты, такие как Sops и YAML-якоря, для упрощения управления конфиденциальными данными и улучшения читаемости конфигураций. А так же как обеспечить полную наблюдаемость инсталляции Apache Airflow

    habr.com/ru/articles/871660/

    #apache_airflow #observability #kubernetes #production

  28. Интеграция с ClickHouse: 1С vs Apache Airflow. Плюсы и минусы

    На связи Никита Скирдин, программист 1С компании «Белый код». Для BI-аналитики необходимо собирать данные из различных систем в централизованное хранилище. Как правило, перед использованием данных для построения графиков, таблиц и т. д. их необходимо преобразовать. В этой статье расскажу, как решали задачу загрузки данных в централизованное хранилище ClickHouse и реализовали модель ELT (extract load transform), используя сначала 1С, а затем Apache Airflow.

    habr.com/ru/articles/864088/

    # #apache_airflow #clickhouse #интеграция #сравнение #плюсы_и_минусы