home.social

Search

597 results for “airflow”

  1. Airflow TaskFlow API: внутреннее устройство современного способа писать DAG-и

    Немного погрузимся во внутреннее устройство Apache Airflow и разберёмся, что на самом деле происходит за красивым синтаксисом TaskFlow API. Посмотрим, как работают декораторы @task и @dag , каким образом обычные Python-функции превращаются в задачи Airflow и за счёт какой «магии» строится граф зависимостей. А заодно напишем собственный мини-пример, чтобы лучше понять архитектурные идеи, на которых построен современный Airflow. Заглянем под капот Airflow TaskFlow API

    habr.com/ru/articles/1033750/

    #airflow #Framework #Python #DE

  2. Airflow TaskFlow API: внутреннее устройство современного способа писать DAG-и

    Немного погрузимся во внутреннее устройство Apache Airflow и разберёмся, что на самом деле происходит за красивым синтаксисом TaskFlow API. Посмотрим, как работают декораторы @task и @dag , каким образом обычные Python-функции превращаются в задачи Airflow и за счёт какой «магии» строится граф зависимостей. А заодно напишем собственный мини-пример, чтобы лучше понять архитектурные идеи, на которых построен современный Airflow. Заглянем под капот Airflow TaskFlow API

    habr.com/ru/articles/1033750/

    #airflow #Framework #Python #DE

  3. Airflow TaskFlow API: внутреннее устройство современного способа писать DAG-и

    Немного погрузимся во внутреннее устройство Apache Airflow и разберёмся, что на самом деле происходит за красивым синтаксисом TaskFlow API. Посмотрим, как работают декораторы @task и @dag , каким образом обычные Python-функции превращаются в задачи Airflow и за счёт какой «магии» строится граф зависимостей. А заодно напишем собственный мини-пример, чтобы лучше понять архитектурные идеи, на которых построен современный Airflow. Заглянем под капот Airflow TaskFlow API

    habr.com/ru/articles/1033750/

    #airflow #Framework #Python #DE

  4. Airflow TaskFlow API: внутреннее устройство современного способа писать DAG-и

    Немного погрузимся во внутреннее устройство Apache Airflow и разберёмся, что на самом деле происходит за красивым синтаксисом TaskFlow API. Посмотрим, как работают декораторы @task и @dag , каким образом обычные Python-функции превращаются в задачи Airflow и за счёт какой «магии» строится граф зависимостей. А заодно напишем собственный мини-пример, чтобы лучше понять архитектурные идеи, на которых построен современный Airflow. Заглянем под капот Airflow TaskFlow API

    habr.com/ru/articles/1033750/

    #airflow #Framework #Python #DE

  5. 𝗔𝗶𝗿𝗳𝗹𝗼𝘄:

    #Workflow #Orchestration #Airflow

    thewhale.cc/posts/airflow

    Apache Airflow is a **flexible and powerful platform for workflow orchestration**, which uses Python, offers an intuitive user interface, and has numerous integrations, all within a scalable and open-source framework.

  6. 𝗔𝗶𝗿𝗳𝗹𝗼𝘄:

    #Workflow #Orchestration #Airflow

    thewhale.cc/posts/airflow

    Apache Airflow is a **flexible and powerful platform for workflow orchestration**, which uses Python, offers an intuitive user interface, and has numerous integrations, all within a scalable and open-source framework.

  7. 𝗔𝗶𝗿𝗳𝗹𝗼𝘄:

    #Workflow #Orchestration #Airflow

    thewhale.cc/posts/airflow

    Apache Airflow is a **flexible and powerful platform for workflow orchestration**, which uses Python, offers an intuitive user interface, and has numerous integrations, all within a scalable and open-source framework.

  8. Как мы мигрировали с Zeppelin и что из этого вышло. Часть 1. Рассылки

    Для задач аналитики Zeppelin - это чуть ли не находка. Он может в одной книжке исполнять код на любом языке (был бы интерпретатор), выводить его в виде красивых табличек, графиков и в любом другом виде, который удобен. И на Хабре есть много статей , посвященных плюсом данного решения для задач аналитики. В результате в аналитический отдел ТКБ Инвестмент Партнерс данный инструмент проник достаточно глубоко: на нем писались аналитические отчеты для разных отделов, расчетные таблицы, которые затем отсылались в дашборды, также данными книжками могли пользоваться все, кто знал какие-либо языки программирования. И мы попали в зависимость от него. Панацея, которая должна была стать легким решением для (почти) любой задачи превратилась в наше проклятие. Из-за проблем с данной системой на нас приходило по 5-7 тикеров в неделю, а также потерей доверия к нашим сервисам. Как мы с этим справились?

    habr.com/ru/articles/988386/

    #airflow #zeppelin #миграция #рассылки #devops

  9. Как мы разгрузили базу данных в проде и не сломали систему

    Наверное, всем знакома ситуация, когда собираешь красивый отчет в BI-системе, пользуешься им полгода, а потом он с каждым днем тормозит все сильнее? Графики обновляются дольше обычного, таблицы медленно грузятся. А все потому, что BI работает на одной базе на пределе своих возможностей из-за перегруженности. Пример классической схемы, с которой начинают почти все компании: BI + база данных. Пока стартапы не могут позволить себе дорогостоящее озеро данных или DWH, они устанавливают базу данных, заполняют ее и прикручивают рядом BI-систему. Вот только данные в растущей компании имеют свойство прибывать. К примеру, у стартапа в первые месяцы работы было пять заказов в день, затем 100, 1 000 и еще больше. День за днем, год за годом все данные складываются в одну базу данных, и в итоге получается тяжелая, медленная система, которой банально неудобно пользоваться. Можно увеличить мощность базы данных, но это лишь отложит проблему на время, а не решит ее. А можно снять нагрузку с базы и доверить обработку накопленных данных другим инструментам и системам хранения. В этой статье я расскажу, как решить проблему с базой данных, которая трещит по швам, с помощью облачных managed-сервисов.

    habr.com/ru/companies/cloud_ru

    #хранение_данных #bi #s3 #база_данных #хранение_данных_в_облаке #trino #metastore #airflow

  10. Как мы разгрузили базу данных в проде и не сломали систему

    Наверное, всем знакома ситуация, когда собираешь красивый отчет в BI-системе, пользуешься им полгода, а потом он с каждым днем тормозит все сильнее? Графики обновляются дольше обычного, таблицы медленно грузятся. А все потому, что BI работает на одной базе на пределе своих возможностей из-за перегруженности. Пример классической схемы, с которой начинают почти все компании: BI + база данных. Пока стартапы не могут позволить себе дорогостоящее озеро данных или DWH, они устанавливают базу данных, заполняют ее и прикручивают рядом BI-систему. Вот только данные в растущей компании имеют свойство прибывать. К примеру, у стартапа в первые месяцы работы было пять заказов в день, затем 100, 1 000 и еще больше. День за днем, год за годом все данные складываются в одну базу данных, и в итоге получается тяжелая, медленная система, которой банально неудобно пользоваться. Можно увеличить мощность базы данных, но это лишь отложит проблему на время, а не решит ее. А можно снять нагрузку с базы и доверить обработку накопленных данных другим инструментам и системам хранения. В этой статье я расскажу, как решить проблему с базой данных, которая трещит по швам, с помощью облачных managed-сервисов.

    habr.com/ru/companies/cloud_ru

    #хранение_данных #bi #s3 #база_данных #хранение_данных_в_облаке #trino #metastore #airflow

  11. Как мы разгрузили базу данных в проде и не сломали систему

    Наверное, всем знакома ситуация, когда собираешь красивый отчет в BI-системе, пользуешься им полгода, а потом он с каждым днем тормозит все сильнее? Графики обновляются дольше обычного, таблицы медленно грузятся. А все потому, что BI работает на одной базе на пределе своих возможностей из-за перегруженности. Пример классической схемы, с которой начинают почти все компании: BI + база данных. Пока стартапы не могут позволить себе дорогостоящее озеро данных или DWH, они устанавливают базу данных, заполняют ее и прикручивают рядом BI-систему. Вот только данные в растущей компании имеют свойство прибывать. К примеру, у стартапа в первые месяцы работы было пять заказов в день, затем 100, 1 000 и еще больше. День за днем, год за годом все данные складываются в одну базу данных, и в итоге получается тяжелая, медленная система, которой банально неудобно пользоваться. Можно увеличить мощность базы данных, но это лишь отложит проблему на время, а не решит ее. А можно снять нагрузку с базы и доверить обработку накопленных данных другим инструментам и системам хранения. В этой статье я расскажу, как решить проблему с базой данных, которая трещит по швам, с помощью облачных managed-сервисов.

    habr.com/ru/companies/cloud_ru

    #хранение_данных #bi #s3 #база_данных #хранение_данных_в_облаке #trino #metastore #airflow

  12. Just when I thought I was almost out of yaks (and finally installing #Airflow!), #terragrunt got confused and started demanding to create resources that already exist, which broke #openEBS, which broke... sigh ...

    Another 2 days of work later, #argocd is installed in my neurons and my cluster, and most of my config is refactored "enough". I swear we'll actually get to do some #datascience someday folks...

    Big data on a tiny budget is hard!

    #dataengineering #sre

  13. Just when I thought I was almost out of yaks (and finally installing #Airflow!), #terragrunt got confused and started demanding to create resources that already exist, which broke #openEBS, which broke... sigh ...

    Another 2 days of work later, #argocd is installed in my neurons and my cluster, and most of my config is refactored "enough". I swear we'll actually get to do some #datascience someday folks...

    Big data on a tiny budget is hard!

    #dataengineering #sre

  14. "The release served as a crucial turning point for the project. Downloads from its GitHub repository increased, and more enterprises adopted the software. Encouraged by this growth, the team envisioned the next generation of Airflow: a modular architecture, a more modern user interface, and a “run anywhere, anytime” feature, enabling it to operate on premises, in the cloud, or on edge devices and handle event-driven and ad hoc scenarios in addition to scheduled tasks. The team delivered on this vision with the launch of Airflow 3.0 last April.

    “It was amazing that we managed to ‘rebuild the plane while flying it’ when we worked on Airflow 3—even if we had some temporary issues and glitches,” says Jarek Potiuk, one of the foremost contributors to Airflow and now a member of its project-management committee. “We had to refactor and move a lot of pieces of the software while keeping Airflow 2 running and providing some bug fixes for it.”

    Compared with Airflow’s second version, which Koka says had only a few hundred to a thousand downloads per month on GitHub, “now we’re averaging somewhere between 35 to 40 million downloads a month,” he says. The project’s community also soared, with more than 3,000 developers of all skill levels from around the world contributing to Airflow."

    spectrum.ieee.org/apache-airfl

    #AirFlow #ApacheAirflow #AirBnB #OpenSource #FLOSS #WorkflowOrchestratror #Python #DataPipelines

  15. "The release served as a crucial turning point for the project. Downloads from its GitHub repository increased, and more enterprises adopted the software. Encouraged by this growth, the team envisioned the next generation of Airflow: a modular architecture, a more modern user interface, and a “run anywhere, anytime” feature, enabling it to operate on premises, in the cloud, or on edge devices and handle event-driven and ad hoc scenarios in addition to scheduled tasks. The team delivered on this vision with the launch of Airflow 3.0 last April.

    “It was amazing that we managed to ‘rebuild the plane while flying it’ when we worked on Airflow 3—even if we had some temporary issues and glitches,” says Jarek Potiuk, one of the foremost contributors to Airflow and now a member of its project-management committee. “We had to refactor and move a lot of pieces of the software while keeping Airflow 2 running and providing some bug fixes for it.”

    Compared with Airflow’s second version, which Koka says had only a few hundred to a thousand downloads per month on GitHub, “now we’re averaging somewhere between 35 to 40 million downloads a month,” he says. The project’s community also soared, with more than 3,000 developers of all skill levels from around the world contributing to Airflow."

    spectrum.ieee.org/apache-airfl

    #AirFlow #ApacheAirflow #AirBnB #OpenSource #FLOSS #WorkflowOrchestratror #Python #DataPipelines

  16. Master Apache Airflow CLI: 5 Essential Commands for Workflow Orchestration #AirflowCLI #DataEngine

    Apache Airflow is the de facto workflow orchestration platform for data pipelines, enabling data engineers, analytics engineers, ... source

    quadexcel.com/wp/master-apache

  17. Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

    Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

    habr.com/ru/companies/lentatec

    #airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator

  18. Долгожданный релиз Airflow 3.0.0

    Привет, Хабр! Я Георгий Новожилов, инженер данных в «ДАР» (ГК «КОРУС Консалтинг»). В моём стеке и стеке моих коллег Airflow, можно сказать, незаменим. Он помогает нам планировать, запускать и отслеживать сотни задач обработки данных, которые крутятся в кластере каждый день. 22 апреля 2025 года компания Apache выпустила новую версию своего оркестратора, которая была в разработке последние 4 года. Среди ключевых изменений — новый интерфейс, обновлённая и защищённая архитектура, а также стабильный интерфейс разработки. В этой статье предлагаю рассмотреть, какие ещё нововведения нам привезли в масштабном обновлении Apache Airflow 3.0.0.

    habr.com/ru/articles/913464/

    #airflow #apache_airflow #релиз #pipeline #оркестратор #airflow_3

  19. Message to your future self: you don't need and , just will suffice

  20. Airflow 3 is Coming

    Как-то один из самых главных контрибьюторов в Airflow Ярек Потиюк рассказал, что Airflow 3 станет новым золотым стандартом индустрии. Это довольно смелое заявление. Я же считаю, что в Airflow 3 еще многого не хватает, чтобы действительно стать стандартом. Если вы еще не знаете, что такое Airflow, то, к сожалению, это статья будет сложной. Давайте вместе освежим память. Airflow - это платформа с открытым исходным кодом для написания и управления рабочих процессов. Airflow была основана в 2014 году в AirBnB. С тех пор платформа прошла путь до версии 1.0 в 2015 году, стала Apache Top Level Project в 2019 и плотно обосновалась как Enterprise Production-Ready в 2020 с версией 2.0.

    habr.com/ru/articles/865674/

    #airflow #data_lineage #api

  21. Перенос данных из Oracle в PostgreSQL быстро и без потерь: как мы используем для этого Airflow и NiFi

    С необходимостью переноса данных из Oracle столкнулись многие российские компании: в июле 2022 года корпорация, создавшая этот продукт, ушла с российского рынка из-за санкций, как и множество других зарубежных IT-компаний. У пользователей из нашей страны больше нет поддержки вендора, а значит со временем система может перестать корректно работать. Система хранения Oracle была очень популярна в России: данные в ней хранили и обрабатывали даже компании из государственного сектора. И всем нам предстояло быстро решить, куда и каким образом перенести огромные объёмы ценной информации, ничего не потеряв в процессе переноса.

    habr.com/ru/companies/stm_labs

    #миграция #миграция_данных #postgresql #sql #nifi #airflow

  22. Richtig großartig finde ich auch die 2 voneinander autonom einstellbaren #AirFlowControl Schieber. Ich habe inzwischen einiges an #Mods und #Atomizer durch. Von Smok (Alien Mod, Baby Beast, Cloud Beast King) über Geekvape (Aegis Solo 2, L200, Zeus Atomizer in 2 Varianten) über Aspire (Nautilus 3) dann habe ich mehrere RDA's und RDTA's bei einem Bekannten getestet. Nichts davon hat mir so gut gefallen wie die HellVape Produkte.