home.social

#airflow — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #airflow, aggregated by home.social.

  1. Код как документация: как мы строим самодокументируемые витрины данных в Почте Mail

    В аналитике больших данных есть старая проблема: код ETL-витрин живет своей жизнью, а документация — своей. Изменяешь логику, забываешь обновить описание колонки — и через месяц никто не помнит, что означает wallet_cards_category_hits. В Почте Mail (VK) мы решили эту проблему системно, разработав внутренний фреймворк, который делает код витрины и ее документацию неразрывными. На связи Дима Швеенков. Я все так же руковожу направлением аналитики в команде и отвечаю за данные в Почте Mail , а теперь еще и отвечаю за DWH в VK Tech . В предыдущих статьях я подробно рассказывал о нашем Data Driven-подходе к работе с данными, а также, в частности, как мы работаем со Spark и какие ключевые проблемы с данными мы решили, чтобы построить свое хранилище данных. Сегодня хотел бы остановиться на более узкой теме — как держать в порядке документацию, если у вас такое же огромное хранилище, как и у нас. Материал короткий, но, надеюсь, будет для вас полезным.

    habr.com/ru/companies/vktech/a

    #big_data #apache_spark #airflow #clickhouse #sql #документация #dwh #metadata #dbt #vk_tech

  2. Airflow TaskFlow API: внутреннее устройство современного способа писать DAG-и

    Немного погрузимся во внутреннее устройство Apache Airflow и разберёмся, что на самом деле происходит за красивым синтаксисом TaskFlow API. Посмотрим, как работают декораторы @task и @dag , каким образом обычные Python-функции превращаются в задачи Airflow и за счёт какой «магии» строится граф зависимостей. А заодно напишем собственный мини-пример, чтобы лучше понять архитектурные идеи, на которых построен современный Airflow. Заглянем под капот Airflow TaskFlow API

    habr.com/ru/articles/1033750/

    #airflow #Framework #Python #DE

  3. Heat Recovery Ventilator (HRV) — Operating Principle

    A recuperator (heat recovery unit) transfers heat from exhaust air to incoming fresh air without mixing the two streams.

    ---

    How It Works

    Two airflows:

    Exhaust air (warm, from indoors)

    Supply air (cold, from outside)

    They pass through a heat exchanger:

    separated by plates or channels

    no direct mixing

    heat transfers through the material (conduction)

    Result: → supply air is preheated
    → exhaust air is cooled
    → overall heat loss is reduced

    ---

    Types of Recuperators

    1. Plate Heat Exchanger

    aluminum or plastic plates

    efficiency: ~60–90%

    no moving parts

    2. Rotary (Wheel) Heat Exchanger

    rotating drum

    transfers heat and some moisture

    efficiency: up to ~85–90%

    3. Counterflow Heat Exchanger

    air streams move in opposite directions

    highest efficiency: up to ~95%

    ---

    What Is Transferred

    heat (primary)

    sometimes moisture (in enthalpy units)

    ---

    Efficiency Example

    outside: 0°C

    indoor: +22°C

    after recovery: ~16–20°C

    ---

    Advantages

    reduced heating energy demand

    continuous ventilation without major heat loss

    improved indoor air quality

    ---

    Limitations

    frost formation in winter (needs bypass or preheater)

    filter maintenance required

    upfront cost

    ---

    Core Idea

    A recuperator doesn’t generate heat — it recovers and reuses it.

    #HVAC #HeatRecovery #HRV #ERV #EnergyEfficiency #Ventilation #IndoorAirQuality #AirExchange #HeatExchanger #SustainableLiving #GreenBuilding #EnergySaving #HomeComfort #SmartHome #BuildingEngineering #ClimateControl #EcoTech #Airflow #FreshAir #LowEnergy #PassiveHouse #NetZero #HomeImprovement #Engineering #CleanAir

  4. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  5. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  6. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  7. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  8. Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

    Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data. В 2026 году это уже не привилегия корпораций, а стандарт ведения цифрового бизнеса. И как следствие этой "гонки вооружений" произошла тектоническая смена ориентиров. Классическая связка Airflow + PostgreSQL, которая ещё вчера считалась золотым стандартом, сегодня стремительно сдает позиции. Её место уверенно занимает дуэт Airflow + ClickHouse — технологический фундамент современной инженерии данных.

    habr.com/ru/articles/1022460/

    #clickhouse #postgresql #data_engineer #dwh #airflow #big_data #аналитика #рынок_труда #sql #python

  9. TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP

    О чем эта статья : В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им Очень легко проанализировать стоимость лицензий или вычислений и хранения в случае облачной БД, но очень сложно — TCO. Стоимость разработки одной фичи, стоимость поддержки, стоимость сопровождения, стоимость изменений. Очень заманчиво учитывать только расходы на лицензии и вычисления и предполагать, что все остальные расходы одинаковы, хотя это не так. По умолчанию облачные MPP-базы обычно дешевле по хранению и вычислениям и не имеют лицензионной платы, и возникает соблазн использовать такой же безлицензионный подход в ETL, но есть недостатки :

    habr.com/ru/articles/1014362/

    #mppбазы #informatica #dbt #etl #airflow #oracle #bigquery

  10. 💡 Apache Airflow 2025 Recap

    2026 has arrived which marks a great opportunity to review and assess the changes the last year has brought to the ever evolving landscape of open source data tools.

    In our new #blog post we look at Apache Airflow and how the leading open source orchestration platform has changed in the last year with the bit v3 major release.

    🔗 nextlytics.com/blog/apache-air

    #apacheairflow #airflow #opensource #dataengineering #datascience

  11. "The release served as a crucial turning point for the project. Downloads from its GitHub repository increased, and more enterprises adopted the software. Encouraged by this growth, the team envisioned the next generation of Airflow: a modular architecture, a more modern user interface, and a “run anywhere, anytime” feature, enabling it to operate on premises, in the cloud, or on edge devices and handle event-driven and ad hoc scenarios in addition to scheduled tasks. The team delivered on this vision with the launch of Airflow 3.0 last April.

    “It was amazing that we managed to ‘rebuild the plane while flying it’ when we worked on Airflow 3—even if we had some temporary issues and glitches,” says Jarek Potiuk, one of the foremost contributors to Airflow and now a member of its project-management committee. “We had to refactor and move a lot of pieces of the software while keeping Airflow 2 running and providing some bug fixes for it.”

    Compared with Airflow’s second version, which Koka says had only a few hundred to a thousand downloads per month on GitHub, “now we’re averaging somewhere between 35 to 40 million downloads a month,” he says. The project’s community also soared, with more than 3,000 developers of all skill levels from around the world contributing to Airflow."

    spectrum.ieee.org/apache-airfl

    #AirFlow #ApacheAirflow #AirBnB #OpenSource #FLOSS #WorkflowOrchestratror #Python #DataPipelines

  12. MDS in geo: An example with Mapillary: Two articles by Michaël Galien on @geotribu showcase how to leverage a Modern Data Stack (#MDS) for processing geospatial data from #Mapillary. The workflow features #dbt, Apache #Airflow, #PostGIS, #SQL, and #Python, highlighting a robust...
    spatialists.ch/posts/2025/06/0 #GIS #GISchat #geospatial #SwissGIS

  13. MDS in geo: An example with Mapillary: Two articles by Michaël Galien on @geotribu showcase how to leverage a Modern Data Stack (#MDS) for processing geospatial data from #Mapillary. The workflow features #dbt, Apache #Airflow, #PostGIS, #SQL, and #Python, highlighting a robust...
    spatialists.ch/posts/2025/06/0 #GIS #GISchat #geospatial #SwissGIS

  14. MDS in geo: An example with Mapillary: Two articles by Michaël Galien on @geotribu showcase how to leverage a Modern Data Stack (#MDS) for processing geospatial data from #Mapillary. The workflow features #dbt, Apache #Airflow, #PostGIS, #SQL, and #Python, highlighting a robust...
    spatialists.ch/posts/2025/06/0 #GIS #GISchat #geospatial #SwissGIS

  15. MDS in geo: An example with Mapillary: Two articles by Michaël Galien on @geotribu showcase how to leverage a Modern Data Stack (#MDS) for processing geospatial data from #Mapillary. The workflow features #dbt, Apache #Airflow, #PostGIS, #SQL, and #Python, highlighting a robust...
    spatialists.ch/posts/2025/06/0 #GIS #GISchat #geospatial #SwissGIS

  16. MDS in geo: An example with Mapillary: Two articles by Michaël Galien on @geotribu showcase how to leverage a Modern Data Stack (#MDS) for processing geospatial data from #Mapillary. The workflow features #dbt, Apache #Airflow, #PostGIS, #SQL, and #Python, highlighting a robust...
    spatialists.ch/posts/2025/06/0 #GIS #GISchat #geospatial #SwissGIS

  17. Методы расширения атрибутивного состава таблиц БД

    Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

    habr.com/ru/companies/T1Holdin

    #hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

  18. Методы расширения атрибутивного состава таблиц БД

    Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

    habr.com/ru/companies/T1Holdin

    #hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

  19. Методы расширения атрибутивного состава таблиц БД

    Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

    habr.com/ru/companies/T1Holdin

    #hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

  20. Методы расширения атрибутивного состава таблиц БД

    Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

    habr.com/ru/companies/T1Holdin

    #hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

  21. Just caught up with the recent Delta Lake webinar,

    > Revolutionizing Delta Lake workflows on AWS Lambda with Polars, DuckDB, Daft & Rust

    Some interesting hints there regarding lightweight processing of big-ish data. Easy to relate to any other framework instead of Lambda, e.g. #ApacheAirflow tasks

    youtu.be/BR9oFD0QMAs

    #dataengineering #datascience #duckdb #daft #polars #pandas #python #spark #deltalake #databricks #airflow #bigdata #smalldata

  22. The #Zhukovsky #Aerofoil (sometimes transliterated as #Joukowsky from #Russian), is a 2D model of #streamlined #Airflow past a #wing. It uses #ComplexVariable and is an #AnalyticFunction (i.e. #Differentiable everywhere, save at isolated #Singularities). Take a circle in the #ComplexPlane which is not quite centred at the #origin but passes through the #coordinate (1,0) or (z=1+0i).

    #MyWork #CCBYSA #AppliedMathematics #WxMaxima #FreeSoftware #Aeronautics #Aerodynamics #LaminarFlow

  23. I saw this on #iFDesign and found it brilliant : « Dynamic Airflow » is a type of hinge for #laptop who permits "the displacement of the heat module to an external position, simultaneously enhancing #airflow" when opening the screen 🌬️

    ifdesign.com/en/winner-ranking

    #design #heat #dissipation

  24. I saw this on #iFDesign and found it brilliant : « Dynamic Airflow » is a type of hinge for #laptop who permits "the displacement of the heat module to an external position, simultaneously enhancing #airflow" when opening the screen 🌬️

    ifdesign.com/en/winner-ranking

    #design #heat #dissipation

  25. I saw this on #iFDesign and found it brilliant : « Dynamic Airflow » is a type of hinge for #laptop who permits "the displacement of the heat module to an external position, simultaneously enhancing #airflow" when opening the screen 🌬️

    ifdesign.com/en/winner-ranking

    #design #heat #dissipation

  26. I saw this on #iFDesign and found it brilliant : « Dynamic Airflow » is a type of hinge for #laptop who permits "the displacement of the heat module to an external position, simultaneously enhancing #airflow" when opening the screen 🌬️

    ifdesign.com/en/winner-ranking

    #design #heat #dissipation

  27. I saw this on #iFDesign and found it brilliant : « Dynamic Airflow » is a type of hinge for #laptop who permits "the displacement of the heat module to an external position, simultaneously enhancing #airflow" when opening the screen 🌬️

    ifdesign.com/en/winner-ranking

    #design #heat #dissipation