#airflow — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #airflow, aggregated by home.social.
-
Код как документация: как мы строим самодокументируемые витрины данных в Почте Mail
В аналитике больших данных есть старая проблема: код ETL-витрин живет своей жизнью, а документация — своей. Изменяешь логику, забываешь обновить описание колонки — и через месяц никто не помнит, что означает wallet_cards_category_hits. В Почте Mail (VK) мы решили эту проблему системно, разработав внутренний фреймворк, который делает код витрины и ее документацию неразрывными. На связи Дима Швеенков. Я все так же руковожу направлением аналитики в команде и отвечаю за данные в Почте Mail , а теперь еще и отвечаю за DWH в VK Tech . В предыдущих статьях я подробно рассказывал о нашем Data Driven-подходе к работе с данными, а также, в частности, как мы работаем со Spark и какие ключевые проблемы с данными мы решили, чтобы построить свое хранилище данных. Сегодня хотел бы остановиться на более узкой теме — как держать в порядке документацию, если у вас такое же огромное хранилище, как и у нас. Материал короткий, но, надеюсь, будет для вас полезным.
https://habr.com/ru/companies/vktech/articles/1032686/
#big_data #apache_spark #airflow #clickhouse #sql #документация #dwh #metadata #dbt #vk_tech
-
Airflow TaskFlow API: внутреннее устройство современного способа писать DAG-и
Немного погрузимся во внутреннее устройство Apache Airflow и разберёмся, что на самом деле происходит за красивым синтаксисом TaskFlow API. Посмотрим, как работают декораторы @task и @dag , каким образом обычные Python-функции превращаются в задачи Airflow и за счёт какой «магии» строится граф зависимостей. А заодно напишем собственный мини-пример, чтобы лучше понять архитектурные идеи, на которых построен современный Airflow. Заглянем под капот Airflow TaskFlow API
-
Heat Recovery Ventilator (HRV) — Operating Principle
A recuperator (heat recovery unit) transfers heat from exhaust air to incoming fresh air without mixing the two streams.
---
How It Works
Two airflows:
Exhaust air (warm, from indoors)
Supply air (cold, from outside)
They pass through a heat exchanger:
separated by plates or channels
no direct mixing
heat transfers through the material (conduction)
Result: → supply air is preheated
→ exhaust air is cooled
→ overall heat loss is reduced---
Types of Recuperators
1. Plate Heat Exchanger
aluminum or plastic plates
efficiency: ~60–90%
no moving parts
2. Rotary (Wheel) Heat Exchanger
rotating drum
transfers heat and some moisture
efficiency: up to ~85–90%
3. Counterflow Heat Exchanger
air streams move in opposite directions
highest efficiency: up to ~95%
---
What Is Transferred
heat (primary)
sometimes moisture (in enthalpy units)
---
Efficiency Example
outside: 0°C
indoor: +22°C
after recovery: ~16–20°C
---
Advantages
reduced heating energy demand
continuous ventilation without major heat loss
improved indoor air quality
---
Limitations
frost formation in winter (needs bypass or preheater)
filter maintenance required
upfront cost
---
Core Idea
A recuperator doesn’t generate heat — it recovers and reuses it.
#HVAC #HeatRecovery #HRV #ERV #EnergyEfficiency #Ventilation #IndoorAirQuality #AirExchange #HeatExchanger #SustainableLiving #GreenBuilding #EnergySaving #HomeComfort #SmartHome #BuildingEngineering #ClimateControl #EcoTech #Airflow #FreshAir #LowEnergy #PassiveHouse #NetZero #HomeImprovement #Engineering #CleanAir
-
Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных
Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.
https://habr.com/ru/companies/X5Tech/articles/1026382/
#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl
-
Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных
Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.
https://habr.com/ru/companies/X5Tech/articles/1026382/
#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl
-
Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных
Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.
https://habr.com/ru/companies/X5Tech/articles/1026382/
#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl
-
Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных
Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.
https://habr.com/ru/companies/X5Tech/articles/1026382/
#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl
-
Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL
Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data. В 2026 году это уже не привилегия корпораций, а стандарт ведения цифрового бизнеса. И как следствие этой "гонки вооружений" произошла тектоническая смена ориентиров. Классическая связка Airflow + PostgreSQL, которая ещё вчера считалась золотым стандартом, сегодня стремительно сдает позиции. Её место уверенно занимает дуэт Airflow + ClickHouse — технологический фундамент современной инженерии данных.
https://habr.com/ru/articles/1022460/
#clickhouse #postgresql #data_engineer #dwh #airflow #big_data #аналитика #рынок_труда #sql #python
-
The Easy Pea Trellis DIY for Healthier, Happier Plants https://www.allforgardening.com/1707690/the-easy-pea-trellis-diy-for-healthier-happier-plants/ #Airflow #DecorTrends #diy #garden #GardenTwine #gardener #gardening #GardeningTips&Hacks #GardeningTools #harvesting #HomeHacks #LivingWallOfGreenery #MildewPrevention #news #OrganicGardening #PeaPlants #PlantingPlans #Stakes #trellis #VegetableGarden #VegetableGardening
-
TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP
О чем эта статья : В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им Очень легко проанализировать стоимость лицензий или вычислений и хранения в случае облачной БД, но очень сложно — TCO. Стоимость разработки одной фичи, стоимость поддержки, стоимость сопровождения, стоимость изменений. Очень заманчиво учитывать только расходы на лицензии и вычисления и предполагать, что все остальные расходы одинаковы, хотя это не так. По умолчанию облачные MPP-базы обычно дешевле по хранению и вычислениям и не имеют лицензионной платы, и возникает соблазн использовать такой же безлицензионный подход в ETL, но есть недостатки :
-
💡 Apache Airflow 2025 Recap
2026 has arrived which marks a great opportunity to review and assess the changes the last year has brought to the ever evolving landscape of open source data tools.
In our new #blog post we look at Apache Airflow and how the leading open source orchestration platform has changed in the last year with the bit v3 major release.
#apacheairflow #airflow #opensource #dataengineering #datascience
-
"The release served as a crucial turning point for the project. Downloads from its GitHub repository increased, and more enterprises adopted the software. Encouraged by this growth, the team envisioned the next generation of Airflow: a modular architecture, a more modern user interface, and a “run anywhere, anytime” feature, enabling it to operate on premises, in the cloud, or on edge devices and handle event-driven and ad hoc scenarios in addition to scheduled tasks. The team delivered on this vision with the launch of Airflow 3.0 last April.
“It was amazing that we managed to ‘rebuild the plane while flying it’ when we worked on Airflow 3—even if we had some temporary issues and glitches,” says Jarek Potiuk, one of the foremost contributors to Airflow and now a member of its project-management committee. “We had to refactor and move a lot of pieces of the software while keeping Airflow 2 running and providing some bug fixes for it.”
Compared with Airflow’s second version, which Koka says had only a few hundred to a thousand downloads per month on GitHub, “now we’re averaging somewhere between 35 to 40 million downloads a month,” he says. The project’s community also soared, with more than 3,000 developers of all skill levels from around the world contributing to Airflow."
https://spectrum.ieee.org/apache-airflow-3-programmatic-workflows
#AirFlow #ApacheAirflow #AirBnB #OpenSource #FLOSS #WorkflowOrchestratror #Python #DataPipelines
-
📺 Pendant les #RPLL2025, @jeremielesage a présentéé comment nous utilisons #Airflow pour manipuler la GED chez Jeci.
🔗 Regardez la conférence : https://jeci.fr/fr/presse/rpll-airflow/?mtm_campaign=postvideo
Un grand merci à @plossra_a !
-
MDS in geo: An example with Mapillary: Two articles by Michaël Galien on @geotribu showcase how to leverage a Modern Data Stack (#MDS) for processing geospatial data from #Mapillary. The workflow features #dbt, Apache #Airflow, #PostGIS, #SQL, and #Python, highlighting a robust...
https://spatialists.ch/posts/2025/06/09-mds-in-geo-an-example-with-mapillary/ #GIS #GISchat #geospatial #SwissGIS -
MDS in geo: An example with Mapillary: Two articles by Michaël Galien on @geotribu showcase how to leverage a Modern Data Stack (#MDS) for processing geospatial data from #Mapillary. The workflow features #dbt, Apache #Airflow, #PostGIS, #SQL, and #Python, highlighting a robust...
https://spatialists.ch/posts/2025/06/09-mds-in-geo-an-example-with-mapillary/ #GIS #GISchat #geospatial #SwissGIS -
MDS in geo: An example with Mapillary: Two articles by Michaël Galien on @geotribu showcase how to leverage a Modern Data Stack (#MDS) for processing geospatial data from #Mapillary. The workflow features #dbt, Apache #Airflow, #PostGIS, #SQL, and #Python, highlighting a robust...
https://spatialists.ch/posts/2025/06/09-mds-in-geo-an-example-with-mapillary/ #GIS #GISchat #geospatial #SwissGIS -
MDS in geo: An example with Mapillary: Two articles by Michaël Galien on @geotribu showcase how to leverage a Modern Data Stack (#MDS) for processing geospatial data from #Mapillary. The workflow features #dbt, Apache #Airflow, #PostGIS, #SQL, and #Python, highlighting a robust...
https://spatialists.ch/posts/2025/06/09-mds-in-geo-an-example-with-mapillary/ #GIS #GISchat #geospatial #SwissGIS -
MDS in geo: An example with Mapillary: Two articles by Michaël Galien on @geotribu showcase how to leverage a Modern Data Stack (#MDS) for processing geospatial data from #Mapillary. The workflow features #dbt, Apache #Airflow, #PostGIS, #SQL, and #Python, highlighting a robust...
https://spatialists.ch/posts/2025/06/09-mds-in-geo-an-example-with-mapillary/ #GIS #GISchat #geospatial #SwissGIS -
Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json
-
Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json
-
Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json
-
Методы расширения атрибутивного состава таблиц БД
Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.
https://habr.com/ru/companies/T1Holding/articles/903546/
#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json
-
Just caught up with the recent Delta Lake webinar,
> Revolutionizing Delta Lake workflows on AWS Lambda with Polars, DuckDB, Daft & Rust
Some interesting hints there regarding lightweight processing of big-ish data. Easy to relate to any other framework instead of Lambda, e.g. #ApacheAirflow tasks
#dataengineering #datascience #duckdb #daft #polars #pandas #python #spark #deltalake #databricks #airflow #bigdata #smalldata
-
The #Zhukovsky #Aerofoil (sometimes transliterated as #Joukowsky from #Russian), is a 2D model of #streamlined #Airflow past a #wing. It uses #ComplexVariable and is an #AnalyticFunction (i.e. #Differentiable everywhere, save at isolated #Singularities). Take a circle in the #ComplexPlane which is not quite centred at the #origin but passes through the #coordinate (1,0) or (z=1+0i).
#MyWork #CCBYSA #AppliedMathematics #WxMaxima #FreeSoftware #Aeronautics #Aerodynamics #LaminarFlow
-
I saw this on #iFDesign and found it brilliant : « Dynamic Airflow » is a type of hinge for #laptop who permits "the displacement of the heat module to an external position, simultaneously enhancing #airflow" when opening the screen 🌬️
› https://ifdesign.com/en/winner-ranking/project/dynamic-airflow/613680
-
I saw this on #iFDesign and found it brilliant : « Dynamic Airflow » is a type of hinge for #laptop who permits "the displacement of the heat module to an external position, simultaneously enhancing #airflow" when opening the screen 🌬️
› https://ifdesign.com/en/winner-ranking/project/dynamic-airflow/613680
-
I saw this on #iFDesign and found it brilliant : « Dynamic Airflow » is a type of hinge for #laptop who permits "the displacement of the heat module to an external position, simultaneously enhancing #airflow" when opening the screen 🌬️
› https://ifdesign.com/en/winner-ranking/project/dynamic-airflow/613680
-
I saw this on #iFDesign and found it brilliant : « Dynamic Airflow » is a type of hinge for #laptop who permits "the displacement of the heat module to an external position, simultaneously enhancing #airflow" when opening the screen 🌬️
› https://ifdesign.com/en/winner-ranking/project/dynamic-airflow/613680
-
I saw this on #iFDesign and found it brilliant : « Dynamic Airflow » is a type of hinge for #laptop who permits "the displacement of the heat module to an external position, simultaneously enhancing #airflow" when opening the screen 🌬️
› https://ifdesign.com/en/winner-ranking/project/dynamic-airflow/613680