home.social

#airflow — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #airflow, aggregated by home.social.

  1. RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain

    PM: Нам нужно актуализировать базу знаний для ИИ-ассистента, там изменилась инструкция по смене пароля. DevOps: Не проблема, сейчас запущу скрипт, через два часа всё обновится. Предупреди Заказчика о недоступности сервиса. Знакомая ситуация? Полная зачистка векторной базы и реиндексация всех имеющихся документов с остановкой сервиса - решение простое и надёжное, но «прощается» только на этапе прототипа. В продакшене могут быть сотни тысяч документов, живые пользователи и SLA с требованием по доступности сервиса. Обновилась одна, пусть и очень важная инструкция, и сервис недоступен два часа. А если таких обновлений десятки в неделю? Давайте исправим это и напишем ETL-скрипт , который умеет добавлять, обновлять и удалять отдельные документы без остановки сервиса.

    habr.com/ru/articles/1038456/

    #rag #etlпайплайн #qdrant #qdrant_vector_store #масштабирование #airflow #python #rag_система

  2. RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain

    PM: Нам нужно актуализировать базу знаний для ИИ-ассистента, там изменилась инструкция по смене пароля. DevOps: Не проблема, сейчас запущу скрипт, через два часа всё обновится. Предупреди Заказчика о недоступности сервиса. Знакомая ситуация? Полная зачистка векторной базы и реиндексация всех имеющихся документов с остановкой сервиса - решение простое и надёжное, но «прощается» только на этапе прототипа. В продакшене могут быть сотни тысяч документов, живые пользователи и SLA с требованием по доступности сервиса. Обновилась одна, пусть и очень важная инструкция, и сервис недоступен два часа. А если таких обновлений десятки в неделю? Давайте исправим это и напишем ETL-скрипт , который умеет добавлять, обновлять и удалять отдельные документы без остановки сервиса.

    habr.com/ru/articles/1038456/

    #rag #etlпайплайн #qdrant #qdrant_vector_store #масштабирование #airflow #python #rag_система

  3. RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain

    PM: Нам нужно актуализировать базу знаний для ИИ-ассистента, там изменилась инструкция по смене пароля. DevOps: Не проблема, сейчас запущу скрипт, через два часа всё обновится. Предупреди Заказчика о недоступности сервиса. Знакомая ситуация? Полная зачистка векторной базы и реиндексация всех имеющихся документов с остановкой сервиса - решение простое и надёжное, но «прощается» только на этапе прототипа. В продакшене могут быть сотни тысяч документов, живые пользователи и SLA с требованием по доступности сервиса. Обновилась одна, пусть и очень важная инструкция, и сервис недоступен два часа. А если таких обновлений десятки в неделю? Давайте исправим это и напишем ETL-скрипт , который умеет добавлять, обновлять и удалять отдельные документы без остановки сервиса.

    habr.com/ru/articles/1038456/

    #rag #etlпайплайн #qdrant #qdrant_vector_store #масштабирование #airflow #python #rag_система

  4. RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain

    PM: Нам нужно актуализировать базу знаний для ИИ-ассистента, там изменилась инструкция по смене пароля. DevOps: Не проблема, сейчас запущу скрипт, через два часа всё обновится. Предупреди Заказчика о недоступности сервиса. Знакомая ситуация? Полная зачистка векторной базы и реиндексация всех имеющихся документов с остановкой сервиса - решение простое и надёжное, но «прощается» только на этапе прототипа. В продакшене могут быть сотни тысяч документов, живые пользователи и SLA с требованием по доступности сервиса. Обновилась одна, пусть и очень важная инструкция, и сервис недоступен два часа. А если таких обновлений десятки в неделю? Давайте исправим это и напишем ETL-скрипт , который умеет добавлять, обновлять и удалять отдельные документы без остановки сервиса.

    habr.com/ru/articles/1038456/

    #rag #etlпайплайн #qdrant #qdrant_vector_store #масштабирование #airflow #python #rag_система

  5. Строим машину времени для данных (SCD-2) на движке Trino под управлением Airflow

    Сегодня SCD-2-таблицы не только остаются актуальными для медленно меняющихся данных, но и, на мой взгляд, становятся гораздо проще в реализации благодаря новым технологиям и инструментам. Мне поручили пересобрать витрину в ходе миграции в наше новое хранилище данных. Итак, в этой статье мы будем: — строить Iceberg-таблицы SCD-2 с помощью Trino, SQL и Python; — попутно освоим прекрасные функции merge, MD5 и другие полезные инструменты; — напишем свой собственный оператор для Airflow для автоматизации ETL-процесса.

    habr.com/ru/companies/X5Tech/a

    #scd_type_2 #trino #iceberg #airflow #lakehouse #etl #slowly_changing_dimensions #data_mesh #витрина_данных #хранилище_данных

  6. Строим машину времени для данных (SCD-2) на движке Trino под управлением Airflow

    Сегодня SCD-2-таблицы не только остаются актуальными для медленно меняющихся данных, но и, на мой взгляд, становятся гораздо проще в реализации благодаря новым технологиям и инструментам. Мне поручили пересобрать витрину в ходе миграции в наше новое хранилище данных. Итак, в этой статье мы будем: — строить Iceberg-таблицы SCD-2 с помощью Trino, SQL и Python; — попутно освоим прекрасные функции merge, MD5 и другие полезные инструменты; — напишем свой собственный оператор для Airflow для автоматизации ETL-процесса.

    habr.com/ru/companies/X5Tech/a

    #scd_type_2 #trino #iceberg #airflow #lakehouse #etl #slowly_changing_dimensions #data_mesh #витрина_данных #хранилище_данных

  7. Строим машину времени для данных (SCD-2) на движке Trino под управлением Airflow

    Сегодня SCD-2-таблицы не только остаются актуальными для медленно меняющихся данных, но и, на мой взгляд, становятся гораздо проще в реализации благодаря новым технологиям и инструментам. Мне поручили пересобрать витрину в ходе миграции в наше новое хранилище данных. Итак, в этой статье мы будем: — строить Iceberg-таблицы SCD-2 с помощью Trino, SQL и Python; — попутно освоим прекрасные функции merge, MD5 и другие полезные инструменты; — напишем свой собственный оператор для Airflow для автоматизации ETL-процесса.

    habr.com/ru/companies/X5Tech/a

    #scd_type_2 #trino #iceberg #airflow #lakehouse #etl #slowly_changing_dimensions #data_mesh #витрина_данных #хранилище_данных

  8. Строим машину времени для данных (SCD-2) на движке Trino под управлением Airflow

    Сегодня SCD-2-таблицы не только остаются актуальными для медленно меняющихся данных, но и, на мой взгляд, становятся гораздо проще в реализации благодаря новым технологиям и инструментам. Мне поручили пересобрать витрину в ходе миграции в наше новое хранилище данных. Итак, в этой статье мы будем: — строить Iceberg-таблицы SCD-2 с помощью Trino, SQL и Python; — попутно освоим прекрасные функции merge, MD5 и другие полезные инструменты; — напишем свой собственный оператор для Airflow для автоматизации ETL-процесса.

    habr.com/ru/companies/X5Tech/a

    #scd_type_2 #trino #iceberg #airflow #lakehouse #etl #slowly_changing_dimensions #data_mesh #витрина_данных #хранилище_данных

  9. Код как документация: как мы строим самодокументируемые витрины данных в Почте Mail

    В аналитике больших данных есть старая проблема: код ETL-витрин живет своей жизнью, а документация — своей. Изменяешь логику, забываешь обновить описание колонки — и через месяц никто не помнит, что означает wallet_cards_category_hits. В Почте Mail (VK) мы решили эту проблему системно, разработав внутренний фреймворк, который делает код витрины и ее документацию неразрывными. На связи Дима Швеенков. Я все так же руковожу направлением аналитики в команде и отвечаю за данные в Почте Mail , а теперь еще и отвечаю за DWH в VK Tech . В предыдущих статьях я подробно рассказывал о нашем Data Driven-подходе к работе с данными, а также, в частности, как мы работаем со Spark и какие ключевые проблемы с данными мы решили, чтобы построить свое хранилище данных. Сегодня хотел бы остановиться на более узкой теме — как держать в порядке документацию, если у вас такое же огромное хранилище, как и у нас. Материал короткий, но, надеюсь, будет для вас полезным.

    habr.com/ru/companies/vktech/a

    #big_data #apache_spark #airflow #clickhouse #sql #документация #dwh #metadata #dbt #vk_tech

  10. Код как документация: как мы строим самодокументируемые витрины данных в Почте Mail

    В аналитике больших данных есть старая проблема: код ETL-витрин живет своей жизнью, а документация — своей. Изменяешь логику, забываешь обновить описание колонки — и через месяц никто не помнит, что означает wallet_cards_category_hits. В Почте Mail (VK) мы решили эту проблему системно, разработав внутренний фреймворк, который делает код витрины и ее документацию неразрывными. На связи Дима Швеенков. Я все так же руковожу направлением аналитики в команде и отвечаю за данные в Почте Mail , а теперь еще и отвечаю за DWH в VK Tech . В предыдущих статьях я подробно рассказывал о нашем Data Driven-подходе к работе с данными, а также, в частности, как мы работаем со Spark и какие ключевые проблемы с данными мы решили, чтобы построить свое хранилище данных. Сегодня хотел бы остановиться на более узкой теме — как держать в порядке документацию, если у вас такое же огромное хранилище, как и у нас. Материал короткий, но, надеюсь, будет для вас полезным.

    habr.com/ru/companies/vktech/a

    #big_data #apache_spark #airflow #clickhouse #sql #документация #dwh #metadata #dbt #vk_tech

  11. Код как документация: как мы строим самодокументируемые витрины данных в Почте Mail

    В аналитике больших данных есть старая проблема: код ETL-витрин живет своей жизнью, а документация — своей. Изменяешь логику, забываешь обновить описание колонки — и через месяц никто не помнит, что означает wallet_cards_category_hits. В Почте Mail (VK) мы решили эту проблему системно, разработав внутренний фреймворк, который делает код витрины и ее документацию неразрывными. На связи Дима Швеенков. Я все так же руковожу направлением аналитики в команде и отвечаю за данные в Почте Mail , а теперь еще и отвечаю за DWH в VK Tech . В предыдущих статьях я подробно рассказывал о нашем Data Driven-подходе к работе с данными, а также, в частности, как мы работаем со Spark и какие ключевые проблемы с данными мы решили, чтобы построить свое хранилище данных. Сегодня хотел бы остановиться на более узкой теме — как держать в порядке документацию, если у вас такое же огромное хранилище, как и у нас. Материал короткий, но, надеюсь, будет для вас полезным.

    habr.com/ru/companies/vktech/a

    #big_data #apache_spark #airflow #clickhouse #sql #документация #dwh #metadata #dbt #vk_tech

  12. Код как документация: как мы строим самодокументируемые витрины данных в Почте Mail

    В аналитике больших данных есть старая проблема: код ETL-витрин живет своей жизнью, а документация — своей. Изменяешь логику, забываешь обновить описание колонки — и через месяц никто не помнит, что означает wallet_cards_category_hits. В Почте Mail (VK) мы решили эту проблему системно, разработав внутренний фреймворк, который делает код витрины и ее документацию неразрывными. На связи Дима Швеенков. Я все так же руковожу направлением аналитики в команде и отвечаю за данные в Почте Mail , а теперь еще и отвечаю за DWH в VK Tech . В предыдущих статьях я подробно рассказывал о нашем Data Driven-подходе к работе с данными, а также, в частности, как мы работаем со Spark и какие ключевые проблемы с данными мы решили, чтобы построить свое хранилище данных. Сегодня хотел бы остановиться на более узкой теме — как держать в порядке документацию, если у вас такое же огромное хранилище, как и у нас. Материал короткий, но, надеюсь, будет для вас полезным.

    habr.com/ru/companies/vktech/a

    #big_data #apache_spark #airflow #clickhouse #sql #документация #dwh #metadata #dbt #vk_tech

  13. Airflow TaskFlow API: внутреннее устройство современного способа писать DAG-и

    Немного погрузимся во внутреннее устройство Apache Airflow и разберёмся, что на самом деле происходит за красивым синтаксисом TaskFlow API. Посмотрим, как работают декораторы @task и @dag , каким образом обычные Python-функции превращаются в задачи Airflow и за счёт какой «магии» строится граф зависимостей. А заодно напишем собственный мини-пример, чтобы лучше понять архитектурные идеи, на которых построен современный Airflow. Заглянем под капот Airflow TaskFlow API

    habr.com/ru/articles/1033750/

    #airflow #Framework #Python #DE

  14. Airflow TaskFlow API: внутреннее устройство современного способа писать DAG-и

    Немного погрузимся во внутреннее устройство Apache Airflow и разберёмся, что на самом деле происходит за красивым синтаксисом TaskFlow API. Посмотрим, как работают декораторы @task и @dag , каким образом обычные Python-функции превращаются в задачи Airflow и за счёт какой «магии» строится граф зависимостей. А заодно напишем собственный мини-пример, чтобы лучше понять архитектурные идеи, на которых построен современный Airflow. Заглянем под капот Airflow TaskFlow API

    habr.com/ru/articles/1033750/

    #airflow #Framework #Python #DE

  15. Airflow TaskFlow API: внутреннее устройство современного способа писать DAG-и

    Немного погрузимся во внутреннее устройство Apache Airflow и разберёмся, что на самом деле происходит за красивым синтаксисом TaskFlow API. Посмотрим, как работают декораторы @task и @dag , каким образом обычные Python-функции превращаются в задачи Airflow и за счёт какой «магии» строится граф зависимостей. А заодно напишем собственный мини-пример, чтобы лучше понять архитектурные идеи, на которых построен современный Airflow. Заглянем под капот Airflow TaskFlow API

    habr.com/ru/articles/1033750/

    #airflow #Framework #Python #DE

  16. Airflow TaskFlow API: внутреннее устройство современного способа писать DAG-и

    Немного погрузимся во внутреннее устройство Apache Airflow и разберёмся, что на самом деле происходит за красивым синтаксисом TaskFlow API. Посмотрим, как работают декораторы @task и @dag , каким образом обычные Python-функции превращаются в задачи Airflow и за счёт какой «магии» строится граф зависимостей. А заодно напишем собственный мини-пример, чтобы лучше понять архитектурные идеи, на которых построен современный Airflow. Заглянем под капот Airflow TaskFlow API

    habr.com/ru/articles/1033750/

    #airflow #Framework #Python #DE

  17. Heat Recovery Ventilator (HRV) — Operating Principle

    A recuperator (heat recovery unit) transfers heat from exhaust air to incoming fresh air without mixing the two streams.

    ---

    How It Works

    Two airflows:

    Exhaust air (warm, from indoors)

    Supply air (cold, from outside)

    They pass through a heat exchanger:

    separated by plates or channels

    no direct mixing

    heat transfers through the material (conduction)

    Result: → supply air is preheated
    → exhaust air is cooled
    → overall heat loss is reduced

    ---

    Types of Recuperators

    1. Plate Heat Exchanger

    aluminum or plastic plates

    efficiency: ~60–90%

    no moving parts

    2. Rotary (Wheel) Heat Exchanger

    rotating drum

    transfers heat and some moisture

    efficiency: up to ~85–90%

    3. Counterflow Heat Exchanger

    air streams move in opposite directions

    highest efficiency: up to ~95%

    ---

    What Is Transferred

    heat (primary)

    sometimes moisture (in enthalpy units)

    ---

    Efficiency Example

    outside: 0°C

    indoor: +22°C

    after recovery: ~16–20°C

    ---

    Advantages

    reduced heating energy demand

    continuous ventilation without major heat loss

    improved indoor air quality

    ---

    Limitations

    frost formation in winter (needs bypass or preheater)

    filter maintenance required

    upfront cost

    ---

    Core Idea

    A recuperator doesn’t generate heat — it recovers and reuses it.

    #HVAC #HeatRecovery #HRV #ERV #EnergyEfficiency #Ventilation #IndoorAirQuality #AirExchange #HeatExchanger #SustainableLiving #GreenBuilding #EnergySaving #HomeComfort #SmartHome #BuildingEngineering #ClimateControl #EcoTech #Airflow #FreshAir #LowEnergy #PassiveHouse #NetZero #HomeImprovement #Engineering #CleanAir

  18. Heat Recovery Ventilator (HRV) — Operating Principle

    A recuperator (heat recovery unit) transfers heat from exhaust air to incoming fresh air without mixing the two streams.

    ---

    How It Works

    Two airflows:

    Exhaust air (warm, from indoors)

    Supply air (cold, from outside)

    They pass through a heat exchanger:

    separated by plates or channels

    no direct mixing

    heat transfers through the material (conduction)

    Result: → supply air is preheated
    → exhaust air is cooled
    → overall heat loss is reduced

    ---

    Types of Recuperators

    1. Plate Heat Exchanger

    aluminum or plastic plates

    efficiency: ~60–90%

    no moving parts

    2. Rotary (Wheel) Heat Exchanger

    rotating drum

    transfers heat and some moisture

    efficiency: up to ~85–90%

    3. Counterflow Heat Exchanger

    air streams move in opposite directions

    highest efficiency: up to ~95%

    ---

    What Is Transferred

    heat (primary)

    sometimes moisture (in enthalpy units)

    ---

    Efficiency Example

    outside: 0°C

    indoor: +22°C

    after recovery: ~16–20°C

    ---

    Advantages

    reduced heating energy demand

    continuous ventilation without major heat loss

    improved indoor air quality

    ---

    Limitations

    frost formation in winter (needs bypass or preheater)

    filter maintenance required

    upfront cost

    ---

    Core Idea

    A recuperator doesn’t generate heat — it recovers and reuses it.

    #HVAC #HeatRecovery #HRV #ERV #EnergyEfficiency #Ventilation #IndoorAirQuality #AirExchange #HeatExchanger #SustainableLiving #GreenBuilding #EnergySaving #HomeComfort #SmartHome #BuildingEngineering #ClimateControl #EcoTech #Airflow #FreshAir #LowEnergy #PassiveHouse #NetZero #HomeImprovement #Engineering #CleanAir

  19. Heat Recovery Ventilator (HRV) — Operating Principle

    A recuperator (heat recovery unit) transfers heat from exhaust air to incoming fresh air without mixing the two streams.

    ---

    How It Works

    Two airflows:

    Exhaust air (warm, from indoors)

    Supply air (cold, from outside)

    They pass through a heat exchanger:

    separated by plates or channels

    no direct mixing

    heat transfers through the material (conduction)

    Result: → supply air is preheated
    → exhaust air is cooled
    → overall heat loss is reduced

    ---

    Types of Recuperators

    1. Plate Heat Exchanger

    aluminum or plastic plates

    efficiency: ~60–90%

    no moving parts

    2. Rotary (Wheel) Heat Exchanger

    rotating drum

    transfers heat and some moisture

    efficiency: up to ~85–90%

    3. Counterflow Heat Exchanger

    air streams move in opposite directions

    highest efficiency: up to ~95%

    ---

    What Is Transferred

    heat (primary)

    sometimes moisture (in enthalpy units)

    ---

    Efficiency Example

    outside: 0°C

    indoor: +22°C

    after recovery: ~16–20°C

    ---

    Advantages

    reduced heating energy demand

    continuous ventilation without major heat loss

    improved indoor air quality

    ---

    Limitations

    frost formation in winter (needs bypass or preheater)

    filter maintenance required

    upfront cost

    ---

    Core Idea

    A recuperator doesn’t generate heat — it recovers and reuses it.

    #HVAC #HeatRecovery #HRV #ERV #EnergyEfficiency #Ventilation #IndoorAirQuality #AirExchange #HeatExchanger #SustainableLiving #GreenBuilding #EnergySaving #HomeComfort #SmartHome #BuildingEngineering #ClimateControl #EcoTech #Airflow #FreshAir #LowEnergy #PassiveHouse #NetZero #HomeImprovement #Engineering #CleanAir

  20. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  21. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  22. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  23. Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных

    Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.

    habr.com/ru/companies/X5Tech/a

    #большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl

  24. 🖥️ Donne du style et de la puissance à ton setup !

    Découvre notre sélection de boîtiers PC gaming 🔥
    RGB, airflow optimisé, design futuriste… tout pour sublimer ta config 💡

    ⚡ Que tu sois gamer ou créateur, trouve le boîtier parfait pour ton build !

    👉 Explore maintenant la catégorie et upgrade ton setup !

    inmedia.ma/product-category/ac

    #pcgaming, #boitierpc, #setupgaming, #rgb, #gamingsetup, #pcbuilder, #airflow, #gaminggear

  25. 🖥️ Donne du style et de la puissance à ton setup !

    Découvre notre sélection de boîtiers PC gaming 🔥
    RGB, airflow optimisé, design futuriste… tout pour sublimer ta config 💡

    ⚡ Que tu sois gamer ou créateur, trouve le boîtier parfait pour ton build !

    👉 Explore maintenant la catégorie et upgrade ton setup !

    inmedia.ma/product-category/ac

    #pcgaming, #boitierpc, #setupgaming, #rgb, #gamingsetup, #pcbuilder, #airflow, #gaminggear

  26. Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

    Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data. В 2026 году это уже не привилегия корпораций, а стандарт ведения цифрового бизнеса. И как следствие этой "гонки вооружений" произошла тектоническая смена ориентиров. Классическая связка Airflow + PostgreSQL, которая ещё вчера считалась золотым стандартом, сегодня стремительно сдает позиции. Её место уверенно занимает дуэт Airflow + ClickHouse — технологический фундамент современной инженерии данных.

    habr.com/ru/articles/1022460/

    #clickhouse #postgresql #data_engineer #dwh #airflow #big_data #аналитика #рынок_труда #sql #python

  27. Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

    Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data. В 2026 году это уже не привилегия корпораций, а стандарт ведения цифрового бизнеса. И как следствие этой "гонки вооружений" произошла тектоническая смена ориентиров. Классическая связка Airflow + PostgreSQL, которая ещё вчера считалась золотым стандартом, сегодня стремительно сдает позиции. Её место уверенно занимает дуэт Airflow + ClickHouse — технологический фундамент современной инженерии данных.

    habr.com/ru/articles/1022460/

    #clickhouse #postgresql #data_engineer #dwh #airflow #big_data #аналитика #рынок_труда #sql #python

  28. Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

    Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data. В 2026 году это уже не привилегия корпораций, а стандарт ведения цифрового бизнеса. И как следствие этой "гонки вооружений" произошла тектоническая смена ориентиров. Классическая связка Airflow + PostgreSQL, которая ещё вчера считалась золотым стандартом, сегодня стремительно сдает позиции. Её место уверенно занимает дуэт Airflow + ClickHouse — технологический фундамент современной инженерии данных.

    habr.com/ru/articles/1022460/

    #clickhouse #postgresql #data_engineer #dwh #airflow #big_data #аналитика #рынок_труда #sql #python

  29. Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

    Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в корзину — ещё одна строка. За месяц — 15 миллионов событий. За год — почти 200 миллионов. Это не Google. Не Amazon. Это обычный средний магазин на ~100 человек. А теперь умножьте это на количество таблиц: пользователи, заказы, платежи, доставки, отзывы, просмотры, лайки, рефералы, купоны, возвраты... Поздравляю. Вы уже работаете с Big Data. В 2026 году это уже не привилегия корпораций, а стандарт ведения цифрового бизнеса. И как следствие этой "гонки вооружений" произошла тектоническая смена ориентиров. Классическая связка Airflow + PostgreSQL, которая ещё вчера считалась золотым стандартом, сегодня стремительно сдает позиции. Её место уверенно занимает дуэт Airflow + ClickHouse — технологический фундамент современной инженерии данных.

    habr.com/ru/articles/1022460/

    #clickhouse #postgresql #data_engineer #dwh #airflow #big_data #аналитика #рынок_труда #sql #python

  30. Built an end-to-end data pipeline using GCP, Airflow, PySpark, and BigQuery to analyze thermal anomaly data (India 🇮🇳 vs USA 🇺🇸).
    Uncovered patterns in fire frequency, intensity, and seasonality through interactive dashboards.
    #DataEngineering #GCP #Airflow #BigQuery #PySpark

  31. 𝗔𝗶𝗿𝗳𝗹𝗼𝘄:

    #Workflow #Orchestration #Airflow

    thewhale.cc/posts/airflow

    Apache Airflow is a **flexible and powerful platform for workflow orchestration**, which uses Python, offers an intuitive user interface, and has numerous integrations, all within a scalable and open-source framework.

  32. 𝗔𝗶𝗿𝗳𝗹𝗼𝘄:

    #Workflow #Orchestration #Airflow

    thewhale.cc/posts/airflow

    Apache Airflow is a **flexible and powerful platform for workflow orchestration**, which uses Python, offers an intuitive user interface, and has numerous integrations, all within a scalable and open-source framework.

  33. 𝗔𝗶𝗿𝗳𝗹𝗼𝘄:

    #Workflow #Orchestration #Airflow

    thewhale.cc/posts/airflow

    Apache Airflow is a **flexible and powerful platform for workflow orchestration**, which uses Python, offers an intuitive user interface, and has numerous integrations, all within a scalable and open-source framework.

  34. TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP

    О чем эта статья : В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им Очень легко проанализировать стоимость лицензий или вычислений и хранения в случае облачной БД, но очень сложно — TCO. Стоимость разработки одной фичи, стоимость поддержки, стоимость сопровождения, стоимость изменений. Очень заманчиво учитывать только расходы на лицензии и вычисления и предполагать, что все остальные расходы одинаковы, хотя это не так. По умолчанию облачные MPP-базы обычно дешевле по хранению и вычислениям и не имеют лицензионной платы, и возникает соблазн использовать такой же безлицензионный подход в ETL, но есть недостатки :

    habr.com/ru/articles/1014362/

    #mppбазы #informatica #dbt #etl #airflow #oracle #bigquery

  35. TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP

    О чем эта статья : В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им Очень легко проанализировать стоимость лицензий или вычислений и хранения в случае облачной БД, но очень сложно — TCO. Стоимость разработки одной фичи, стоимость поддержки, стоимость сопровождения, стоимость изменений. Очень заманчиво учитывать только расходы на лицензии и вычисления и предполагать, что все остальные расходы одинаковы, хотя это не так. По умолчанию облачные MPP-базы обычно дешевле по хранению и вычислениям и не имеют лицензионной платы, и возникает соблазн использовать такой же безлицензионный подход в ETL, но есть недостатки :

    habr.com/ru/articles/1014362/

    #mppбазы #informatica #dbt #etl #airflow #oracle #bigquery

  36. TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP

    О чем эта статья : В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им Очень легко проанализировать стоимость лицензий или вычислений и хранения в случае облачной БД, но очень сложно — TCO. Стоимость разработки одной фичи, стоимость поддержки, стоимость сопровождения, стоимость изменений. Очень заманчиво учитывать только расходы на лицензии и вычисления и предполагать, что все остальные расходы одинаковы, хотя это не так. По умолчанию облачные MPP-базы обычно дешевле по хранению и вычислениям и не имеют лицензионной платы, и возникает соблазн использовать такой же безлицензионный подход в ETL, но есть недостатки :

    habr.com/ru/articles/1014362/

    #mppбазы #informatica #dbt #etl #airflow #oracle #bigquery

  37. TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP

    О чем эта статья : В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им Очень легко проанализировать стоимость лицензий или вычислений и хранения в случае облачной БД, но очень сложно — TCO. Стоимость разработки одной фичи, стоимость поддержки, стоимость сопровождения, стоимость изменений. Очень заманчиво учитывать только расходы на лицензии и вычисления и предполагать, что все остальные расходы одинаковы, хотя это не так. По умолчанию облачные MPP-базы обычно дешевле по хранению и вычислениям и не имеют лицензионной платы, и возникает соблазн использовать такой же безлицензионный подход в ETL, но есть недостатки :

    habr.com/ru/articles/1014362/

    #mppбазы #informatica #dbt #etl #airflow #oracle #bigquery

  38. Stanford’s AI energy blind spot and how we can fix it

    In October 2023, Stanford published a sustainability story about a very unglamorous problem: airflow under a raised data…
    #Energy #AI #airflow #blindspot #Climate #climateaction #climatechange #compute #datacenter #emissions #Renewables #researchcomputing #utsavgupta
    europesays.com/2825961/

  39. #AI in #BI is like a self-driving car: that still needs you at the wheel.

    Maxime Beauchemin, creator of Apache #Superset and Apache #Airflow, explains why #analytics aren't ready to go full autopilot and how we can embrace smart assistance instead. Because 90% isn’t good enough.

    🎥 Watch now! abracadata.space/sessions/2025

  40. Как мы мигрировали с Zeppelin и что из этого вышло. Часть 1. Рассылки

    Для задач аналитики Zeppelin - это чуть ли не находка. Он может в одной книжке исполнять код на любом языке (был бы интерпретатор), выводить его в виде красивых табличек, графиков и в любом другом виде, который удобен. И на Хабре есть много статей , посвященных плюсом данного решения для задач аналитики. В результате в аналитический отдел ТКБ Инвестмент Партнерс данный инструмент проник достаточно глубоко: на нем писались аналитические отчеты для разных отделов, расчетные таблицы, которые затем отсылались в дашборды, также данными книжками могли пользоваться все, кто знал какие-либо языки программирования. И мы попали в зависимость от него. Панацея, которая должна была стать легким решением для (почти) любой задачи превратилась в наше проклятие. Из-за проблем с данной системой на нас приходило по 5-7 тикеров в неделю, а также потерей доверия к нашим сервисам. Как мы с этим справились?

    habr.com/ru/articles/988386/

    #airflow #zeppelin #миграция #рассылки #devops

  41. Как мы мигрировали с Zeppelin и что из этого вышло. Часть 1. Рассылки

    Для задач аналитики Zeppelin - это чуть ли не находка. Он может в одной книжке исполнять код на любом языке (был бы интерпретатор), выводить его в виде красивых табличек, графиков и в любом другом виде, который удобен. И на Хабре есть много статей , посвященных плюсом данного решения для задач аналитики. В результате в аналитический отдел ТКБ Инвестмент Партнерс данный инструмент проник достаточно глубоко: на нем писались аналитические отчеты для разных отделов, расчетные таблицы, которые затем отсылались в дашборды, также данными книжками могли пользоваться все, кто знал какие-либо языки программирования. И мы попали в зависимость от него. Панацея, которая должна была стать легким решением для (почти) любой задачи превратилась в наше проклятие. Из-за проблем с данной системой на нас приходило по 5-7 тикеров в неделю, а также потерей доверия к нашим сервисам. Как мы с этим справились?

    habr.com/ru/articles/988386/

    #airflow #zeppelin #миграция #рассылки #devops

  42. Как мы мигрировали с Zeppelin и что из этого вышло. Часть 1. Рассылки

    Для задач аналитики Zeppelin - это чуть ли не находка. Он может в одной книжке исполнять код на любом языке (был бы интерпретатор), выводить его в виде красивых табличек, графиков и в любом другом виде, который удобен. И на Хабре есть много статей , посвященных плюсом данного решения для задач аналитики. В результате в аналитический отдел ТКБ Инвестмент Партнерс данный инструмент проник достаточно глубоко: на нем писались аналитические отчеты для разных отделов, расчетные таблицы, которые затем отсылались в дашборды, также данными книжками могли пользоваться все, кто знал какие-либо языки программирования. И мы попали в зависимость от него. Панацея, которая должна была стать легким решением для (почти) любой задачи превратилась в наше проклятие. Из-за проблем с данной системой на нас приходило по 5-7 тикеров в неделю, а также потерей доверия к нашим сервисам. Как мы с этим справились?

    habr.com/ru/articles/988386/

    #airflow #zeppelin #миграция #рассылки #devops