home.social

Search

1000 results for “airflow”

  1. Код как документация: как мы строим самодокументируемые витрины данных в Почте Mail

    В аналитике больших данных есть старая проблема: код ETL-витрин живет своей жизнью, а документация — своей. Изменяешь логику, забываешь обновить описание колонки — и через месяц никто не помнит, что означает wallet_cards_category_hits. В Почте Mail (VK) мы решили эту проблему системно, разработав внутренний фреймворк, который делает код витрины и ее документацию неразрывными. На связи Дима Швеенков. Я все так же руковожу направлением аналитики в команде и отвечаю за данные в Почте Mail , а теперь еще и отвечаю за DWH в VK Tech . В предыдущих статьях я подробно рассказывал о нашем Data Driven-подходе к работе с данными, а также, в частности, как мы работаем со Spark и какие ключевые проблемы с данными мы решили, чтобы построить свое хранилище данных. Сегодня хотел бы остановиться на более узкой теме — как держать в порядке документацию, если у вас такое же огромное хранилище, как и у нас. Материал короткий, но, надеюсь, будет для вас полезным.

    habr.com/ru/companies/vktech/a

    #big_data #apache_spark #airflow #clickhouse #sql #документация #dwh #metadata #dbt #vk_tech

  2. Ready to level up your gardening game? 🌿

    From airflow hacks to space-saving layouts, our latest guide covers everything you need for a thriving greenhouse.

    Check out Greenhouse Mastery here: vegplotter.com/blog/greenhouse

    #GardeningTips #Greenhouse #GrowYourOwn #AllotmentLife

  3. Built an end-to-end data pipeline using GCP, Airflow, PySpark, and BigQuery to analyze thermal anomaly data (India 🇮🇳 vs USA 🇺🇸).
    Uncovered patterns in fire frequency, intensity, and seasonality through interactive dashboards.
    #DataEngineering #GCP #Airflow #BigQuery #PySpark

  4. TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP

    О чем эта статья : В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им Очень легко проанализировать стоимость лицензий или вычислений и хранения в случае облачной БД, но очень сложно — TCO. Стоимость разработки одной фичи, стоимость поддержки, стоимость сопровождения, стоимость изменений. Очень заманчиво учитывать только расходы на лицензии и вычисления и предполагать, что все остальные расходы одинаковы, хотя это не так. По умолчанию облачные MPP-базы обычно дешевле по хранению и вычислениям и не имеют лицензионной платы, и возникает соблазн использовать такой же безлицензионный подход в ETL, но есть недостатки :

    habr.com/ru/articles/1014362/

    #mppбазы #informatica #dbt #etl #airflow #oracle #bigquery

  5. TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP

    О чем эта статья : В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им Очень легко проанализировать стоимость лицензий или вычислений и хранения в случае облачной БД, но очень сложно — TCO. Стоимость разработки одной фичи, стоимость поддержки, стоимость сопровождения, стоимость изменений. Очень заманчиво учитывать только расходы на лицензии и вычисления и предполагать, что все остальные расходы одинаковы, хотя это не так. По умолчанию облачные MPP-базы обычно дешевле по хранению и вычислениям и не имеют лицензионной платы, и возникает соблазн использовать такой же безлицензионный подход в ETL, но есть недостатки :

    habr.com/ru/articles/1014362/

    #mppбазы #informatica #dbt #etl #airflow #oracle #bigquery

  6. TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP

    О чем эта статья : В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им Очень легко проанализировать стоимость лицензий или вычислений и хранения в случае облачной БД, но очень сложно — TCO. Стоимость разработки одной фичи, стоимость поддержки, стоимость сопровождения, стоимость изменений. Очень заманчиво учитывать только расходы на лицензии и вычисления и предполагать, что все остальные расходы одинаковы, хотя это не так. По умолчанию облачные MPP-базы обычно дешевле по хранению и вычислениям и не имеют лицензионной платы, и возникает соблазн использовать такой же безлицензионный подход в ETL, но есть недостатки :

    habr.com/ru/articles/1014362/

    #mppбазы #informatica #dbt #etl #airflow #oracle #bigquery

  7. asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

    С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»

    habr.com/ru/articles/1011510/

    #asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы

  8. asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

    С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»

    habr.com/ru/articles/1011510/

    #asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы

  9. asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

    С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»

    habr.com/ru/articles/1011510/

    #asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы

  10. asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

    С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL. Продолжу цикл по системе. Чего хочется от ETL процесса? Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду. Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R. Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно. Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам. В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе. Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок. Как бы нам это все замиксовать? На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано. По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI. «Миксуем… Сегодня мы с тобой миксуем…»

    habr.com/ru/articles/1011510/

    #asapBI #data_platform #trino #spark #postgresql #greenplum #sql #data_engineering #dwh #etlпроцессы

  11. Creating a darker tone on the Tenor Saxophone involves a combination of relaxed embouchure, controlled airflow, thoughtful equipment choices, and disciplined practice.
    #TenorSaxophone #wolink #musicalinstrumenthub
    musicalinstrumenthub.com/tenor

  12. 🐊 IC Quartz LUMINOUS-E just dropped! 14mm Male 90° crocodile design w/ airflow slits, googly eye carb cap + terp tools. Pure quartz perfection in 5 colors.

    Shop: geticglass.com/products/ic-qua

    #QuartzBanger #ICGlass #Dabbing #GlassArt

  13. Как я построила систему раннего обнаружения падений активности игровых провайдеров

    Стек: Python, Airflow, ClickHouse, Slack В iGaming падение активности игровых провайдеров почти никогда не выглядит как "обрыв". Чаще это медленное затухание: ставок становится меньше, затем еще меньше, игроки уходят постепенно. Формально провайдер продолжает работать, стандартный мониторинг молчит, а бизнес уже теряет деньги. Моя задача была не фиксировать факт полного падения активности, а поймать момент, когда траектория уже направлена вниз, но ситуацию ещё можно развернуть. Вся логика работает внутри DAG в Airflow. Он запускается каждые 6 минут и анализирует активность игровых провайдеров в реальном времени. При обнаружении начала падения или восстановления система отправляет уведомления в Slack.

    habr.com/ru/articles/989586/

    #аналитика_данных #временные_ряды #статистика #анализ_трендов #igaming

  14. Toot: IC Quartz Prestige 2nd Gen 14mm Male 90D banger: Revolutionary terp ball grabber design + optimized airflow. Flavor chasers rejoice! Dab nerds – thoughts on terp grabbers? [geticglass.com/products/ic-gla]

    #Dabbing #QuartzTech #ICQuartz #TerpScience

  15. Toot: 🍏 DIY Apple Pipe Tutorial – 6 slides from kitchen to combustion!

    Clean airflow. Fresh every time. Perfect beginner pipe.

    Glass upgrade path included ➡️ [geticglass.com/collections/bon]

    Boost for stoner friends learning the craft!'
    #ApplePipe #DIYPipe #StonerTutorial #CannabisCommunity

  16. Premium craftsmanship meets unique flowing design.
    The Flowing Fantasy Rig (8.3”) delivers smooth airflow and a clean pull, thanks to its long-neck 14mm banger.

    Shop → geticglass.com/products/ic-gla

    #GlassRig #ICGlass #FunctionalGlass

  17. New drop: IC Quartz HAZE (10MM / 45°)
    A premium full-weld quartz banger designed for smooth airflow, efficient heating & cleaner flavor.

    Learn more → geticglass.com/products/ic-qua

    #QuartzBanger #ICGlass #DabRig

  18. There are better, but after designing and printing my own fan shroud for a case fan to add better airflow for my gpu, I'm kinda proud of myself, thats a 10C difference. #gpu #burn #airflow #3dprint #Temperature

  19. It is in its summer configuration with struts that elevate the front of the roof to allow for airflow.

    In winter we can close it and add a clear heavy plastic curtain on the door to hold heat inside.

    #BronsonDog is nowhere near as impressed with it as we are.

  20. It is in its summer configuration with struts that elevate the front of the roof to allow for airflow.

    In winter we can close it and add a clear heavy plastic curtain on the door to hold heat inside.

    #BronsonDog is nowhere near as impressed with it as we are.

  21. It is in its summer configuration with struts that elevate the front of the roof to allow for airflow.

    In winter we can close it and add a clear heavy plastic curtain on the door to hold heat inside.

    #BronsonDog is nowhere near as impressed with it as we are.

  22. It is in its summer configuration with struts that elevate the front of the roof to allow for airflow.

    In winter we can close it and add a clear heavy plastic curtain on the door to hold heat inside.

    #BronsonDog is nowhere near as impressed with it as we are.

  23. It is in its summer configuration with struts that elevate the front of the roof to allow for airflow.

    In winter we can close it and add a clear heavy plastic curtain on the door to hold heat inside.

    #BronsonDog is nowhere near as impressed with it as we are.

  24. Precision matters when you dab.
    The IC Quartz NIRVANA balances airflow and heat for smoother, more flavorful vapor — with a terp ball grabber for added control.

    👉 geticglass.com/products/ic-qua

    #ICQuartz #QuartzBanger #DabScience #TerpLife

  25. Santa is coming 🎅
    NIRVANA 2nd Gen by IC Quartz delivers clean heat cycles, smooth airflow, and balanced performance a simple but meaningful quartz upgrade for the holidays.
    geticglass.com/products/ic-gla

    #ICQuartz #QuartzBanger #HolidayVibes

  26. I had this brilliant idea to use some boxed trellis for the wood shed gate to preserve airflow, but the amount of additional work I'm going to have to do to build it up enough to add the lock I want to use is making me question myself.

    #DIWhy

  27. 🎄 Industry Pick: Double Drain Recycler Dab Rig
    A functional and collectible recycler designed for clean airflow and high-performance dabbing. Perfect for retailers & connoisseurs.
    Find it at → geticglass.com/products/ic-gla

    #ICGlass #GlassRig #CannabisIndustry #FunctionalGlass #HolidayProducts

  28. Как автоматизировать загрузку данных в DWH и не сойти с ума

    Привет! Меня зовут Андрей, я Data Engineer в компании GRI. Мы занимаемся заказной разработкой, и один из наших ключевых клиентов — Sunlight. Я расскажу, как не тратить время на рутину в процессах и автоматизировать всё, что только можно. Это будет особенно актуально тем, кто в компании solo Data Engineer.

    habr.com/ru/companies/gri/arti

    #dwh #etl #airflow #clickhouse #автоматизация #кхд #GRI