home.social

#dagster — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #dagster, aggregated by home.social.

  1. ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

    К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах. При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения. Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти. Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы. Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.

    habr.com/ru/articles/931282/

    #dbt #ymlфайл #datalakehouse #data_engineering #etlпроцессы #open_source #trino #clickhouse #dagster

  2. Dagster: новый стандарт для ETL в 2025?

    Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:

    habr.com/ru/articles/883700/

    #dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics

  3. Still, #dagster has less dependencies, and after some battling and downgrading version, I managed to start the dev environment...

    Building a #Apacheairflow container, is pure chaos. Installing via pip, is another kind of hell, with broken builds all over the place (google-re2)... A tool that has 9 years in the market, being so overwhelming its installation process

    At least I can make #dagster run.

    I guess we are all ill served with workflow orchestration tools anyway, on the open source world

  4. I take back what I said yesterday... #dagster installation process is quite clumsy. And I detected some issues in terms of documentation/instructions.
    I manage to install and run #Apacheairflow in 2 clicks...