#data_pipelines — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #data_pipelines, aggregated by home.social.
-
Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных
Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.
https://habr.com/ru/companies/X5Tech/articles/1026382/
#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl
-
Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных
Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.
https://habr.com/ru/companies/X5Tech/articles/1026382/
#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl
-
Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных
Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.
https://habr.com/ru/companies/X5Tech/articles/1026382/
#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl
-
Единое окно инженера данных: как мы построили веб-среду разработки для 12 000 потоков данных
Привет, Хабр! Меня зовут Никита Калганов, я ведущий системный инженер данных в X5 Tech. Мы с командой проектируем и развиваем высоконагруженную систему потоков данных и поддерживаем её в условиях постоянного роста, как по числу потоков, так и по количеству команд, которые с ней работают. В нашей системе обработки данных живёт больше двенадцати тысяч потоков данных, и их число растёт в среднем на несколько десятков в день. Всё нормально работает, но мы решили сделать её ещё лучше. В этой статье расскажу, как мы построили единое окно инженера данных, сделали собственный DDL-мигратор с поддержкой зависимостей и при этом сохранили то, что уже работает.
https://habr.com/ru/companies/X5Tech/articles/1026382/
#большие_данные #big_data #lakehouseплатформа_данных #data_pipelines #airflow #yaml #gitlab_cicd #микросервисная_архитектура #оркестрация #ddl
-
Dagster: новый стандарт для ETL в 2025?
Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:
https://habr.com/ru/articles/883700/
#dagster #etl #data_pipelines #оркестрация #data_engineering #mlops #python #dataops_engineer #big_data #big_data_analytics