#etl — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #etl, aggregated by home.social.
-
Как я сделал “Авиасейлз для логистики”: агрегатор заявок из 16+ источников
В логистике проблема часто не в том, что нет данных. Проблема в том, что данные разбросаны по разным местам. Одни заявки лежат во внутренней системе, другие — в закрытых кабинетах грузоотправителей, третьи — на тендерных площадках, четвёртые приходят через Excel-выгрузки, пятые доступны только через веб-интерфейс. Где-то есть нормальный HTTP-обмен, где-то данные спрятаны за фронтендом, где-то приходится читать DOM-таблицу, а где-то сначала кажется, что всё просто, пока не выясняется, что цена приходит в копейках, маршрут состоит из трёх точек, а тип кузова записан как “тент 20т, верхняя загрузка”. Для менеджера всё это выглядит не как единый рынок грузов, а как набор вкладок в браузере. Открыть один кабинет. Потом второй. Потом третий. Проверить направление. Сравнить цену. Посмотреть дату. Понять, где реф, где тент, где просто “20 тонн”. Не забыть про аукцион, у которого скоро истекает время. Потом всё равно перенести результат в таблицу или открыть внутреннюю панель. В какой-то момент стало понятно: нам нужен не ещё один парсер, а единая витрина. Так появился внутренний агрегатор заявок — условный “Авиасейлз для логистики”.
https://habr.com/ru/articles/1035316/
#логистика #автоматизация #парсинг_данных #агрегатор_заявок #ETL #PostgreSQL #Python #Google_Sheets #FastAPI
-
When does #Iceberg beat #Parquet+projection on #AWSGlue, and when doesn't ?
An end-to-end #ETL PoC on #AWS to find out: producer, #Kinesis, two #Firehose paths, two #Glue jobs, #Athena.
🔮 Spoiler: how the data is read is the key to the choice.
In the article: every choice with its why, plus a few gems from some Glue experience 😄
-
Почему российский бизнес проигрывает битву за информацию и как это исправить. Часть 2
Представьте себе классическую ситуацию: финансовый директор смотрит на два отчета по выручке за прошлый год. Один отчет, построенный в старой системе, показывает 150 миллионов рублей, другой — в новой корпоративной CRM — демонстрирует 145 миллионов. Разница в 5 миллионов, а вместе с ней и ощущение, что новая система «врет» и вводит всех в заблуждение. Начинается поиск виноватых, и, как это часто бывает, крайними оказываются ИТ-специалисты, якобы «неправильно настроившие миграцию». Но проблема гораздо глубже. Дело не в кривых скриптах и не в саботаже данных. Причина кроется в «Иллюзии темпоральности» — коварном и широко распространенном заблуждении, что изменчивостью данных во времени можно пренебречь, и достаточно хранить лишь последнее известное состояние. В то время как реальный бизнес находится в бесконечной динамике: клиенты переезжают, меняют паспортные данные и сегменты лояльности; товары проходят через ребрендинг и смену классификаций; сотрудники переходят из отдела в отдел. Если система фиксирует лишь последний известный срез, прошлое в отчетах неизбежно исказится, что и приводит к тем самым «пропавшим» или нестыкующимся суммам. Современные методологии управления данными, в частности Slowly Changing Dimensions (SCD) или «Медленно меняющиеся измерения», предлагают элегантный и проверенный способ справиться с этой иллюзией, превратив хаос непрерывных изменений в стройную, аналитически ценную картину.
https://habr.com/ru/articles/1033430/
#качество_данных #scd #slowly_changing_dimensions #темпоральность #миграция_данных #sap #импортозамещение #etl #sql #системный_анализ
-
Смотрим low-code коннектор к «1С: Шине» от «Денвик»
На связи Сергей Скирдин, технический директор компании «Белый код». Мы занимаемся проектами в сфере управления данными: интеграции, хранилища, BI. В прошлой статье про DevCon я писал, что спрашивал про поддержку «1С:Шины» в БСП, чтобы не делать на каждом проекте отдельный коннектор. Конкретных сроков от вендора не прозвучало, и в конце статьи я оставил приглашение к сотрудничеству для тех, у кого есть готовый коннектор. Откликнулась компания «Денвик». Мы с ними давно дружим — у них хороший, функциональный ETL-инструмент для извлечения данных из 1С. Можно ли его применять в качестве коннектора к «1С:Шине»? Давайте вместе посмотрим 14 мая 2026 года.
https://habr.com/ru/companies/w_code/articles/1032410/
#bi #biаналитика #biсистема #etl #дашборды #дашборды_в_компании #визуализация_данных #esb
-
Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях
В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.
https://habr.com/ru/articles/1031358/
#starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl
-
Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях
В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.
https://habr.com/ru/articles/1031358/
#starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl
-
Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях
В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.
https://habr.com/ru/articles/1031358/
#starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl
-
Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях
В мае 2024 года Broadcom заархивировал публичный репозиторий Greenplum: последний коммит остался на месте, дальнейшая разработка ушла в закрытый репозиторий, enterprise-сборка теперь доступна только по подписке. Greenplum как живой OSS-проект остановился — но сам код, выпускавшийся с октября 2015-го, остался под Apache 2.0. Именно на этой кодовой базе стартанули остальные форки. Те, кто строил аналитику на Greenplum, оказались перед развилкой. Сообщество разделилось: Apache Cloudberry (incubating) , Greengage DB от Arenadata, WarehousePG от EDB. Каждый форк продолжает линию, но в собственной траектории. У компании с боевым кластером появляется конкретный вопрос: переехать/остаться в одном из этих форков или мигрировать на принципиально другую платформу и архитектурную парадигму. Эта статья (сага из трёх эпизодов) будет полезна, если у вас уже есть Greenplum-кластер, вы понимаете его DDL/ETL/backup-процессы и хотите оценить, насколько болезненным будет переход на StarRocks.
https://habr.com/ru/articles/1031358/
#starrocks #Lakehouse #greenplum #sql #миграция_данных #субд #mpp #dwh #olap #etl
-
Использование Trino для построения ETL-процессов
1. Введение. Trino: ключевые задачи и главные преимущества В современной архитектуре управления данными ETL-процессы рассматриваются не как вспомогательный инструмент, а как базовый механизм интеграции, трансформации и подготовки данных, поступающих из множества гетерогенных источников. Ключевая цель этих процессов - избавиться от хаоса и разрозненности данных, которые почти всегда появляются в больших распределенных компаниях [1] . В рамках ETL-конвейера выполняется автоматизированное извлечение данных из различных источников, их очистка, нормализация и приведение к единой модели, после чего подготовленные данные загружаются в централизованное аналитическое хранилище. Это даёт три главных преимущества: обеспечивает высокое качество и согласованность данных, структурирует информацию под нужды бизнес-отчетности, а также отделяет аналитическую нагрузку от операционных систем, повышая таким образом производительность системы в целом. ETL возник как вынужденная мера, так как во время его появления (1970–1990-е) не было ни высокоскоростных сетей, ни мощных распределенных движков аналитики, ни концепции Data Lake. Единственным надёжным способом построить аналитическую отчетность было физически извлекать данные из операционных систем и копировать их в отдельную специализированную базу. Именно поэтому ETL закрепился как основной архитектурный паттерн аналитических систем на долгие десятилетия. Увы, такой подход породил и массу проблем: это дублирование данных, долгие пайплайны, сложные зависимости, задержки обновления и огромные затраты на поддержку. Традиционным ETL-процессам становится всё труднее справляться с постоянно растущим объемом поступающих данных. Более того, большие сложности возникают при работе с уже накопленной информацией, ведь её требуется хранить на протяжении многих лет, а значит — сохранять возможность глубокого анализа по всей доступной истории.
-
Использование Trino для построения ETL-процессов
1. Введение. Trino: ключевые задачи и главные преимущества В современной архитектуре управления данными ETL-процессы рассматриваются не как вспомогательный инструмент, а как базовый механизм интеграции, трансформации и подготовки данных, поступающих из множества гетерогенных источников. Ключевая цель этих процессов - избавиться от хаоса и разрозненности данных, которые почти всегда появляются в больших распределенных компаниях [1] . В рамках ETL-конвейера выполняется автоматизированное извлечение данных из различных источников, их очистка, нормализация и приведение к единой модели, после чего подготовленные данные загружаются в централизованное аналитическое хранилище. Это даёт три главных преимущества: обеспечивает высокое качество и согласованность данных, структурирует информацию под нужды бизнес-отчетности, а также отделяет аналитическую нагрузку от операционных систем, повышая таким образом производительность системы в целом. ETL возник как вынужденная мера, так как во время его появления (1970–1990-е) не было ни высокоскоростных сетей, ни мощных распределенных движков аналитики, ни концепции Data Lake. Единственным надёжным способом построить аналитическую отчетность было физически извлекать данные из операционных систем и копировать их в отдельную специализированную базу. Именно поэтому ETL закрепился как основной архитектурный паттерн аналитических систем на долгие десятилетия. Увы, такой подход породил и массу проблем: это дублирование данных, долгие пайплайны, сложные зависимости, задержки обновления и огромные затраты на поддержку. Традиционным ETL-процессам становится всё труднее справляться с постоянно растущим объемом поступающих данных. Более того, большие сложности возникают при работе с уже накопленной информацией, ведь её требуется хранить на протяжении многих лет, а значит — сохранять возможность глубокого анализа по всей доступной истории.
-
Использование Trino для построения ETL-процессов
1. Введение. Trino: ключевые задачи и главные преимущества В современной архитектуре управления данными ETL-процессы рассматриваются не как вспомогательный инструмент, а как базовый механизм интеграции, трансформации и подготовки данных, поступающих из множества гетерогенных источников. Ключевая цель этих процессов - избавиться от хаоса и разрозненности данных, которые почти всегда появляются в больших распределенных компаниях [1] . В рамках ETL-конвейера выполняется автоматизированное извлечение данных из различных источников, их очистка, нормализация и приведение к единой модели, после чего подготовленные данные загружаются в централизованное аналитическое хранилище. Это даёт три главных преимущества: обеспечивает высокое качество и согласованность данных, структурирует информацию под нужды бизнес-отчетности, а также отделяет аналитическую нагрузку от операционных систем, повышая таким образом производительность системы в целом. ETL возник как вынужденная мера, так как во время его появления (1970–1990-е) не было ни высокоскоростных сетей, ни мощных распределенных движков аналитики, ни концепции Data Lake. Единственным надёжным способом построить аналитическую отчетность было физически извлекать данные из операционных систем и копировать их в отдельную специализированную базу. Именно поэтому ETL закрепился как основной архитектурный паттерн аналитических систем на долгие десятилетия. Увы, такой подход породил и массу проблем: это дублирование данных, долгие пайплайны, сложные зависимости, задержки обновления и огромные затраты на поддержку. Традиционным ETL-процессам становится всё труднее справляться с постоянно растущим объемом поступающих данных. Более того, большие сложности возникают при работе с уже накопленной информацией, ведь её требуется хранить на протяжении многих лет, а значит — сохранять возможность глубокого анализа по всей доступной истории.
-
Использование Trino для построения ETL-процессов
1. Введение. Trino: ключевые задачи и главные преимущества В современной архитектуре управления данными ETL-процессы рассматриваются не как вспомогательный инструмент, а как базовый механизм интеграции, трансформации и подготовки данных, поступающих из множества гетерогенных источников. Ключевая цель этих процессов - избавиться от хаоса и разрозненности данных, которые почти всегда появляются в больших распределенных компаниях [1] . В рамках ETL-конвейера выполняется автоматизированное извлечение данных из различных источников, их очистка, нормализация и приведение к единой модели, после чего подготовленные данные загружаются в централизованное аналитическое хранилище. Это даёт три главных преимущества: обеспечивает высокое качество и согласованность данных, структурирует информацию под нужды бизнес-отчетности, а также отделяет аналитическую нагрузку от операционных систем, повышая таким образом производительность системы в целом. ETL возник как вынужденная мера, так как во время его появления (1970–1990-е) не было ни высокоскоростных сетей, ни мощных распределенных движков аналитики, ни концепции Data Lake. Единственным надёжным способом построить аналитическую отчетность было физически извлекать данные из операционных систем и копировать их в отдельную специализированную базу. Именно поэтому ETL закрепился как основной архитектурный паттерн аналитических систем на долгие десятилетия. Увы, такой подход породил и массу проблем: это дублирование данных, долгие пайплайны, сложные зависимости, задержки обновления и огромные затраты на поддержку. Традиционным ETL-процессам становится всё труднее справляться с постоянно растущим объемом поступающих данных. Более того, большие сложности возникают при работе с уже накопленной информацией, ведь её требуется хранить на протяжении многих лет, а значит — сохранять возможность глубокого анализа по всей доступной истории.
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Бонус: «Денвик» – экстрактор данных из 1С
Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это бонусная статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем не BI-систему, а инструмент, без которого многие BI-проекты в России буксуют, – экстрактор данных из 1С от компании «Денвик-Аналитика».
https://habr.com/ru/companies/w_code/articles/1031014/
#biаналитика #bi #biсистема #etl #etlпроцессы #дашборды #дашборды_в_компании #визуализация_данных
-
🎉 Milestone Unlocked: Finished the Data Engineering Zoomcamp!
In 10 weeks, I moved from scripting to architecting systems. We built real production-grade infrastructure using Spark, Kafka, Airflow, and Kestra—not just hobby projects.
Capstone: A Storage Hard Drive Dashboard using real failure data from Backblaze
Stack: Terraform + Docker infra, Airflow orchestration, dbt modeling, Streamlit viz.Key Lessons:
✅️ "It works on my laptop" isn't a strategy.
✅ Need IaC, partitioning, clustering, and strict error handling.
✅ dbt ensures reproducible, tested models.
✅ Infra is invisible work—if it breaks, your code fails.Take the leap! It’s challenging but by week 10, pieces click into place. Seeing my pipeline run autonomously felt like crossing the finish line. 🏁
Thanks Data Talks Club team! On to the next challenge!
My project: https://github.com/ammartin8/hard_drive_analytics_dashboard
#mastodon #fediverse #data #spark #dataengineering #ai #technology #datatools #datapipelines #fedihire #thursday #sql #observability #etl #python #github
-
I wrote a practical PHP guide: How to Parse Large XML Files in PHP Without Running Out of Memory
It focuses on large XML files, memory safety, XMLReader baseline, selected-node extraction, XML-to-array output.
https://dev.to/sbwerewolf/how-to-parse-large-xml-files-in-php-without-running-out-of-memory-234oThe pattern is intentionally boring: stream XML with XMLReader, match the records you need, convert them into plain PHP arrays, and keep application code away from cursor-level XML logic.
#PHP #XMLReader #ETL #XML #OpenSource -
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 4: Biplane24
Меня зовут Андрей Рыжик, я разработчик BI в компании «Белый код». Это четвёртая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом 1,5-2 млн рублей. Сегодня разбираем Biplane24.
https://habr.com/ru/companies/w_code/articles/1028952/
#biаналитика #BI #biсистема #ETL #etlпроцессы #Biplane24 #дашборды #дашборды_в_компании #визуализация_данных
-
Топ-10 требований к ИТ-системе бюджетирования
В условиях глобальной неопределенности финансовое планирование и бюджетирование перестает быть ритуалом подготовки отчетов – сегодня это живой процесс, который определяет жизнеспособность компании, развивая базовые подходы в комплексную систему интегрированного планирования. Бюджетирование – очень важная, интересная и нетривиальная задача, которую в современном мире принято решать при помощи автоматизации. Если еще 5 лет назад в системе бюджетирования видели инструмент консолидации и план-факт анализа, то сегодня это комплексная высокотехнологична модель бизнеса. В этой статье мы поговорим о том, как сама природа процесса бюджетирования влияет на задачи автоматизации и критерии подбора ИТ-системы для решения этих задач.
https://habr.com/ru/articles/1028406/
#бюджетирование #итсистемы #финансовый_план #nocode #bigdata #etl #ibp #требования_к_системе #excel #совместная_работа
-
Как мы строили MVP data lineage системы в ЮMoney
Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других. В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы. Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.
https://habr.com/ru/companies/yoomoney/articles/1027068/
#data_lineage #etl #elt #dwh #neo4j #kafka #cypher #data_governance #mvp #метаданные
-
Как мы строили MVP data lineage системы в ЮMoney
Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других. В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы. Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.
https://habr.com/ru/companies/yoomoney/articles/1027068/
#data_lineage #etl #elt #dwh #neo4j #kafka #cypher #data_governance #mvp #метаданные
-
Как мы строили MVP data lineage системы в ЮMoney
Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других. В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы. Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.
https://habr.com/ru/companies/yoomoney/articles/1027068/
#data_lineage #etl #elt #dwh #neo4j #kafka #cypher #data_governance #mvp #метаданные
-
Как мы строили MVP data lineage системы в ЮMoney
Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других. В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы. Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.
https://habr.com/ru/companies/yoomoney/articles/1027068/
#data_lineage #etl #elt #dwh #neo4j #kafka #cypher #data_governance #mvp #метаданные
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 3: AW BI
Меня зовут Андрей Рыжик, я product owner BI-направления в компании «Белый код». Продолжаем серию обзоров российских BI-систем с поддержкой ETL для малого и среднего бизнеса. Ранее мы разбирали PolyAnalyst, Modus. Сегодня на очереди AW BI от компании Bars Group – система, которая позиционирует себя как «дружелюбная BI-платформа» с самой демократичной стоимостью на рынке.
https://habr.com/ru/companies/w_code/articles/1027052/
#AW_BI #biаналитика #bi #biсистема #бизнесаналитика #ETL #etlпроцессы #writeback #дашборды #визуализация_данных
-
Of interest to #Canadians. With the Fedi skew to tech-knowledgeable people, this probably isn't news to many.
But if you're looking to buy #electrical stuff - power bars, extension cords, multi-outlet wall taps that convert 1 #socket into 3 or 2 into 6, all this sort of stuff - be careful where you buy it.
The big hardware stores / home centres sell this stuff, but at stupidly-high #prices. There's no reason a 10-foot extension cord should cost $25, or a power bar $40. So many people reasonably look for #cheaper alternatives.
A lot of #stores and sellers operating in the ... less-well-regulated portions of the market bring this stuff in cheap directly from sellers/manufacturers in China or other countries. Independent stores, mall kiosks, people selling out of their home - their products may not be approved for sale in Canada, because they don't have the necessary #safety #certification. And many of *those* products are actually downright dangerous. I've taken a lot of them apart and seen the many, many ways they can kill you or burn your house down.
Instead, get this stuff at #Dollarama. Their stuff is actually safety-certified by one of the required labs - #CSA, #UL, or most likely #ETL. It's approved for sale in #Canada. And it's still cheap. It might be a little more than guy-with-a-sales-counter-in-a-dilapidated-strip-mall, but not by enough to matter.
Other big chains might be okay - but I haven't personally verified those.
-
[Перевод] Укрощение «диких» CSV: продвинутые техники DuckDB для инженеров данных
CSV-файлы редко бывают такими простыми, какими кажутся на первый взгляд. За внешней структурой часто скрываются проблемы с типами, разделителями, схемами и «сломанными» строками, из-за которых загрузка данных превращается в цепочку костылей и ручной предобработки. В этой статье — практический разбор того, как DuckDB позволяет диагностировать и обрабатывать такие случаи прямо в SQL: от понимания того, как система интерпретирует файл, до устойчивой загрузки и работы с неконсистентными данными. Разобраться в CSV
https://habr.com/ru/companies/otus/articles/1024158/
#CSV #DuckDB #обработка_данных #грязные_данные #качество_данных #импорт_данных #data_engineering #etl
-
[Перевод] Укрощение «диких» CSV: продвинутые техники DuckDB для инженеров данных
CSV-файлы редко бывают такими простыми, какими кажутся на первый взгляд. За внешней структурой часто скрываются проблемы с типами, разделителями, схемами и «сломанными» строками, из-за которых загрузка данных превращается в цепочку костылей и ручной предобработки. В этой статье — практический разбор того, как DuckDB позволяет диагностировать и обрабатывать такие случаи прямо в SQL: от понимания того, как система интерпретирует файл, до устойчивой загрузки и работы с неконсистентными данными. Разобраться в CSV
https://habr.com/ru/companies/otus/articles/1024158/
#CSV #DuckDB #обработка_данных #грязные_данные #качество_данных #импорт_данных #data_engineering #etl
-
[Перевод] Укрощение «диких» CSV: продвинутые техники DuckDB для инженеров данных
CSV-файлы редко бывают такими простыми, какими кажутся на первый взгляд. За внешней структурой часто скрываются проблемы с типами, разделителями, схемами и «сломанными» строками, из-за которых загрузка данных превращается в цепочку костылей и ручной предобработки. В этой статье — практический разбор того, как DuckDB позволяет диагностировать и обрабатывать такие случаи прямо в SQL: от понимания того, как система интерпретирует файл, до устойчивой загрузки и работы с неконсистентными данными. Разобраться в CSV
https://habr.com/ru/companies/otus/articles/1024158/
#CSV #DuckDB #обработка_данных #грязные_данные #качество_данных #импорт_данных #data_engineering #etl
-
[Перевод] Укрощение «диких» CSV: продвинутые техники DuckDB для инженеров данных
CSV-файлы редко бывают такими простыми, какими кажутся на первый взгляд. За внешней структурой часто скрываются проблемы с типами, разделителями, схемами и «сломанными» строками, из-за которых загрузка данных превращается в цепочку костылей и ручной предобработки. В этой статье — практический разбор того, как DuckDB позволяет диагностировать и обрабатывать такие случаи прямо в SQL: от понимания того, как система интерпретирует файл, до устойчивой загрузки и работы с неконсистентными данными. Разобраться в CSV
https://habr.com/ru/companies/otus/articles/1024158/
#CSV #DuckDB #обработка_данных #грязные_данные #качество_данных #импорт_данных #data_engineering #etl
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 2: Modus ETL & Modus BI
Меня зовут Андрей Рыжик, я product owner BI-направления компании «Белый код». Это вторая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем связку от компании Modus: Modus ETL и Modus BI.
https://habr.com/ru/companies/w_code/articles/1022844/
#biаналитика #bi #biсистема #бизнесаналитика #modus #modus_bi #modus_etl #etl
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 2: Modus ETL & Modus BI
Меня зовут Андрей Рыжик, я product owner BI-направления компании «Белый код». Это вторая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем связку от компании Modus: Modus ETL и Modus BI.
https://habr.com/ru/companies/w_code/articles/1022844/
#biаналитика #bi #biсистема #бизнесаналитика #modus #modus_bi #modus_etl #etl
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 2: Modus ETL & Modus BI
Меня зовут Андрей Рыжик, я product owner BI-направления компании «Белый код». Это вторая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем связку от компании Modus: Modus ETL и Modus BI.
https://habr.com/ru/companies/w_code/articles/1022844/
#biаналитика #bi #biсистема #бизнесаналитика #modus #modus_bi #modus_etl #etl
-
Можно ли запустить корпоративную BI+ETL-систему за 1,5 млн рублей? Часть 2: Modus ETL & Modus BI
Меня зовут Андрей Рыжик, я product owner BI-направления компании «Белый код». Это вторая статья из серии, в которой мы изучаем российские BI-системы с поддержкой ETL для клиентов из малого и среднего бизнеса с бюджетом до 1,5 млн рублей. Сегодня разбираем связку от компании Modus: Modus ETL и Modus BI.
https://habr.com/ru/companies/w_code/articles/1022844/
#biаналитика #bi #biсистема #бизнесаналитика #modus #modus_bi #modus_etl #etl
-
[Перевод] DuckDB как микро-хранилище: заменяем «ETL + Postgres» одним файлом, одним движком и SLA
Частая история: данные приложения попадают куда-то, джоб их чистит, Postgres хранит их «для аналитики» и вдруг вы обслуживаете ETL-пайплайн и базу данных, которая никогда не была рада OLAP-нагрузке. По моему мнению, для большинства команд это лишние сложности. Главная сила DuckDB не в том, что он быстрый (хотя это правда). Она в том, что он может работать как микро-хранилище: один .duckdb -файл, который ведёт себя как аккуратный аналитический движок, находится рядом с данными и обеспечивает дашборды, аудиты и еженедельные отчёты без платформенного оверхеда.
-
Last year at #DjangoCon US, Lisa Dusseault showed off the data pipeline framework, Phaser. I enjoyed this talk because it made me realize I should revisit how data processing in my project should work.
https://www.better-simple.com/lunch-talks/2026/04/10/phaser-the-django-of-data-pipelines/
This talk is worth watching if you're interested in:
- Contributing to Phaser
- Data pipeline frameworks
- Learning how to approach building your own framework -
ETL In-Flight vs At Rest
In-Flight (Streaming):
Transform while data moves
Real-time results
Higher cost, lower latency
Kafka, Flink, Spark StreamingAt Rest (Batch):
Store first, transform later
Scheduled processing
Lower cost, higher latency
SQL, dbt, Spark BatchReal-time or cost-effective? Your call!
-
Raster-enabling Apache Hop: @edigonzales continues his series on #geoenabling #ApacheHop, this time adding #raster support to his hop-gdal-plugin. Stefan walks through an #ETL pipeline that computes building heights from LiDAR and vector data using new raster transforms...
https://spatialists.ch/posts/2026/04/03-raster-enabling-apache-hop/ #GIS #GISchat #geospatial #SwissGIS -
For one of my clients I'm creating a highly scalable, globally distributed web application to display and edit some business choices used by internal #ETL document generators. The application runs on #AWS using #cognito as its user authentication mechanism. Did you know that callback script URLs for Cognito can't end in a slash? I didn't. If yours does, be prepared for a world of pain.
-
TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP
О чем эта статья : В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им Очень легко проанализировать стоимость лицензий или вычислений и хранения в случае облачной БД, но очень сложно — TCO. Стоимость разработки одной фичи, стоимость поддержки, стоимость сопровождения, стоимость изменений. Очень заманчиво учитывать только расходы на лицензии и вычисления и предполагать, что все остальные расходы одинаковы, хотя это не так. По умолчанию облачные MPP-базы обычно дешевле по хранению и вычислениям и не имеют лицензионной платы, и возникает соблазн использовать такой же безлицензионный подход в ETL, но есть недостатки :
-
Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?
Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.
https://habr.com/ru/companies/kryptonite/articles/1014180/
#data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT
-
Headline: SSIS Is Not Dead. Yet.
Me: Since Microsoft discontinued SSRS for the SQL Server 2025 release, many have been wondering if SSIS' days are numbered. Here's another article prognosticating what comes next.
More SSIS Thoughts: (continued in thread)
https://www.sqlfingers.com/2026/03/ssis-is-not-dead-yet.html
-
DataOps + FinOps: как хранить и обрабатывать данные, не переплачивая
Когда счет за облако приходит в конце месяца, а финдир молча передает вам распечатку с суммой на 40% больше прошлого месяца, это верный признак того, что проблемы начались и сами собой не решатся. Не будет такого, что сегодня перерасход есть, а завтра все вдруг придет в норму. Не придет. Данных со временем становится больше, пайплайны запускаются чаще, хранилище разрастается, а понимания куда уходят деньги из ниоткуда не появляется. И, чтобы навести порядок, используют практики DataOps и FinOps. DataOps выстраивает процессы работы с данными между командами: автоматизацию пайплайнов, контроль качества, управление изменениями и единые правила работы с данными на всех этапах обработки. FinOps делает стоимость инфраструктуры прозрачной для инженерных команд и позволяет понимать, сколько стоят архитектурные и технические решения. Когда данные о потреблении и стоимости становятся видны, появляется возможность управлять расходами и принимать обоснованные решения по инфраструктуре.
https://habr.com/ru/companies/finops_ru/articles/1012134/
#финопс #finops #практики_финопс #cloud #elt #etl #датаопс #облачные_сервисы #облачные_вычисления #itинфраструктура
-
Every data professional should understand these seven core concepts.
From data warehouses and lakes to pipelines, meshes, and governance, these form the foundation of modern analytics infrastructure.
Mastering them bridges the gap between raw data and actionable business insights.📕 https://ebokify.com/ai-data-science
#DataEngineering #DataScience #DataAnalytics #ETL #DataWarehouse #BigData #BusinessIntelligence #DataPipeline #DataGovernance
-
8 data analytics terms every aspiring analyst should know, from skewness and correlation to ETL, regression, causation, outliers, descriptive statistics, and ELT. Mastering these fundamentals strengthens your analytical thinking and decision making.
-
Geo-enabling Apache #Hop: @edigonzales has been geo-enabling the open-source #ETL tool #ApacheHop, building #GDAL/#OGR reader and writer plug-ins and adding an interactive preview for geometries: Early days, but promising progress toward a fully geo-capable data integration pipeline tool.
https://spatialists.ch/posts/2026/03/10-geo-enabling-apache-hop/ #GIS #GISchat #geospatial #SwissGIS -
Telegram-бот вместо Excel-рутины: как я автоматизировал рутину с помощью Python
Как я заменил Excel-сводные на Telegram-бота и ускорил контроль потерь на складе Я автоматизировал рутинный процесс, который постоянно отъедал время: сбор выгрузок, построение сводных в Excel, перенос результатов в Google Sheets и ручной контроль повторений. Теперь всё делается одной кнопкой в Telegram: бот берёт последний файл из папки на Яндекс.Диске, обрабатывает данные и выкладывает готовую витрину в Google Sheets. Отдельно он показывает товар, который начнёт списываться в ближайшие 24 часа — это стало не просто ускорением, а новым инструментом управления потерями. Как всё было?
https://habr.com/ru/articles/1007960/
#python #telegrambot #google_sheets #api #oauth #yandex_disk #pandas #etl #devops #автоматизация
-
[Перевод] AI и Data engineering: Что реально происходит с профессией?
Сразу успокоим читателя: AI не вытеснил data-инженера из рабочего процесса. Наоборот, он сделал эту роль еще более значимой. И в этой статье объясняется, что именно это означает для вас и вашей профессии. Не с точки зрения технологий и инструментов, а с точки зрения изменения зоны ответственности. AI, как и везде, конечно классно справляется с некоторыми задачами, но всю ответственность по-прежнему несет человек. Весь контекст не передашь через промпт, и AI не делает компромиссных решений. Большинство систем не выходят из строя, потому что было сложно написать код. Выходят потому что решения по разработке были приняты поспешно, и без четкого понимания, кто и как этими системами будет пользоваться. И AI еще быстрее за нас принимает решения, но все те же риски «непонимания контекста» остаются.
https://habr.com/ru/articles/1002036/
#ai #качество_данных #data_quality #etl #data_engineering #data_engineer #schema #модель_данных #искусственный_интеллект #инженер_данных
-
Geospatial data integration with Apache Hop: Over 100 participants joined a webinar on “Enterprise and Geodata Integration with #Apache #Hop”, highlighting interest in open, extensible geospatial #DataEngineering and #ETL. The session introduced two new geospatial Hop plugins, outlined future... @sfkeller
https://spatialists.ch/posts/2026/02/12-geospatial-data-integration-with-apache-hop/ #GIS #GISchat #geospatial #SwissGIS -
Как мы сократили Lead Time с полутора недель до четырёх часов
Привет! Меня зовут Антон, я ведущий программист департамента аналитических решений ЮMoney. Хочу поделиться историей о том, как наша команда ускорила один из самых рутинных процессов в работе дата-инженера — загрузку информации из нового источника данных в хранилище. Мы не просто оптимизировали процесс, а практически свели к нулю многодневную рутину и тем самым высвободили время для решения более интересных задач. Наше технологичное решение помогает превратить сложный и долгий процесс в понятный и быстрый. Если вы строите хранилище данных, развиваете data-платформу или просто устали от однотипных ETL-задач, отнимающих недели, — этот разбор будет вам полезен. Покажу, какие архитектурные решения мы рассматривали и что в итоге сработало.
https://habr.com/ru/companies/yoomoney/articles/995720/
#dwh #etl #lead_time #кодогенерация #метаданные #платформенный_подход
-
#ApacheHop got a new release 2.17 last week :)
This is one awesome #ETL tool and even though I cannot contribute anything in code to this project, I try to find and submit bugs and documentation issues whenever I can! -
Medallion в ClickHouse: DWH без миграций схемы
Десять запросов — и ты уже думаешь об индексах. Тысячи запросов — и начинаешь молиться на базу. Миллионы строк — и ищешь, как поделить данные на кластера. А триллионы? Ты уже не инженер. Ты смотритель в зоопарке. И пока ты строишь этот цирк из движков, ответ был прямо перед тобой. В том самом «движке для отчётов», который уже стоит у тебя в углу. Может, покончить со зверинцем БД? Логи, метрики, векторы, живые данные — можно просто положить в один движок. И он давно у вас есть, и, кажется, пора дать ему работать.
https://habr.com/ru/articles/991588/
#ClickHouse #PostgreSQL #Data_Engineering #DWH #Medallion_Architecture #ETL #PeerDB #Realtime_analytics #Data_Vault
-
Medallion в ClickHouse: DWH без миграций схемы
Десять запросов — и ты уже думаешь об индексах. Тысячи запросов — и начинаешь молиться на базу. Миллионы строк — и ищешь, как поделить данные на кластера. А триллионы? Ты уже не инженер. Ты смотритель в зоопарке. И пока ты строишь этот цирк из движков, ответ был прямо перед тобой. В том самом «движке для отчётов», который уже стоит у тебя в углу. Может, покончить со зверинцем БД? Логи, метрики, векторы, живые данные — можно просто положить в один движок. И он давно у вас есть, и, кажется, пора дать ему работать.
https://habr.com/ru/articles/991588/
#ClickHouse #PostgreSQL #Data_Engineering #DWH #Medallion_Architecture #ETL #PeerDB #Realtime_analytics #Data_Vault