#data_governance — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #data_governance, aggregated by home.social.
-
Как мы строили MVP data lineage системы в ЮMoney
Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других. В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы. Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.
https://habr.com/ru/companies/yoomoney/articles/1027068/
#data_lineage #etl #elt #dwh #neo4j #kafka #cypher #data_governance #mvp #метаданные
-
Как мы строили MVP data lineage системы в ЮMoney
Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других. В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы. Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.
https://habr.com/ru/companies/yoomoney/articles/1027068/
#data_lineage #etl #elt #dwh #neo4j #kafka #cypher #data_governance #mvp #метаданные
-
Как мы строили MVP data lineage системы в ЮMoney
Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других. В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы. Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.
https://habr.com/ru/companies/yoomoney/articles/1027068/
#data_lineage #etl #elt #dwh #neo4j #kafka #cypher #data_governance #mvp #метаданные
-
Как мы строили MVP data lineage системы в ЮMoney
Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других. В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы. Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.
https://habr.com/ru/companies/yoomoney/articles/1027068/
#data_lineage #etl #elt #dwh #neo4j #kafka #cypher #data_governance #mvp #метаданные
-
От формального качества к реальной пользе: как избежать потери доверия к данным и снижения их бизнес-ценности
Внедрение современных инструментов Data Governance (управления данными) часто воспринимается как финальная точка в построении культуры работы с данными. Компании инвестируют в Data Quality-проверки (качества данных), создают каталоги данных и выстраивают красивые дашборды, которые сигнализируют о полном порядке. Однако на практике бизнес часто обнаруживает, что за фасадом «зеленых галочек» скрывается хаос: отчеты не сходятся, ключевые метрики вызывают вопросы, а доверие к аналитике падает. Этот разрыв между формальным качеством данных и их реальной ценностью для бизнеса приводит к финансовым потерям и неверным управленческим решениям. Меня зовут Сергей Петриченко. Я продуктовый менеджер VK Data Platform . В этой статье я покажу типовой путь компании и расскажу, как сделать работу с данными не самоцелью для ИТ, а инструментом, который полезен для бизнеса.
-
Объясняю на пальцах — зачем твоему бизнесу каталог данных
Статья носит исключительно образовательный/ознакомительный характер. Она не служит цели, рекламировать какой-либо инструмент или ПО. Все наименования программного обеспечения, упомянутые в статье приведены из личного опыта. Ну-ка что там
https://habr.com/ru/articles/1020142/
#openmetadata #каталог_данных #датакаталог #datacatalog #data_governance #управление_данными #big_data #datahub #data #datadriven
-
Reference Data Management по-русски: что мы называем НСИ и почему это не всегда RDM
В российских проектах НСИ часто выходит далеко за рамки справочников и включает задачи MDM и Data Quality. Разбираемся, чем это отличается от классического RDM и к чему это приводит.
https://habr.com/ru/companies/datasapience/articles/1012404/
#RDM #НСИ #Reference_Data_Management #MDM #Master_Data_Management #Data_Quality #Справочные_данные #Управление_данными #Data_governance
-
Reference Data Management по-русски: что мы называем НСИ и почему это не всегда RDM
В российских проектах НСИ часто выходит далеко за рамки справочников и включает задачи MDM и Data Quality. Разбираемся, чем это отличается от классического RDM и к чему это приводит.
https://habr.com/ru/companies/datasapience/articles/1012404/
#RDM #НСИ #Reference_Data_Management #MDM #Master_Data_Management #Data_Quality #Справочные_данные #Управление_данными #Data_governance
-
Как мы прокачиваем HealthScore для 6000+ витрин и готовим DWH к AI
Привет! Меня зовут Дмитрий Мележиков, я отвечаю за BI в домене Маркетинг и участвую в общих DWH/BI-проектах Авито. В статье рассказываю, как мы построили систему HealthScore — метрику здоровья данных. От математической модели и пайплайна сбора метаданных до процесса массовой очистки. А ещё вы узнаете, почему HealthScore и сертификация витрин важны для AI Copilot. Без белого списка доверенных витрин ассистент может масштабировать ошибки так же быстро, как и инсайты.
https://habr.com/ru/companies/avito/articles/1011332/
#dwh #data_engineering #data_quality #data_governance #bi #каталог_данных #управление_метаданными #avito
-
Data catalog есть, а пользы нет: Частые ошибки внедрения
Data governance, data mesh, modern data stack, data lineage – столько разных data, столько разных популярных подходов и инструментов. Лидером по популярности (на мой скромный взгляд) среди всех них является data catalog. Многие говорят о нем, многие хотят его, многие уже внедрили. Но внедрить это одно дело, а вот получить от него пользу – дело совсем другое. Мы сформировали список самых частых проблем, основанные не только на нашем опыте, но и на опыте наших коллег, проанализировав множество статей и материалов на эту тему.
https://habr.com/ru/articles/1003158/
#data_catalog #data_governance #openmetadata #datahub #ai #metadata #метаданные #каталог_данных #управление_данными #data_quality
-
Обзор Lakehouse: архитектура, которая объединяет порядок и хаос
Вопрос: что же такого прорывного добавили в архитектуру, чтобы она стала считаться чем-то новым с точки зрения инженеров, а не маркетологов ? Ответ: фундаментально изменилась парадигма хранения и обработки данных. В отличие от традиционных подходов, где Data Warehouse оперировал исключительно структурированными данными в табличной форме, а Data Lake работал с файлами в их исходном виде, разработчики Lakehouse сумели соединить лучшие качества обеих архитектур. Ключевым отличием стал формат OTF — Open Table Format, через который удалось реализовать единый стандарт доступа к данным и 4 технологически-культурных сдвига. Перечислю их: ...
https://habr.com/ru/companies/cinimex/articles/978522/
#lakehouse #data_lakehouse #delta_lake #iceberg #otf #data_warehouse #data_lake #архитектура_данных #управление_данными #data_governance
-
Почему каталог данных превращается в кладбище и как это исправить
Кажется, о внедрении каталога данных не написал только ленивый. Каждая крупная компания так или иначе к этому (каталогу) приходит. Пробует разные решения и методологию. У кого-то успешно только на презентации для совета директоров (чаще всего), у кого-то на деле. Здесь же я хочу рассказать не о том, как заполнять каталог или какой выбрать. А о том, что нужно сделать, прежде чем переходить к покупке/запуску этого каталога. Для тех, кто уже имеет такого зверя в своем зоопарке, но с ним что-то не так, думаю, тоже будет полезно. Если вы один из счастливчиков, у кого каталог действительно взлетел, можете дальше не читать. Однако что-то мне подсказывает, что таких будет не много. Осторожно, статья-детектор.
https://habr.com/ru/articles/977014/
#каталог_данных #управление_разработкой #управление_продуктом #управление_данными #data_governance #data_catalog
-
Как найти свой путь в дата-инженерии и управлять петабайтами данных
На первый взгляд работа с данными может показаться скучной, состоящей из перетаскивания данных из одного хранилища в другое. В этом действительно есть часть правды :) но не вся правда… Если присмотреться, мы увидим, что дата-инженеры помогают компаниям сокращать время на поиск инсайтов, обучение моделей и понимание нужд пользователей. Данные — это новая нефть, поэтому важно понимать, как правильно их организовывать и какие сложности в работе могут повлиять на успешность бизнеса. Привет, Хабр! Меня зовут Алёна Катренко, и я уже больше 10 лет работаю с данными. Сейчас занимаю позицию руководителя платформы данных в Циане, но начинала как BigData-инженер в Неофлексе. Сегодня расскажу, как мы приручали петабайты данных, искали призраков забытых таблиц и нашли инструмент, который сделал работу с метаданными понятной, безопасной и полезной для бизнеса. А ещё о том, как сейчас развиваться дату-инженеру, чтобы успевать за тенденциями на рынке.
https://habr.com/ru/companies/oleg-bunin/articles/940392/
#data_engineering #data_catalog #cloud_native #data_governance #data_ownership #amundsen #arenadata_catalog #data_lineage #scala #комьюнити
-
Data Governance и Бизнес: как найти общий язык
«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!» «Нам нужны качественные данные, а вы все про свои процессы!» «Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!» Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы. Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе: 1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу. 2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу. 3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня. Как же выстроить эффективный диалог между DG и бизнесом?
https://habr.com/ru/articles/899080/
#data_governance #data_management #data #управление_данными #data_quality #качество_данных #data_catalog #dwh
-
Бизнес-глоссарий и Каталог Данных
Что такое «Каталог Данных»? Это список «чистых» и готовых к использованию данных, которые можно использовать для интеграции или формирования витрин данных – Datamart для построения отчетности или дашбордов, или для предоставления аналитикам и бизнес-пользователям («Гражданским Аналитикам») для самостоятельно (Self-Service) аналитики, когда они смогут самостоятельно построить необходимую им отчетность, не прибегая к помощи специалистов по управлению данными или, тем более, ИТ-отдела, для которого управление данными и разработка отчетности явно не является приоритетной задачей. Каталогизация данных, в свою очередь предполагает наличие программного продукта для хранения списка каталогизированных данных и их описания (метаданных) — «Каталога Данных». Но дело в то, что еще до формирования каталога данных и проектов по очистке данных должны быть другие проекты: в первую очередь я говорю про бизнес-глоссарий, в котором бизнес расписывается кровью, что означает тот или иной показатель.
https://habr.com/ru/articles/892318/
#data_governance #data_lineage #каталог_данных #описание_бизнеспроцессов
-
Что подразумевают под Data Governance?
Если говорить про Data Governance, то это, в первую очередь, не продукты, а огромная методология управления жизненным циклом данных, и только потом – технологии. Близко к идеалу считается методология DAMA-DMBOK, и у любого специалиста по данным это должна быть настольная книга. К сожалению, в подавляющем большинстве случаев, когда люди начинают задумываться про управление данных, она попросту неприменима, так как она показывает «правильное» управление данными больших предприятий, до неё еще надо «дорасти», при этом точечно применяя сначала простые приемы, с возможностью расширения методик управления данными как «вширь», на другие отделы, так в «вглубь» на все процессы, связанные с управлением данными (Data Management): получением («добычей»), обработкой, хранением, извлечением и использованием информации. Без подобного управления жизненным циклом данных получим картину как в последнем исследовании Makves , что 40% данных никогда не используется: к ним не зафиксировано ни одного обращения за 5 лет. Найти «Ценность в данных» становится искусством, так как на предприятии растут «Кладбища данных» вместо «Хранилищ данных». Сейчас зачастую под Data Governance имеют в виду две части, это Data Quality – управление качеством данных, и Data Linage – «понять, откуда пришли данные, как они изменялись и можно ли им доверять». Если данные методологии использовать «в лоб», то это очень сильно замедлит разработку и перегрузит команду по управлению данными.
-
Что такое Data Driven подход
В современном мире бизнес сталкивается с необходимостью постоянно принимать решения. От их качества зависит не только успех отдельных проектов, но и будущее всей компании. В этой статье мы разберём основные подходы к принятию решений в бизнесе и узнаем, почему компании всё чаще строят свою работу на данных. А ещё расскажу о роли, без которой data-driven подход попросту невозможен – о роли дата-инженера.
https://habr.com/ru/articles/856920/
#data_driven #data_engineering #data_engineer #дата_инженер #дата_инжиниринг #принятие_решение_в_компаниях #data_governance #аналитика #аналитика_данных #рост_компании
-
Business intelligence и качество исходных данных
Сегодня бизнес хочет принимать решения, основываясь на данных, а не на ощущениях, тем более что сейчас для этого есть все возможности. Предприятия накопили терабайты и эксабайты данных, их количество растет в геометрической прогрессии каждый день. Как повлиял ковид на ценообразование загородной недвижимости? Какой регион выбрать для новой мебельной фабрики? Вложиться в жилой комплекс эконом или бизнес-класса? Какие факторы влияют на продление ДМС? Как должно работать индивидуальное автострахование? В наши дни ты должен быть data-driven или проиграешь. Сырые данные предприятия проходят большой путь, чтобы превратиться в управленческие решения. Этот путь включает такие шаги как:
https://habr.com/ru/articles/798515/
#business_intelligence #качество_данных #качество_данных_(data_quality) #master_data_management #data_hub #data_quality #data_governance