#data_catalog — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #data_catalog, aggregated by home.social.
-
Data catalog есть, а пользы нет: Частые ошибки внедрения
Data governance, data mesh, modern data stack, data lineage – столько разных data, столько разных популярных подходов и инструментов. Лидером по популярности (на мой скромный взгляд) среди всех них является data catalog. Многие говорят о нем, многие хотят его, многие уже внедрили. Но внедрить это одно дело, а вот получить от него пользу – дело совсем другое. Мы сформировали список самых частых проблем, основанные не только на нашем опыте, но и на опыте наших коллег, проанализировав множество статей и материалов на эту тему.
https://habr.com/ru/articles/1003158/
#data_catalog #data_governance #openmetadata #datahub #ai #metadata #метаданные #каталог_данных #управление_данными #data_quality
-
Хороший, плохой, злой: База данных, data catalog и AI
Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде всего свою работу в некоторых аспектах. И первым инструментом сделали генерацию бизнес-описания на основе AI. Назвали Datadesc (data + description). Об этом опыте и пойдет речь в этой статье.
https://habr.com/ru/articles/996288/
#dwh #sql #data_catalog #openmetadata #datahub #data_engineering #data_analyst #semantic #arenadata_catalog #ai
-
Хороший, плохой, злой: База данных, data catalog и AI
Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде всего свою работу в некоторых аспектах. И первым инструментом сделали генерацию бизнес-описания на основе AI. Назвали Datadesc (data + description). Об этом опыте и пойдет речь в этой статье.
https://habr.com/ru/articles/996288/
#dwh #sql #data_catalog #openmetadata #datahub #data_engineering #data_analyst #semantic #arenadata_catalog #ai
-
Хороший, плохой, злой: База данных, data catalog и AI
Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде всего свою работу в некоторых аспектах. И первым инструментом сделали генерацию бизнес-описания на основе AI. Назвали Datadesc (data + description). Об этом опыте и пойдет речь в этой статье.
https://habr.com/ru/articles/996288/
#dwh #sql #data_catalog #openmetadata #datahub #data_engineering #data_analyst #semantic #arenadata_catalog #ai
-
Хороший, плохой, злой: База данных, data catalog и AI
Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде всего свою работу в некоторых аспектах. И первым инструментом сделали генерацию бизнес-описания на основе AI. Назвали Datadesc (data + description). Об этом опыте и пойдет речь в этой статье.
https://habr.com/ru/articles/996288/
#dwh #sql #data_catalog #openmetadata #datahub #data_engineering #data_analyst #semantic #arenadata_catalog #ai
-
Как найти свой путь в дата-инженерии и управлять петабайтами данных
На первый взгляд работа с данными может показаться скучной, состоящей из перетаскивания данных из одного хранилища в другое. В этом действительно есть часть правды :) но не вся правда… Если присмотреться, мы увидим, что дата-инженеры помогают компаниям сокращать время на поиск инсайтов, обучение моделей и понимание нужд пользователей. Данные — это новая нефть, поэтому важно понимать, как правильно их организовывать и какие сложности в работе могут повлиять на успешность бизнеса. Привет, Хабр! Меня зовут Алёна Катренко, и я уже больше 10 лет работаю с данными. Сейчас занимаю позицию руководителя платформы данных в Циане, но начинала как BigData-инженер в Неофлексе. Сегодня расскажу, как мы приручали петабайты данных, искали призраков забытых таблиц и нашли инструмент, который сделал работу с метаданными понятной, безопасной и полезной для бизнеса. А ещё о том, как сейчас развиваться дату-инженеру, чтобы успевать за тенденциями на рынке.
https://habr.com/ru/companies/oleg-bunin/articles/940392/
#data_engineering #data_catalog #cloud_native #data_governance #data_ownership #amundsen #arenadata_catalog #data_lineage #scala #комьюнити
-
[Перевод] StarRocks и Trino: сходства, различия, бенчмарки и кейсы
Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций. Со временем потребности пользователей в аналитике эволюционировали. С ростом мобильного интернета и SaaS-приложений критически важной стала оперативная (в том числе потоковая) аналитика. Компаниям потребовались более производительные движки, поддерживающие большое число одновременных запросов и обеспечивающие низкие задержки. На этом фоне всё больше пользователей стали искать альтернативы. StarRocks как новый аналитический движок получил широкое признание отрасли. Он демонстрирует заметные преимущества по производительности, поддержке высокой степени параллелизма и низкой задержке, привлекая внимание крупных компаний, таких как WeChat , Xiaohongshu (RedNote), Ctrip, Beike и др. Как именно StarRocks формирует свои преимущества? В чём его сходства и различия с Trino? Ниже — подробный разбор.
https://habr.com/ru/articles/939370/
#starrocks #trino #presto #векторизация #simd #материализованные_представления #query_rewrite #data_catalog #lakehouse #lakehouseплатформа_данных