#data_quality — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-19 · 07:12 UTC

Что вы не знаете о СНИЛС – и почему это самый важный документ

Гражданина РФ можно однозначно идентифицировать по нескольким документам. Например, по паспорту. Но по актуальным законам с 21 года отметка о ранее выданном паспорте стала необязательной. Если человек поменял паспорт и фамилию, то его невозможно увязать со старым профилем. Можно было использовать телефон (идея так себе), медполис, ИНН, СНИЛС и ещё пару документов. СНИЛС оказался самым стабильным и надёжным, и поэтому он сейчас постепенно становится основным документом для многих систем. Когда я впервые услышал про «проблему СНИЛС в банковских системах», мне показалось, что это что-то скучное из разряда HR-документооборота. Зелёная ламинированная карточка, которую вы получили один раз и забыли в ящике стола. Но, собственно, во-первых, вы, возможно, про него многое не знаете, а во-вторых, оказалось, что там не всё так просто.

https://habr.com/ru/companies/gazprombank/articles/1036320/

#СНИЛС #идентификация_клиентов #банки #mdm #клиентские_данные #sfr #смэв #пенсионный_фонд #data_quality

#data_quality #пенсионный_фонд #смэв #sfr #клиентские_данные #mdm

Habr @[email protected] · 2026-05-19 · 07:12 UTC

Что вы не знаете о СНИЛС – и почему это самый важный документ

Гражданина РФ можно однозначно идентифицировать по нескольким документам. Например, по паспорту. Но по актуальным законам с 21 года отметка о ранее выданном паспорте стала необязательной. Если человек поменял паспорт и фамилию, то его невозможно увязать со старым профилем. Можно было использовать телефон (идея так себе), медполис, ИНН, СНИЛС и ещё пару документов. СНИЛС оказался самым стабильным и надёжным, и поэтому он сейчас постепенно становится основным документом для многих систем. Когда я впервые услышал про «проблему СНИЛС в банковских системах», мне показалось, что это что-то скучное из разряда HR-документооборота. Зелёная ламинированная карточка, которую вы получили один раз и забыли в ящике стола. Но, собственно, во-первых, вы, возможно, про него многое не знаете, а во-вторых, оказалось, что там не всё так просто.

https://habr.com/ru/companies/gazprombank/articles/1036320/

#СНИЛС #идентификация_клиентов #банки #mdm #клиентские_данные #sfr #смэв #пенсионный_фонд #data_quality

#data_quality #пенсионный_фонд #смэв #sfr #клиентские_данные #mdm

Habr @[email protected] · 2026-05-19 · 07:12 UTC

Что вы не знаете о СНИЛС – и почему это самый важный документ

Гражданина РФ можно однозначно идентифицировать по нескольким документам. Например, по паспорту. Но по актуальным законам с 21 года отметка о ранее выданном паспорте стала необязательной. Если человек поменял паспорт и фамилию, то его невозможно увязать со старым профилем. Можно было использовать телефон (идея так себе), медполис, ИНН, СНИЛС и ещё пару документов. СНИЛС оказался самым стабильным и надёжным, и поэтому он сейчас постепенно становится основным документом для многих систем. Когда я впервые услышал про «проблему СНИЛС в банковских системах», мне показалось, что это что-то скучное из разряда HR-документооборота. Зелёная ламинированная карточка, которую вы получили один раз и забыли в ящике стола. Но, собственно, во-первых, вы, возможно, про него многое не знаете, а во-вторых, оказалось, что там не всё так просто.

https://habr.com/ru/companies/gazprombank/articles/1036320/

#СНИЛС #идентификация_клиентов #банки #mdm #клиентские_данные #sfr #смэв #пенсионный_фонд #data_quality

#data_quality #пенсионный_фонд #смэв #sfr #клиентские_данные #mdm

Habr @[email protected] · 2026-05-19 · 07:12 UTC

Что вы не знаете о СНИЛС – и почему это самый важный документ

Гражданина РФ можно однозначно идентифицировать по нескольким документам. Например, по паспорту. Но по актуальным законам с 21 года отметка о ранее выданном паспорте стала необязательной. Если человек поменял паспорт и фамилию, то его невозможно увязать со старым профилем. Можно было использовать телефон (идея так себе), медполис, ИНН, СНИЛС и ещё пару документов. СНИЛС оказался самым стабильным и надёжным, и поэтому он сейчас постепенно становится основным документом для многих систем. Когда я впервые услышал про «проблему СНИЛС в банковских системах», мне показалось, что это что-то скучное из разряда HR-документооборота. Зелёная ламинированная карточка, которую вы получили один раз и забыли в ящике стола. Но, собственно, во-первых, вы, возможно, про него многое не знаете, а во-вторых, оказалось, что там не всё так просто.

https://habr.com/ru/companies/gazprombank/articles/1036320/

#СНИЛС #идентификация_клиентов #банки #mdm #клиентские_данные #sfr #смэв #пенсионный_фонд #data_quality

#снилс #идентификация_клиентов #банки #mdm #клиентские_данные #sfr

Habr @[email protected] · 2026-04-23 · 14:02 UTC

AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU

Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие out of scope детекторы, либо неудобны и требуют расширенной экспертизы для использования. Для того чтобы решить эти проблемы, мы в MWS AI разработали OpenAutoNLU — опенсорс-библиотеку для NLU, включающую диагностику качества данных, гибко настраиваемый пайплайн обучения модуля фильтра запросов, которые не относятся ни к одному из известных текстовых классификаторов меток OOD, и функции LLM. Делимся ей на GitHub . Под катом разберу, как устроен фреймворк, за счет чего он работает с минимальным вмешательством разработчика и какие результаты уже есть. Поехали!

https://habr.com/ru/companies/mts_ai/articles/1027072/

#nlu #nlp #transformers #data_quality #automl #opensource #ml #искусственный_интеллект #обработка_естественного_языка #автоматизация

#автоматизация #обработка_естественного_языка #искусственный_интеллект #ml #opensource #automl

Habr @[email protected] · 2026-04-23 · 14:02 UTC

AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU

Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие out of scope детекторы, либо неудобны и требуют расширенной экспертизы для использования. Для того чтобы решить эти проблемы, мы в MWS AI разработали OpenAutoNLU — опенсорс-библиотеку для NLU, включающую диагностику качества данных, гибко настраиваемый пайплайн обучения модуля фильтра запросов, которые не относятся ни к одному из известных текстовых классификаторов меток OOD, и функции LLM. Делимся ей на GitHub . Под катом разберу, как устроен фреймворк, за счет чего он работает с минимальным вмешательством разработчика и какие результаты уже есть. Поехали!

https://habr.com/ru/companies/mts_ai/articles/1027072/

#nlu #nlp #transformers #data_quality #automl #opensource #ml #искусственный_интеллект #обработка_естественного_языка #автоматизация

#nlu #nlp #transformers #data_quality #automl #opensource

Habr @[email protected] · 2026-04-23 · 14:02 UTC

AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU

Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие out of scope детекторы, либо неудобны и требуют расширенной экспертизы для использования. Для того чтобы решить эти проблемы, мы в MWS AI разработали OpenAutoNLU — опенсорс-библиотеку для NLU, включающую диагностику качества данных, гибко настраиваемый пайплайн обучения модуля фильтра запросов, которые не относятся ни к одному из известных текстовых классификаторов меток OOD, и функции LLM. Делимся ей на GitHub . Под катом разберу, как устроен фреймворк, за счет чего он работает с минимальным вмешательством разработчика и какие результаты уже есть. Поехали!

https://habr.com/ru/companies/mts_ai/articles/1027072/

#nlu #nlp #transformers #data_quality #automl #opensource #ml #искусственный_интеллект #обработка_естественного_языка #автоматизация

#автоматизация #обработка_естественного_языка #искусственный_интеллект #ml #opensource #automl

Habr @[email protected] · 2026-04-23 · 14:02 UTC

AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU

Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие out of scope детекторы, либо неудобны и требуют расширенной экспертизы для использования. Для того чтобы решить эти проблемы, мы в MWS AI разработали OpenAutoNLU — опенсорс-библиотеку для NLU, включающую диагностику качества данных, гибко настраиваемый пайплайн обучения модуля фильтра запросов, которые не относятся ни к одному из известных текстовых классификаторов меток OOD, и функции LLM. Делимся ей на GitHub . Под катом разберу, как устроен фреймворк, за счет чего он работает с минимальным вмешательством разработчика и какие результаты уже есть. Поехали!

https://habr.com/ru/companies/mts_ai/articles/1027072/

#nlu #nlp #transformers #data_quality #automl #opensource #ml #искусственный_интеллект #обработка_естественного_языка #автоматизация

#автоматизация #обработка_естественного_языка #искусственный_интеллект #ml #opensource #automl

Habr @[email protected] · 2026-03-24 · 09:22 UTC

Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.

https://habr.com/ru/companies/kryptonite/articles/1014180/

#data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT

#карьера_в_it #etl #great_expectations #quality_assurance #качество_данных #soda

Habr @[email protected] · 2026-03-24 · 09:22 UTC

Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.

https://habr.com/ru/companies/kryptonite/articles/1014180/

#data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT

#карьера_в_it #etl #great_expectations #quality_assurance #качество_данных #soda

Habr @[email protected] · 2026-03-24 · 09:22 UTC

Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.

https://habr.com/ru/companies/kryptonite/articles/1014180/

#data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT

#карьера_в_it #etl #great_expectations #quality_assurance #качество_данных #soda

Habr @[email protected] · 2026-03-24 · 09:22 UTC

Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.

https://habr.com/ru/companies/kryptonite/articles/1014180/

#data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT

#data_quality #qa_engineer #data_driven #openmetadata #soda #качество_данных

Habr @[email protected] · 2026-03-20 · 07:42 UTC

Reference Data Management по-русски: что мы называем НСИ и почему это не всегда RDM

В российских проектах НСИ часто выходит далеко за рамки справочников и включает задачи MDM и Data Quality. Разбираемся, чем это отличается от классического RDM и к чему это приводит.

https://habr.com/ru/companies/datasapience/articles/1012404/

#RDM #НСИ #Reference_Data_Management #MDM #Master_Data_Management #Data_Quality #Справочные_данные #Управление_данными #Data_governance

#data_governance #управление_данными #справочные_данные #data_quality #master_data_management #mdm

Habr @[email protected] · 2026-03-17 · 15:22 UTC

Как мы прокачиваем HealthScore для 6000+ витрин и готовим DWH к AI

Привет! Меня зовут Дмитрий Мележиков, я отвечаю за BI в домене Маркетинг и участвую в общих DWH/BI-проектах Авито. В статье рассказываю, как мы построили систему HealthScore — метрику здоровья данных. От математической модели и пайплайна сбора метаданных до процесса массовой очистки. А ещё вы узнаете, почему HealthScore и сертификация витрин важны для AI Copilot. Без белого списка доверенных витрин ассистент может масштабировать ошибки так же быстро, как и инсайты.

https://habr.com/ru/companies/avito/articles/1011332/

#dwh #data_engineering #data_quality #data_governance #bi #каталог_данных #управление_метаданными #avito

#avito #управление_метаданными #каталог_данных #bi #data_governance #data_quality

Habr @[email protected] · 2025-12-22 · 09:32 UTC

Хроники тестирования Data Quality

В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность для различных сценариев проверки данных. Эта статья будет интересна и полезна Data-инженерам, аналитикам данных и специалистам Data Quality для выбора оптимального метода валидации данных в зависимости от стека технологий и сложности бизнес-логики. Материал ориентирован на начинающий уровень подготовки: тем, кто еще не сталкивался системно с инструментами управления качеством данных. Привет, Хабр! Меня зовут Мария, я Data-инженер в SimbirSoft, и предлагаю для начала немного познакомиться с каждым из вышеперечисленных инструментов. Читать далее ⚡

https://habr.com/ru/companies/simbirsoft/articles/978504/

#data_engineering #data_quality #dbt #sql #python #pandas #great_expectations #sqlalchemy #greenplum

#greenplum #sqlalchemy #great_expectations #pandas #python #sql

Habr @[email protected] · 2025-04-14 · 10:22 UTC

Как я оставила печати и взяла SQL: путь к Data Quality

Привет, Хабр! Когда-то я проверяла завещания и готовила доверенности, а теперь проверяю витрины данных, ищу дубли и считаю доходность по инвестиционным инструментам. Меня зовут Арина Шахтарина, и я — Data Quality-инженер в Сбере. Это история о том, как любовь к данным и таблицам превратилась в новую профессию, и почему SQL — лучший универсальный язык после русского. Тут будет про карьерные повороты, боли с форматами данных, проверки данных и немного про мечты, которые сбываются (даже если ты не в отпуске).

https://habr.com/ru/companies/oleg-bunin/articles/899742/

#качество_данных #dq #data_quality #пайплайн #коммуникации #bi #sql #бизнеслогика #базы_данных #Data_Internals

#качество_данных #dq #data_quality #пайплайн #коммуникации #bi

Habr @[email protected] · 2026-02-24 · 15:02 UTC

Data catalog есть, а пользы нет: Частые ошибки внедрения

Data governance, data mesh, modern data stack, data lineage – столько разных data, столько разных популярных подходов и инструментов. Лидером по популярности (на мой скромный взгляд) среди всех них является data catalog. Многие говорят о нем, многие хотят его, многие уже внедрили. Но внедрить это одно дело, а вот получить от него пользу – дело совсем другое. Мы сформировали список самых частых проблем, основанные не только на нашем опыте, но и на опыте наших коллег, проанализировав множество статей и материалов на эту тему.

https://habr.com/ru/articles/1003158/

#data_catalog #data_governance #openmetadata #datahub #ai #metadata #метаданные #каталог_данных #управление_данными #data_quality

#data_quality #управление_данными #каталог_данных #метаданные #metadata #ai

Habr @[email protected] · 2024-11-29 · 16:32 UTC

Качественные данные для среднего бизнеса: почему без промышленной платформы интеграции не обойтись?

Качество данных и его значение для среднего бизнеса. Что такое качество данных? Почему качество данных так важно для среднего бизнеса? Кто относится к среднему бизнесу в России? Основные риски низкого качества данных. Основные рекомендации по выбору решений.

https://habr.com/ru/articles/862476/

#Данные #mdm #mdmсистема #mdm_и_бизнесглоссарий #esb #data #базы_данных #data_quality #dq #datareon

#datareon #dq #data_quality #базы_данных #data #esb

Habr @[email protected] · 2025-04-03 · 14:12 UTC

Автоматизация задач без кодинга: единый реестр, система управления проектами и таск-трекер на основе MWS Tables

Привет, Хабр! Меня зовут Александр Антипов, я продакт-оунер MWS Tables. Раньше казалось, что «опытные пользователи ПК» — исчезающий вид, но реальность другая: сегодня сотрудники не просто работают с технологиями, а сами автоматизируют рутинные процессы. Без разработчиков и сложных систем — с помощью макросов, таблиц, SharePoint и других инструментов. Полтора года назад мы в МТС создали для таких кейсов MWS Tables — внутреннюю платформу самостоятельной автоматизации. В этом посте — реальные примеры, как MWS Tables уже применяется на практике. Я покажу, как с помощью MWS Tables реализовали единый реестр для работы с качеством данных, централизованную систему по менеджменту IT-проектов и собственный таск-трекер. Все подробности — под катом.

https://habr.com/ru/companies/ru_mts/articles/897068/

#lowcode #no_code #MWS_Tables #прототипирование #программирование #проектирование_систем #tabs #data_quality #качество_данных

#lowcode #no_code #mws_tables #прототипирование #программирование #проектирование_систем

Habr @[email protected] · 2025-08-16 · 06:22 UTC

WAP паттерн в data-engineering

Несмотря на бурное развитие дата инжиниринга, WAP паттерн долгое время незаслуженно обходят стороной. Кто-то слышал о нем, но не применяет. Кто-то применяет, но интуитивно. В этой статье хочу на примере детально описать паттерн работы с данными, которому уже почти 8 лет, но за это время ни одна статья не была написана с принципом работы.

https://habr.com/ru/articles/937738/

#data_engineering #bigdata #big_data #data_warehouse #data_quality #warehouse #datalake #etl

#etl #datalake #warehouse #data_quality #data_warehouse #big_data

Habr @[email protected] · 2026-02-20 · 17:42 UTC

[Перевод] AI и Data engineering: Что реально происходит с профессией?

Сразу успокоим читателя: AI не вытеснил data-инженера из рабочего процесса. Наоборот, он сделал эту роль еще более значимой. И в этой статье объясняется, что именно это означает для вас и вашей профессии. Не с точки зрения технологий и инструментов, а с точки зрения изменения зоны ответственности. AI, как и везде, конечно классно справляется с некоторыми задачами, но всю ответственность по-прежнему несет человек. Весь контекст не передашь через промпт, и AI не делает компромиссных решений. Большинство систем не выходят из строя, потому что было сложно написать код. Выходят потому что решения по разработке были приняты поспешно, и без четкого понимания, кто и как этими системами будет пользоваться. И AI еще быстрее за нас принимает решения, но все те же риски «непонимания контекста» остаются.

https://habr.com/ru/articles/1002036/

#ai #качество_данных #data_quality #etl #data_engineering #data_engineer #schema #модель_данных #искусственный_интеллект #инженер_данных

#инженер_данных #искусственный_интеллект #модель_данных #schema #data_engineer #data_engineering

Habr @[email protected] · 2026-03-20 · 07:42 UTC

Reference Data Management по-русски: что мы называем НСИ и почему это не всегда RDM

В российских проектах НСИ часто выходит далеко за рамки справочников и включает задачи MDM и Data Quality. Разбираемся, чем это отличается от классического RDM и к чему это приводит.

https://habr.com/ru/companies/datasapience/articles/1012404/

#RDM #НСИ #Reference_Data_Management #MDM #Master_Data_Management #Data_Quality #Справочные_данные #Управление_данными #Data_governance

#data_governance #управление_данными #справочные_данные #data_quality #master_data_management #mdm

Habr @[email protected] · 2025-10-29 · 11:32 UTC

DataHub не заменил наш самописный дата-каталог — и это нормально. Оптимизируем работу с метаданными

В Островке мы строим экосистему вокруг данных — от хранилищ и пайплайнов до систем мониторинга и каталогов. Но когда всё только начиналось, под часть наших процессов просто не существовало готовых решений. Так появился наш собственный дата-каталог DataPortal — лёгкий, быстрый и идеально подходящий для небольшой компании. Со временем всё изменилось: объём данных вырос в десятки раз, появились новые команды, и вместе с этим начали звучать вопросы вроде «где лежат данные для этого дашборда?», «кому писать, если он упал?» и «можно ли этим данным доверять?». Так мы поняли, что пора взрослеть — и искать инструмент, который поможет масштабировать не только инфраструктуру, но и дата-культуру . Мы выбрали DataHub — open-source каталог, обещавший прозрачность, автоматизацию и гибкость. Развернули, подключили источники, построили lineage, и даже порадовались, что всё заработало с первого раза. А потом стало ясно: DataHub не заменил наш DataPortal. Более того, оба инструмента отлично дополнили друг друга — инженерное ядро и удобное окно в данные для бизнеса. Почему два дата-каталога оказались лучше одного, как это повлияло на культуру работы с данными и что нам дал DataHub помимо красивых графов lineage — рассказываем под катом.

https://habr.com/ru/companies/ostrovok/articles/961196/

#датакаталог #datahub #управление_данными #data_quality #метаданные

#метаданные #data_quality #управление_данными #datahub #датакаталог

Habr @[email protected] · 2024-03-06 · 14:42 UTC

Business intelligence и качество исходных данных

Сегодня бизнес хочет принимать решения, основываясь на данных, а не на ощущениях, тем более что сейчас для этого есть все возможности. Предприятия накопили терабайты и эксабайты данных, их количество растет в геометрической прогрессии каждый день. Как повлиял ковид на ценообразование загородной недвижимости? Какой регион выбрать для новой мебельной фабрики? Вложиться в жилой комплекс эконом или бизнес-класса? Какие факторы влияют на продление ДМС? Как должно работать индивидуальное автострахование? В наши дни ты должен быть data-driven или проиграешь. Сырые данные предприятия проходят большой путь, чтобы превратиться в управленческие решения. Этот путь включает такие шаги как:

https://habr.com/ru/articles/798515/

#business_intelligence #качество_данных #качество_данных_(data_quality) #master_data_management #data_hub #data_quality #data_governance

#data_governance #data_quality #data_hub #master_data_management #качество_данных_ #качество_данных

Habr @[email protected] · 2024-11-01 · 11:42 UTC

Импортозамещение Data Quality стека в нефтегазохимии: опыт СИБУРа

В СИБУРе много данных, которые текут в режиме реального времени с многочисленных датчиков на разных производствах, эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. И от качества инфраструктуры для работы с данными зависит рентабельность производств и прибыль компании в целом, а это жизненно важные показатели. В небольшом цикле из двух статей мы разберём опыт СИБУРа в создании, поддержке и развитии DQ (Data Quality — качество данных) сервиса для DWH (Data Warehouse — хранилище данных) в условиях санкций и исчезающих вендоров проверенных и привычных решений. Рассказывать об этом опыте будет Александр Бергер , Lead DQ Analyst в Цифровом СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса на решениях вендора, который решил покинуть рынок РФ в разгар рабочего процесса.

https://habr.com/ru/companies/sibur_official/articles/855310/

#data_quality #data_analysis #soda #качество_данных_(data_quality) #data #сибур_цифровой #промышленность #heavy_digital #нефтехимия #заводы

#data_quality #data_analysis #soda #качество_данных_ #data #сибур_цифровой

Habr @[email protected] · 2024-07-10 · 08:42 UTC

От «дата-ада» к знаку качества. Как в М.Видео-Эльдорадо работа с качеством данных улучшает результаты в бизнесе

Каждый бизнес-процесс, ИТ-система, цифровой продукт — является и потребителем, и генератором данных. Для успешного развития бизнеса важно качество этих данных. В недавней статье мы поделились тем как у нас зарождалась практика управления данными и о базовых понятиях в этой сфере. В этом материале мы сделаем упор на ту пользу, которую принесло компании данное направление и какие бизнес-задачи закрывает созданный инструмент. Но, начнем с небольшого погружения для того, чтобы напомнить, как мы пришли к пониманию необходимости регламентирования управления качеством данных.

https://habr.com/ru/companies/mvideo/articles/827876/

#мвидео #эльдорадо #качество_данных #управление_данными #data_driven #data_driven_testing #data_quality #качество_данных_(data_quality) #разработка #данные

#данные #разработка #качество_данных_ #data_quality #data_driven_testing #data_driven

Habr @[email protected] · 2025-04-09 · 10:32 UTC

Data Governance и Бизнес: как найти общий язык

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!» «Нам нужны качественные данные, а вы все про свои процессы!» «Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!» Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы. Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе: 1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу. 2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу. 3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня. Как же выстроить эффективный диалог между DG и бизнесом?

https://habr.com/ru/articles/899080/

#data_governance #data_management #data #управление_данными #data_quality #качество_данных #data_catalog #dwh

#data_governance #data_management #data #управление_данными #data_quality #качество_данных

Habr @[email protected] · 2025-03-21 · 15:42 UTC

Управление качеством данных

Итак, у нас есть данные, и есть требования к ним. От кого? От тех, кто будет ими пользоваться. Если те, кто ставит задачу говорят что "данные плохие" и не могут сформулировать критерии к качеству данных, им можно их подсказать, подсмотрев в предыдущей статье . Таким образом, управление качеством данных - это, в первую очередь, методология, которая обеспечивает некий уровень качества в отношении выбранных данных. Управление качеством данных - это постоянный процесс. Да, для начала неплохо разобраться с уже имеющимися данными, но наша задача сделать так, чтобы все новые данные, попадающие в систему, проверялись, валидировались, насыщались и, в итоге, соответствовали предъявляемым к ним требованиям. Управление качеством, кстати, является важной частью управления Нормативно-Справочной информацией, MDM (Master Data Management). Как же сделать так, чтобы данные попадали в системы уже "чистыми"? Думаю, что самый оптимальный способ - это правильно настроить поля ввода, не допуская ввод заведомо некорректный значений, а также предлагать автозаполнение по возможности: например, выбор адреса доставки предлагать из КЛАДР, а данные о компании автоматически заполнять используя специальные сервисы. Таким образом, и людям надо будет вводить меньше информации, и вероятность ошибки будет гораздо меньше.

https://habr.com/ru/articles/893158/

#data_engineering #data_quality #data_governance #качество_данных

#качество_данных #data_governance #data_quality #data_engineering

Habr @[email protected] · 2025-03-21 · 13:22 UTC

Качество данных простым языком

При подготовке статьи что главное? Источники! А что может быть источником надежнее, чем стандарты ISO? Давайте посмотрим, есть ли стандарты "качества данных"? Есть! ISO/TS 8000 и даже соответствующий ГОСТ 56214. Что ж, читаем определения: 3.1.3 качество (quality): Степень соответствия совокупности присущих характеристик объекта требованиям (3.1.2). Примечания: 1 Термин "качество" может применяться с прилагательными, такими как "плохое", "хорошее" или "превосходное". Так. Хватит ГОСТов на сегодня. Итак, есть данные, у них есть качество - характеристика, показывающая степень пригодности данных к использованию, и которое может быть "плохим", "хорошим" или "превосходным". На самом деле, есть 7 основных качественных характеристики: точность, полнота, непротиворечивость, достоверность, своевременность, уникальность и доступность.

https://habr.com/ru/articles/893104/

#data_governance #data_engineering #data_quality #качество_данных

#качество_данных #data_quality #data_engineering #data_governance

Habr @[email protected] · 2025-12-22 · 09:32 UTC

Хроники тестирования Data Quality

В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность для различных сценариев проверки данных. Эта статья будет интересна и полезна Data-инженерам, аналитикам данных и специалистам Data Quality для выбора оптимального метода валидации данных в зависимости от стека технологий и сложности бизнес-логики. Материал ориентирован на начинающий уровень подготовки: тем, кто еще не сталкивался системно с инструментами управления качеством данных. Привет, Хабр! Меня зовут Мария, я Data-инженер в SimbirSoft, и предлагаю для начала немного познакомиться с каждым из вышеперечисленных инструментов. Читать далее ⚡

https://habr.com/ru/companies/simbirsoft/articles/978504/

#data_engineering #data_quality #dbt #sql #python #pandas #great_expectations #sqlalchemy #greenplum

#greenplum #sqlalchemy #great_expectations #pandas #python #sql

Habr @[email protected] · 2025-12-22 · 09:32 UTC

Хроники тестирования Data Quality

В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность для различных сценариев проверки данных. Эта статья будет интересна и полезна Data-инженерам, аналитикам данных и специалистам Data Quality для выбора оптимального метода валидации данных в зависимости от стека технологий и сложности бизнес-логики. Материал ориентирован на начинающий уровень подготовки: тем, кто еще не сталкивался системно с инструментами управления качеством данных. Привет, Хабр! Меня зовут Мария, я Data-инженер в SimbirSoft, и предлагаю для начала немного познакомиться с каждым из вышеперечисленных инструментов. Читать далее ⚡

https://habr.com/ru/companies/simbirsoft/articles/978504/

#data_engineering #data_quality #dbt #sql #python #pandas #great_expectations #sqlalchemy #greenplum

#greenplum #sqlalchemy #great_expectations #pandas #python #sql

Habr @[email protected] · 2025-12-22 · 09:32 UTC

Хроники тестирования Data Quality

В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность для различных сценариев проверки данных. Эта статья будет интересна и полезна Data-инженерам, аналитикам данных и специалистам Data Quality для выбора оптимального метода валидации данных в зависимости от стека технологий и сложности бизнес-логики. Материал ориентирован на начинающий уровень подготовки: тем, кто еще не сталкивался системно с инструментами управления качеством данных. Привет, Хабр! Меня зовут Мария, я Data-инженер в SimbirSoft, и предлагаю для начала немного познакомиться с каждым из вышеперечисленных инструментов. Читать далее ⚡

https://habr.com/ru/companies/simbirsoft/articles/978504/

#data_engineering #data_quality #dbt #sql #python #pandas #great_expectations #sqlalchemy #greenplum

#data_engineering #data_quality #dbt #sql #python #pandas

Habr @[email protected] · 2024-11-26 · 15:32 UTC

Доверяй, но проверяй: как мы в KION идем по пути продуктовых событий

Привет, Хабр! Меня зовут Алексей Жиряков, я техлид backend-команды витрины KION. Вместе с командой мы делаем один из самых технологических онлайн-кинотеатров. Этот текст написан по мотивам митапа Evrone: рассказываю, что такое продуктовые события и какими они бывают, зачем мы создали свой приемник событий и что нужно знать об уровнях Data Quality. Так что устраивайтесь поудобнее — и поехали!

https://habr.com/ru/companies/ru_mts/articles/861502/

#kion #сервисы #онлайнкинотеатры #data_quality #управление_продуктом #облачные_сервисы

Habr @[email protected] · 2024-06-27 · 12:52 UTC

Есть ли жизнь до fit/predict?

Всем привет! Меня зовут Даниил Карпов, я старший NLP-разработчик в MTS AI. В эпоху LLM и огромных датасетов, вмещающих в себя весь интернет, кажется, что качество самих данных ушло немного на второй план: чем больше данных/параметров, тем лучше. Однако экстенсивный рост рано или поздно упирается в ограничения, когда становится уже слишком дорого/невозможно его продолжать. Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой. Здесь я расскажу о некоторых из таких методов, которые использовались в процессе подготовки данных.

https://habr.com/ru/companies/mts_ai/articles/825090/

#nlp #dataset_cartography #vinformation #deduplication #d4 #semdedup #sslprototypes #data_quality #dataset_difficulty #подготовка_данных

#подготовка_данных #dataset_difficulty #data_quality #sslprototypes #semdedup #d4

Habr @[email protected] · 2024-12-01 · 10:32 UTC

Миф о чистых данных: почему ваш аналитик похож на сапёра

Миф о чистых данных: почему ваш аналитик похож на сапёра. Как бороться с самым частым убеждением при работе с данными.

https://habr.com/ru/articles/862772/

#данные #очистка_данных #витрина_данных #визуализация_данных #ошибки_в_бизнесе #подготовка_данных #бизнесаналитика #целостность_данных #обработка_данных #data_quality

#data_quality #обработка_данных #целостность_данных #бизнесаналитика #подготовка_данных #ошибки_в_бизнесе

Habr @[email protected] · 2024-09-06 · 08:32 UTC

Вредные советы по работе с данными. Если вы сломать решили всю отчетность у коллег

Привет, Хабр! Меня зовут Леонид Калядин, я Cluster Data lead в МТС Диджитал, занимаюсь развитием практики Data Governance и Data Quality в 25+ продукта кластера. Мне довелось долго работать в консалтинге и разбираться с проблемами в других системах. Вот смотришь со стороны на ИТ-продукт: все классно и продумано, должно работать как часы. А потом спускаешься на уровень данных и хватаешься за голову: как же допустили такую ошибку? Ее можно было избежать, если задать пару вопросов на стадии проектирования. Зато теперь переделывать все чуть ли не с нуля и ждать возможности вписать изменения в какой-нибудь релиз. Красота! В этом посте я на основе своего и чужого опыта собрал несколько вредных советов, как не надо хранить историю, объединять данные из разных источников и отслеживать их качество. В общем, Если вы сломать решили всю отчетность у коллег, Обязательно зайдите в этой записи под кат!

https://habr.com/ru/companies/ru_mts/articles/841014/

#data_quality #работа_с_данными #итпродукт #вредные_советы #жизненный_цикл_данных #хранение_данных #качество_данных #интеграция_данных

#интеграция_данных #качество_данных #хранение_данных #жизненный_цикл_данных #вредные_советы #итпродукт

Habr @[email protected] · 2025-07-28 · 09:32 UTC

Как меняется рынок и зачем нужны конференции по Ai

Привет, Хабр! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии.

https://habr.com/ru/companies/oleg-bunin/articles/931154/

#конференция #ai #ии #ииассистенты #ai_агенты #качество_данных #data_quality #data_quality_management #геоданные #llmмодели

#конференция #ai #ии #ииассистенты #ai_агенты #качество_данных

Habr @[email protected] · 2025-06-20 · 15:12 UTC

Путь к современному MDM на примере клиентского домена данных

Путь к современному MDM на примере клиентского домена данных Привет, Хабр! На связи команда российского вендора Data Sapience . Наши специалисты в течение многих лет занимались внедрением и адаптацией различных ИТ-решений, в том числе MDM-систем: как российских, так и зарубежных. Объединив накопленные знания, мы выпустили собственный высокопроизводительный мультидоменный продукт Data Ocean Governance MDM . Data Sapience стремилась сделать Data Ocean Governance MDM гибким, комфортным и производительным решением, поэтому внимательно изучала рынок и его потребности. Сегодня хотим поделиться с вами результатами анализа и порассуждать, зачем MDM-решения нужны современному бизнесу, какую роль они выполняют и какие задачи закрывают на примере клиентского домена данных.

https://habr.com/ru/companies/datasapience/articles/920306/

#mdm #знай_своего_клиента #качество_данных #data_quality #готовое_решение #собственная_разработка #золотая_запись #Мастерзаписи #клиентские_данные

#клиентские_данные #мастерзаписи #золотая_запись #собственная_разработка #готовое_решение #data_quality

Habr @[email protected] · 2025-05-29 · 15:02 UTC

Nocode с MWS Tables: кейсы объединения разных команд в одном пространстве, системы выдачи пропусков и геймификации

Привет, Хабр! Меня зовут Александр Антипов, я продакт-оунер MWS Tables. Современный бизнес требует быстрых и эффективных решений для управления проектами, задачами и данными. И далеко не всегда есть возможность разрабатывать с нуля сложные системы или интегрировать дорогостоящий софт. Именно для таких случаев создан

https://habr.com/ru/companies/ru_mts/articles/913714/

#tabs #lowcode #nocode #программирование #прототипирование #проектирование_систем #управление_проектами #управление_продуктами #data_quality #качество_данных

#качество_данных #data_quality #управление_продуктами #управление_проектами #проектирование_систем #прототипирование

Habr @[email protected] · 2025-04-03 · 07:42 UTC

Как создать инструмент для DQ только на Python и Airflow?

Всем привет! Меня зовут Павел, я главный аналитик данных управления подготовки данных Банка. В этой статье я расскажу, как мы создали самописный инструмент и библиотеку для проверок качества данных, используя только Python и Airflow, и какую пользу это принесло команде.

https://habr.com/ru/companies/gazprombank/articles/896814/

#dq #python #airflow #superset #data_engineering #data_analysis #data_quality

#dq #python #airflow #superset #data_engineering #data_analysis

TaxonWorks @TaxonWorks · 2024-06-29 · 16:37 UTC

Released 0.42.0 Changelog: https://github.com/SpeciesFileGroup/taxonworks/releases/tag/v0.42.0

Life, the Universe, Everything!

Well, not quite. More cloning features though, and ways to visualize "the universe" (of data). Better indexing synchronization, more API endpoints, more built in #data_quality. Update to #Rails 7. Less need for a #towel ( many bug fixes), better babelfish (email authentication means far less false-positive spam).

#data_quality #rails #towel

Habr @[email protected] · 2024-06-28 · 10:32 UTC

Качество данных в М.Видео-Эльдорадо

Привет, Хабр! С середины 2023 года у нас в компании было принято решение открыть новое направление в области управления данными - «Качество данных». Вот почти уже год мы активно в нем развиваемся и хотели бы поделиться накопленным опытом. Надеемся, что данный материал будет вам полезен.

https://habr.com/ru/companies/mvideo/articles/825314/

#мвидео #эльдорадо #данные #хранение_данных #качество_данных #DQ #data_quality

#data_quality #dq #качество_данных #хранение_данных #данные #эльдорадо

Habr @[email protected] · 2024-06-19 · 07:52 UTC

Повышаем Data Quality: щепотка Soda для ваших данных

Привет! Меня зовут Александр Кудрявцев, я аналитик данных в команде Data Platform Банки.ру. Недавно мы озадачились вопросом контроля качества данных (Data Quality) и стали искать комплексное решение. Один из инструментов, который попал в поле зрения, — Soda Core. О нем и пойдет речь в материале.

https://habr.com/ru/companies/banki/articles/822601/

#data_quality #data_analysis #soda #качество_данных_(data_quality)

#качество_данных_ #soda #data_analysis #data_quality

Habr @[email protected] · 2024-05-27 · 15:32 UTC

Быстрая Data Quality проверка на базе алгоритма adversarial validation

Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user defined function. В частности, я расскажу, почему такой подход хорошо масштабируется и может быть успешно применен к различным типам данных, становясь универсальным инструментом для встраивания в ваши продуктовые процессы. Все подробности — под катом.

https://habr.com/ru/companies/ru_mts/articles/817483/

#psi #adversarial_validation #data_quality #spark #udf

#udf #spark #data_quality #adversarial_validation #psi

Habr @[email protected] · 2023-12-11 · 13:37 UTC

Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных

Привет, Хабр! Меня зовут Яна и я работаю Data Quality в департаменте развития аналитики "Цепочки поставок и поддерживающие функции" X5 Tech. В этой статье мы с моей коллегой Наташей , менеджером по качеству данных, решили рассказать о мониторинге качества данных большинства отчётов нашей команды. На первый взгляд может показаться, что проверять таблицы – задача рутинная и однотипная, но это не так, ведь все данные имеют свои особенности, а значит и проверки для них зачастую создаются уникальные. Статья, как нам кажется, будет полезна тем, кто интересуется качеством данных, ищет подходы к мониторингу или хочет больше узнать о работе DQ в целом.

https://habr.com/ru/companies/X5Tech/articles/779856/

#data_quality #bigdata #качество_данных #качество_данных_(data_quality) #мониторинг_данных #dq #анализ_данных #аналитика #аналитика_данных

#аналитика_данных #аналитика #анализ_данных #dq #мониторинг_данных #качество_данных_

Habr @[email protected] · 2026-03-20 · 07:42 UTC

Reference Data Management по-русски: что мы называем НСИ и почему это не всегда RDM

В российских проектах НСИ часто выходит далеко за рамки справочников и включает задачи MDM и Data Quality. Разбираемся, чем это отличается от классического RDM и к чему это приводит.

https://habr.com/ru/companies/datasapience/articles/1012404/

#RDM #НСИ #Reference_Data_Management #MDM #Master_Data_Management #Data_Quality #Справочные_данные #Управление_данными #Data_governance

#data_governance #управление_данными #справочные_данные #data_quality #master_data_management #mdm

Habr @[email protected] · 2026-03-20 · 07:42 UTC

Reference Data Management по-русски: что мы называем НСИ и почему это не всегда RDM

В российских проектах НСИ часто выходит далеко за рамки справочников и включает задачи MDM и Data Quality. Разбираемся, чем это отличается от классического RDM и к чему это приводит.

https://habr.com/ru/companies/datasapience/articles/1012404/

#RDM #НСИ #Reference_Data_Management #MDM #Master_Data_Management #Data_Quality #Справочные_данные #Управление_данными #Data_governance

#rdm #нси #reference_data_management #mdm #master_data_management #data_quality

Habr @[email protected] · 2026-02-20 · 17:42 UTC

[Перевод] AI и Data engineering: Что реально происходит с профессией?

Сразу успокоим читателя: AI не вытеснил data-инженера из рабочего процесса. Наоборот, он сделал эту роль еще более значимой. И в этой статье объясняется, что именно это означает для вас и вашей профессии. Не с точки зрения технологий и инструментов, а с точки зрения изменения зоны ответственности. AI, как и везде, конечно классно справляется с некоторыми задачами, но всю ответственность по-прежнему несет человек. Весь контекст не передашь через промпт, и AI не делает компромиссных решений. Большинство систем не выходят из строя, потому что было сложно написать код. Выходят потому что решения по разработке были приняты поспешно, и без четкого понимания, кто и как этими системами будет пользоваться. И AI еще быстрее за нас принимает решения, но все те же риски «непонимания контекста» остаются.

https://habr.com/ru/articles/1002036/

#ai #качество_данных #data_quality #etl #data_engineering #data_engineer #schema #модель_данных #искусственный_интеллект #инженер_данных

#инженер_данных #искусственный_интеллект #модель_данных #schema #data_engineer #data_engineering

Habr @[email protected] · 2026-02-20 · 17:42 UTC

[Перевод] AI и Data engineering: Что реально происходит с профессией?

Сразу успокоим читателя: AI не вытеснил data-инженера из рабочего процесса. Наоборот, он сделал эту роль еще более значимой. И в этой статье объясняется, что именно это означает для вас и вашей профессии. Не с точки зрения технологий и инструментов, а с точки зрения изменения зоны ответственности. AI, как и везде, конечно классно справляется с некоторыми задачами, но всю ответственность по-прежнему несет человек. Весь контекст не передашь через промпт, и AI не делает компромиссных решений. Большинство систем не выходят из строя, потому что было сложно написать код. Выходят потому что решения по разработке были приняты поспешно, и без четкого понимания, кто и как этими системами будет пользоваться. И AI еще быстрее за нас принимает решения, но все те же риски «непонимания контекста» остаются.

https://habr.com/ru/articles/1002036/

#ai #качество_данных #data_quality #etl #data_engineering #data_engineer #schema #модель_данных #искусственный_интеллект #инженер_данных

#инженер_данных #искусственный_интеллект #модель_данных #schema #data_engineer #data_engineering

Habr @[email protected] · 2026-02-20 · 17:42 UTC

[Перевод] AI и Data engineering: Что реально происходит с профессией?

Сразу успокоим читателя: AI не вытеснил data-инженера из рабочего процесса. Наоборот, он сделал эту роль еще более значимой. И в этой статье объясняется, что именно это означает для вас и вашей профессии. Не с точки зрения технологий и инструментов, а с точки зрения изменения зоны ответственности. AI, как и везде, конечно классно справляется с некоторыми задачами, но всю ответственность по-прежнему несет человек. Весь контекст не передашь через промпт, и AI не делает компромиссных решений. Большинство систем не выходят из строя, потому что было сложно написать код. Выходят потому что решения по разработке были приняты поспешно, и без четкого понимания, кто и как этими системами будет пользоваться. И AI еще быстрее за нас принимает решения, но все те же риски «непонимания контекста» остаются.

https://habr.com/ru/articles/1002036/

#ai #качество_данных #data_quality #etl #data_engineering #data_engineer #schema #модель_данных #искусственный_интеллект #инженер_данных

#ai #качество_данных #data_quality #etl #data_engineering #data_engineer