home.social

#data_quality — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #data_quality, aggregated by home.social.

  1. Что вы не знаете о СНИЛС – и почему это самый важный документ

    Гражданина РФ можно однозначно идентифицировать по нескольким документам. Например, по паспорту. Но по актуальным законам с 21 года отметка о ранее выданном паспорте стала необязательной. Если человек поменял паспорт и фамилию, то его невозможно увязать со старым профилем. Можно было использовать телефон (идея так себе), медполис, ИНН, СНИЛС и ещё пару документов. СНИЛС оказался самым стабильным и надёжным, и поэтому он сейчас постепенно становится основным документом для многих систем. Когда я впервые услышал про «проблему СНИЛС в банковских системах», мне показалось, что это что-то скучное из разряда HR-документооборота. Зелёная ламинированная карточка, которую вы получили один раз и забыли в ящике стола. Но, собственно, во-первых, вы, возможно, про него многое не знаете, а во-вторых, оказалось, что там не всё так просто.

    habr.com/ru/companies/gazpromb

    #СНИЛС #идентификация_клиентов #банки #mdm #клиентские_данные #sfr #смэв #пенсионный_фонд #data_quality

  2. Что вы не знаете о СНИЛС – и почему это самый важный документ

    Гражданина РФ можно однозначно идентифицировать по нескольким документам. Например, по паспорту. Но по актуальным законам с 21 года отметка о ранее выданном паспорте стала необязательной. Если человек поменял паспорт и фамилию, то его невозможно увязать со старым профилем. Можно было использовать телефон (идея так себе), медполис, ИНН, СНИЛС и ещё пару документов. СНИЛС оказался самым стабильным и надёжным, и поэтому он сейчас постепенно становится основным документом для многих систем. Когда я впервые услышал про «проблему СНИЛС в банковских системах», мне показалось, что это что-то скучное из разряда HR-документооборота. Зелёная ламинированная карточка, которую вы получили один раз и забыли в ящике стола. Но, собственно, во-первых, вы, возможно, про него многое не знаете, а во-вторых, оказалось, что там не всё так просто.

    habr.com/ru/companies/gazpromb

    #СНИЛС #идентификация_клиентов #банки #mdm #клиентские_данные #sfr #смэв #пенсионный_фонд #data_quality

  3. Что вы не знаете о СНИЛС – и почему это самый важный документ

    Гражданина РФ можно однозначно идентифицировать по нескольким документам. Например, по паспорту. Но по актуальным законам с 21 года отметка о ранее выданном паспорте стала необязательной. Если человек поменял паспорт и фамилию, то его невозможно увязать со старым профилем. Можно было использовать телефон (идея так себе), медполис, ИНН, СНИЛС и ещё пару документов. СНИЛС оказался самым стабильным и надёжным, и поэтому он сейчас постепенно становится основным документом для многих систем. Когда я впервые услышал про «проблему СНИЛС в банковских системах», мне показалось, что это что-то скучное из разряда HR-документооборота. Зелёная ламинированная карточка, которую вы получили один раз и забыли в ящике стола. Но, собственно, во-первых, вы, возможно, про него многое не знаете, а во-вторых, оказалось, что там не всё так просто.

    habr.com/ru/companies/gazpromb

    #СНИЛС #идентификация_клиентов #банки #mdm #клиентские_данные #sfr #смэв #пенсионный_фонд #data_quality

  4. Что вы не знаете о СНИЛС – и почему это самый важный документ

    Гражданина РФ можно однозначно идентифицировать по нескольким документам. Например, по паспорту. Но по актуальным законам с 21 года отметка о ранее выданном паспорте стала необязательной. Если человек поменял паспорт и фамилию, то его невозможно увязать со старым профилем. Можно было использовать телефон (идея так себе), медполис, ИНН, СНИЛС и ещё пару документов. СНИЛС оказался самым стабильным и надёжным, и поэтому он сейчас постепенно становится основным документом для многих систем. Когда я впервые услышал про «проблему СНИЛС в банковских системах», мне показалось, что это что-то скучное из разряда HR-документооборота. Зелёная ламинированная карточка, которую вы получили один раз и забыли в ящике стола. Но, собственно, во-первых, вы, возможно, про него многое не знаете, а во-вторых, оказалось, что там не всё так просто.

    habr.com/ru/companies/gazpromb

    #СНИЛС #идентификация_клиентов #банки #mdm #клиентские_данные #sfr #смэв #пенсионный_фонд #data_quality

  5. AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU

    Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие out of scope детекторы, либо неудобны и требуют расширенной экспертизы для использования. Для того чтобы решить эти проблемы, мы в MWS AI разработали OpenAutoNLU — опенсорс-библиотеку для NLU, включающую диагностику качества данных, гибко настраиваемый пайплайн обучения модуля фильтра запросов, которые не относятся ни к одному из известных текстовых классификаторов меток OOD, и функции LLM. Делимся ей на GitHub . Под катом разберу, как устроен фреймворк, за счет чего он работает с минимальным вмешательством разработчика и какие результаты уже есть. Поехали!

    habr.com/ru/companies/mts_ai/a

    #nlu #nlp #transformers #data_quality #automl #opensource #ml #искусственный_интеллект #обработка_естественного_языка #автоматизация

  6. AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU

    Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие out of scope детекторы, либо неудобны и требуют расширенной экспертизы для использования. Для того чтобы решить эти проблемы, мы в MWS AI разработали OpenAutoNLU — опенсорс-библиотеку для NLU, включающую диагностику качества данных, гибко настраиваемый пайплайн обучения модуля фильтра запросов, которые не относятся ни к одному из известных текстовых классификаторов меток OOD, и функции LLM. Делимся ей на GitHub . Под катом разберу, как устроен фреймворк, за счет чего он работает с минимальным вмешательством разработчика и какие результаты уже есть. Поехали!

    habr.com/ru/companies/mts_ai/a

    #nlu #nlp #transformers #data_quality #automl #opensource #ml #искусственный_интеллект #обработка_естественного_языка #автоматизация

  7. AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU

    Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие out of scope детекторы, либо неудобны и требуют расширенной экспертизы для использования. Для того чтобы решить эти проблемы, мы в MWS AI разработали OpenAutoNLU — опенсорс-библиотеку для NLU, включающую диагностику качества данных, гибко настраиваемый пайплайн обучения модуля фильтра запросов, которые не относятся ни к одному из известных текстовых классификаторов меток OOD, и функции LLM. Делимся ей на GitHub . Под катом разберу, как устроен фреймворк, за счет чего он работает с минимальным вмешательством разработчика и какие результаты уже есть. Поехали!

    habr.com/ru/companies/mts_ai/a

    #nlu #nlp #transformers #data_quality #automl #opensource #ml #искусственный_интеллект #обработка_естественного_языка #автоматизация

  8. AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU

    Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие out of scope детекторы, либо неудобны и требуют расширенной экспертизы для использования. Для того чтобы решить эти проблемы, мы в MWS AI разработали OpenAutoNLU — опенсорс-библиотеку для NLU, включающую диагностику качества данных, гибко настраиваемый пайплайн обучения модуля фильтра запросов, которые не относятся ни к одному из известных текстовых классификаторов меток OOD, и функции LLM. Делимся ей на GitHub . Под катом разберу, как устроен фреймворк, за счет чего он работает с минимальным вмешательством разработчика и какие результаты уже есть. Поехали!

    habr.com/ru/companies/mts_ai/a

    #nlu #nlp #transformers #data_quality #automl #opensource #ml #искусственный_интеллект #обработка_естественного_языка #автоматизация

  9. Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

    Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.

    habr.com/ru/companies/kryptoni

    #data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT

  10. Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

    Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.

    habr.com/ru/companies/kryptoni

    #data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT

  11. Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

    Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.

    habr.com/ru/companies/kryptoni

    #data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT

  12. Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

    Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.

    habr.com/ru/companies/kryptoni

    #data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT

  13. Reference Data Management по-русски: что мы называем НСИ и почему это не всегда RDM

    В российских проектах НСИ часто выходит далеко за рамки справочников и включает задачи MDM и Data Quality. Разбираемся, чем это отличается от классического RDM и к чему это приводит.

    habr.com/ru/companies/datasapi

    #RDM #НСИ #Reference_Data_Management #MDM #Master_Data_Management #Data_Quality #Справочные_данные #Управление_данными #Data_governance

  14. Как мы прокачиваем HealthScore для 6000+ витрин и готовим DWH к AI

    Привет! Меня зовут Дмитрий Мележиков, я отвечаю за BI в домене Маркетинг и участвую в общих DWH/BI-проектах Авито. В статье рассказываю, как мы построили систему HealthScore — метрику здоровья данных. От математической модели и пайплайна сбора метаданных до процесса массовой очистки. А ещё вы узнаете, почему HealthScore и сертификация витрин важны для AI Copilot. Без белого списка доверенных витрин ассистент может масштабировать ошибки так же быстро, как и инсайты.

    habr.com/ru/companies/avito/ar

    #dwh #data_engineering #data_quality #data_governance #bi #каталог_данных #управление_метаданными #avito

  15. Хроники тестирования Data Quality

    В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность для различных сценариев проверки данных. Эта статья будет интересна и полезна Data-инженерам, аналитикам данных и специалистам Data Quality для выбора оптимального метода валидации данных в зависимости от стека технологий и сложности бизнес-логики. Материал ориентирован на начинающий уровень подготовки: тем, кто еще не сталкивался системно с инструментами управления качеством данных. Привет, Хабр! Меня зовут Мария, я Data-инженер в SimbirSoft, и предлагаю для начала немного познакомиться с каждым из вышеперечисленных инструментов. Читать далее ⚡

    habr.com/ru/companies/simbirso

    #data_engineering #data_quality #dbt #sql #python #pandas #great_expectations #sqlalchemy #greenplum

  16. Как я оставила печати и взяла SQL: путь к Data Quality

    Привет, Хабр! Когда-то я проверяла завещания и готовила доверенности, а теперь проверяю витрины данных, ищу дубли и считаю доходность по инвестиционным инструментам. Меня зовут Арина Шахтарина, и я — Data Quality-инженер в Сбере. Это история о том, как любовь к данным и таблицам превратилась в новую профессию, и почему SQL — лучший универсальный язык после русского. Тут будет про карьерные повороты, боли с форматами данных, проверки данных и немного про мечты, которые сбываются (даже если ты не в отпуске).

    habr.com/ru/companies/oleg-bun

    #качество_данных #dq #data_quality #пайплайн #коммуникации #bi #sql #бизнеслогика #базы_данных #Data_Internals

  17. Data catalog есть, а пользы нет: Частые ошибки внедрения

    Data governance, data mesh, modern data stack, data lineage – столько разных data, столько разных популярных подходов и инструментов. Лидером по популярности (на мой скромный взгляд) среди всех них является data catalog. Многие говорят о нем, многие хотят его, многие уже внедрили. Но внедрить это одно дело, а вот получить от него пользу – дело совсем другое. Мы сформировали список самых частых проблем, основанные не только на нашем опыте, но и на опыте наших коллег, проанализировав множество статей и материалов на эту тему.

    habr.com/ru/articles/1003158/

    #data_catalog #data_governance #openmetadata #datahub #ai #metadata #метаданные #каталог_данных #управление_данными #data_quality

  18. Качественные данные для среднего бизнеса: почему без промышленной платформы интеграции не обойтись?

    Качество данных и его значение для среднего бизнеса. Что такое качество данных? Почему качество данных так важно для среднего бизнеса? Кто относится к среднему бизнесу в России? Основные риски низкого качества данных. Основные рекомендации по выбору решений.

    habr.com/ru/articles/862476/

    #Данные #mdm #mdmсистема #mdm_и_бизнесглоссарий #esb #data #базы_данных #data_quality #dq #datareon

  19. Автоматизация задач без кодинга: единый реестр, система управления проектами и таск-трекер на основе MWS Tables

    Привет, Хабр! Меня зовут Александр Антипов, я продакт-оунер MWS Tables. Раньше казалось, что «опытные пользователи ПК» — исчезающий вид, но реальность другая: сегодня сотрудники не просто работают с технологиями, а сами автоматизируют рутинные процессы. Без разработчиков и сложных систем — с помощью макросов, таблиц, SharePoint и других инструментов. Полтора года назад мы в МТС создали для таких кейсов MWS Tables — внутреннюю платформу самостоятельной автоматизации. В этом посте — реальные примеры, как MWS Tables уже применяется на практике. Я покажу, как с помощью MWS Tables реализовали единый реестр для работы с качеством данных, централизованную систему по менеджменту IT-проектов и собственный таск-трекер. Все подробности — под катом.

    habr.com/ru/companies/ru_mts/a

    #lowcode #no_code #MWS_Tables #прототипирование #программирование #проектирование_систем #tabs #data_quality #качество_данных

  20. WAP паттерн в data-engineering

    Несмотря на бурное развитие дата инжиниринга, WAP паттерн долгое время незаслуженно обходят стороной. Кто-то слышал о нем, но не применяет. Кто-то применяет, но интуитивно. В этой статье хочу на примере детально описать паттерн работы с данными, которому уже почти 8 лет, но за это время ни одна статья не была написана с принципом работы.

    habr.com/ru/articles/937738/

    #data_engineering #bigdata #big_data #data_warehouse #data_quality #warehouse #datalake #etl

  21. [Перевод] AI и Data engineering: Что реально происходит с профессией?

    Сразу успокоим читателя: AI не вытеснил data-инженера из рабочего процесса. Наоборот, он сделал эту роль еще более значимой. И в этой статье объясняется, что именно это означает для вас и вашей профессии. Не с точки зрения технологий и инструментов, а с точки зрения изменения зоны ответственности. AI, как и везде, конечно классно справляется с некоторыми задачами, но всю ответственность по-прежнему несет человек. Весь контекст не передашь через промпт, и AI не делает компромиссных решений. Большинство систем не выходят из строя, потому что было сложно написать код. Выходят потому что решения по разработке были приняты поспешно, и без четкого понимания, кто и как этими системами будет пользоваться. И AI еще быстрее за нас принимает решения, но все те же риски «непонимания контекста» остаются.

    habr.com/ru/articles/1002036/

    #ai #качество_данных #data_quality #etl #data_engineering #data_engineer #schema #модель_данных #искусственный_интеллект #инженер_данных

  22. Reference Data Management по-русски: что мы называем НСИ и почему это не всегда RDM

    В российских проектах НСИ часто выходит далеко за рамки справочников и включает задачи MDM и Data Quality. Разбираемся, чем это отличается от классического RDM и к чему это приводит.

    habr.com/ru/companies/datasapi

    #RDM #НСИ #Reference_Data_Management #MDM #Master_Data_Management #Data_Quality #Справочные_данные #Управление_данными #Data_governance

  23. DataHub не заменил наш самописный дата-каталог — и это нормально. Оптимизируем работу с метаданными

    В Островке мы строим экосистему вокруг данных — от хранилищ и пайплайнов до систем мониторинга и каталогов. Но когда всё только начиналось, под часть наших процессов просто не существовало готовых решений. Так появился наш собственный дата-каталог DataPortal — лёгкий, быстрый и идеально подходящий для небольшой компании. Со временем всё изменилось: объём данных вырос в десятки раз, появились новые команды, и вместе с этим начали звучать вопросы вроде «где лежат данные для этого дашборда?», «кому писать, если он упал?» и «можно ли этим данным доверять?». Так мы поняли, что пора взрослеть — и искать инструмент, который поможет масштабировать не только инфраструктуру, но и дата-культуру . Мы выбрали DataHub — open-source каталог, обещавший прозрачность, автоматизацию и гибкость. Развернули, подключили источники, построили lineage, и даже порадовались, что всё заработало с первого раза. А потом стало ясно: DataHub не заменил наш DataPortal. Более того, оба инструмента отлично дополнили друг друга — инженерное ядро и удобное окно в данные для бизнеса. Почему два дата-каталога оказались лучше одного, как это повлияло на культуру работы с данными и что нам дал DataHub помимо красивых графов lineage — рассказываем под катом.

    habr.com/ru/companies/ostrovok

    #датакаталог #datahub #управление_данными #data_quality #метаданные

  24. Business intelligence и качество исходных данных

    Сегодня бизнес хочет принимать решения, основываясь на данных, а не на ощущениях, тем более что сейчас для этого есть все возможности. Предприятия накопили терабайты и эксабайты данных, их количество растет в геометрической прогрессии каждый день. Как повлиял ковид на ценообразование загородной недвижимости? Какой регион выбрать для новой мебельной фабрики? Вложиться в жилой комплекс эконом или бизнес-класса? Какие факторы влияют на продление ДМС? Как должно работать индивидуальное автострахование? В наши дни ты должен быть data-driven или проиграешь. Сырые данные предприятия проходят большой путь, чтобы превратиться в управленческие решения. Этот путь включает такие шаги как:

    habr.com/ru/articles/798515/

    #business_intelligence #качество_данных #качество_данных_(data_quality) #master_data_management #data_hub #data_quality #data_governance

  25. Импортозамещение Data Quality стека в нефтегазохимии: опыт СИБУРа

    В СИБУРе много данных, которые текут в режиме реального времени с многочисленных датчиков на разных производствах, эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. И от качества инфраструктуры для работы с данными зависит рентабельность производств и прибыль компании в целом, а это жизненно важные показатели. В небольшом цикле из двух статей мы разберём опыт СИБУРа в создании, поддержке и развитии DQ (Data Quality — качество данных) сервиса для DWH (Data Warehouse — хранилище данных) в условиях санкций и исчезающих вендоров проверенных и привычных решений. Рассказывать об этом опыте будет Александр Бергер , Lead DQ Analyst в Цифровом СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса на решениях вендора, который решил покинуть рынок РФ в разгар рабочего процесса.

    habr.com/ru/companies/sibur_of

    #data_quality #data_analysis #soda #качество_данных_(data_quality) #data #сибур_цифровой #промышленность #heavy_digital #нефтехимия #заводы

  26. От «дата-ада» к знаку качества. Как в М.Видео-Эльдорадо работа с качеством данных улучшает результаты в бизнесе

    Каждый бизнес-процесс, ИТ-система, цифровой продукт — является и потребителем, и генератором данных. Для успешного развития бизнеса важно качество этих данных. В недавней статье мы поделились тем как у нас зарождалась практика управления данными и о базовых понятиях в этой сфере. В этом материале мы сделаем упор на ту пользу, которую принесло компании данное направление и какие бизнес-задачи закрывает созданный инструмент. Но, начнем с небольшого погружения для того, чтобы напомнить, как мы пришли к пониманию необходимости регламентирования управления качеством данных.

    habr.com/ru/companies/mvideo/a

    #мвидео #эльдорадо #качество_данных #управление_данными #data_driven #data_driven_testing #data_quality #качество_данных_(data_quality) #разработка #данные

  27. Data Governance и Бизнес: как найти общий язык

    «Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!» «Нам нужны качественные данные, а вы все про свои процессы!» «Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!» Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы. Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе: 1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу. 2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу. 3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня. Как же выстроить эффективный диалог между DG и бизнесом?

    habr.com/ru/articles/899080/

    #data_governance #data_management #data #управление_данными #data_quality #качество_данных #data_catalog #dwh

  28. Управление качеством данных

    Итак, у нас есть данные, и есть требования к ним. От кого? От тех, кто будет ими пользоваться. Если те, кто ставит задачу говорят что "данные плохие" и не могут сформулировать критерии к качеству данных, им можно их подсказать, подсмотрев в предыдущей статье . Таким образом, управление качеством данных - это, в первую очередь, методология, которая обеспечивает некий уровень качества в отношении выбранных данных. Управление качеством данных - это постоянный процесс. Да, для начала неплохо разобраться с уже имеющимися данными, но наша задача сделать так, чтобы все новые данные, попадающие в систему, проверялись, валидировались, насыщались и, в итоге, соответствовали предъявляемым к ним требованиям. Управление качеством, кстати, является важной частью управления Нормативно-Справочной информацией, MDM (Master Data Management). Как же сделать так, чтобы данные попадали в системы уже "чистыми"? Думаю, что самый оптимальный способ - это правильно настроить поля ввода, не допуская ввод заведомо некорректный значений, а также предлагать автозаполнение по возможности: например, выбор адреса доставки предлагать из КЛАДР, а данные о компании автоматически заполнять используя специальные сервисы. Таким образом, и людям надо будет вводить меньше информации, и вероятность ошибки будет гораздо меньше.

    habr.com/ru/articles/893158/

    #data_engineering #data_quality #data_governance #качество_данных

  29. Качество данных простым языком

    При подготовке статьи что главное? Источники! А что может быть источником надежнее, чем стандарты ISO? Давайте посмотрим, есть ли стандарты "качества данных"? Есть! ISO/TS 8000 и даже соответствующий ГОСТ 56214. Что ж, читаем определения: 3.1.3 качество (quality): Степень соответствия совокупности присущих характеристик объекта требованиям (3.1.2). Примечания: 1 Термин "качество" может применяться с прилагательными, такими как "плохое", "хорошее" или "превосходное". Так. Хватит ГОСТов на сегодня. Итак, есть данные, у них есть качество - характеристика, показывающая степень пригодности данных к использованию, и которое может быть "плохим", "хорошим" или "превосходным". На самом деле, есть 7 основных качественных характеристики: точность, полнота, непротиворечивость, достоверность, своевременность, уникальность и доступность.

    habr.com/ru/articles/893104/

    #data_governance #data_engineering #data_quality #качество_данных

  30. Хроники тестирования Data Quality

    В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность для различных сценариев проверки данных. Эта статья будет интересна и полезна Data-инженерам, аналитикам данных и специалистам Data Quality для выбора оптимального метода валидации данных в зависимости от стека технологий и сложности бизнес-логики. Материал ориентирован на начинающий уровень подготовки: тем, кто еще не сталкивался системно с инструментами управления качеством данных. Привет, Хабр! Меня зовут Мария, я Data-инженер в SimbirSoft, и предлагаю для начала немного познакомиться с каждым из вышеперечисленных инструментов. Читать далее ⚡

    habr.com/ru/companies/simbirso

    #data_engineering #data_quality #dbt #sql #python #pandas #great_expectations #sqlalchemy #greenplum

  31. Хроники тестирования Data Quality

    В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность для различных сценариев проверки данных. Эта статья будет интересна и полезна Data-инженерам, аналитикам данных и специалистам Data Quality для выбора оптимального метода валидации данных в зависимости от стека технологий и сложности бизнес-логики. Материал ориентирован на начинающий уровень подготовки: тем, кто еще не сталкивался системно с инструментами управления качеством данных. Привет, Хабр! Меня зовут Мария, я Data-инженер в SimbirSoft, и предлагаю для начала немного познакомиться с каждым из вышеперечисленных инструментов. Читать далее ⚡

    habr.com/ru/companies/simbirso

    #data_engineering #data_quality #dbt #sql #python #pandas #great_expectations #sqlalchemy #greenplum

  32. Хроники тестирования Data Quality

    В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность для различных сценариев проверки данных. Эта статья будет интересна и полезна Data-инженерам, аналитикам данных и специалистам Data Quality для выбора оптимального метода валидации данных в зависимости от стека технологий и сложности бизнес-логики. Материал ориентирован на начинающий уровень подготовки: тем, кто еще не сталкивался системно с инструментами управления качеством данных. Привет, Хабр! Меня зовут Мария, я Data-инженер в SimbirSoft, и предлагаю для начала немного познакомиться с каждым из вышеперечисленных инструментов. Читать далее ⚡

    habr.com/ru/companies/simbirso

    #data_engineering #data_quality #dbt #sql #python #pandas #great_expectations #sqlalchemy #greenplum

  33. Доверяй, но проверяй: как мы в KION идем по пути продуктовых событий

    Привет, Хабр! Меня зовут Алексей Жиряков, я техлид backend-команды витрины KION. Вместе с командой мы делаем один из самых технологических онлайн-кинотеатров. Этот текст написан по мотивам митапа Evrone: рассказываю, что такое продуктовые события и какими они бывают, зачем мы создали свой приемник событий и что нужно знать об уровнях Data Quality. Так что устраивайтесь поудобнее — и поехали!

    habr.com/ru/companies/ru_mts/a

    #kion #сервисы #онлайнкинотеатры #data_quality #управление_продуктом #облачные_сервисы

  34. Есть ли жизнь до fit/predict?

    Всем привет! Меня зовут Даниил Карпов, я старший NLP-разработчик в MTS AI. В эпоху LLM и огромных датасетов, вмещающих в себя весь интернет, кажется, что качество самих данных ушло немного на второй план: чем больше данных/параметров, тем лучше. Однако экстенсивный рост рано или поздно упирается в ограничения, когда становится уже слишком дорого/невозможно его продолжать. Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой. Здесь я расскажу о некоторых из таких методов, которые использовались в процессе подготовки данных.

    habr.com/ru/companies/mts_ai/a

    #nlp #dataset_cartography #vinformation #deduplication #d4 #semdedup #sslprototypes #data_quality #dataset_difficulty #подготовка_данных

  35. Вредные советы по работе с данными. Если вы сломать решили всю отчетность у коллег

    Привет, Хабр! Меня зовут Леонид Калядин, я Cluster Data lead в МТС Диджитал, занимаюсь развитием практики Data Governance и Data Quality в 25+ продукта кластера. Мне довелось долго работать в консалтинге и разбираться с проблемами в других системах. Вот смотришь со стороны на ИТ-продукт: все классно и продумано, должно работать как часы. А потом спускаешься на уровень данных и хватаешься за голову: как же допустили такую ошибку? Ее можно было избежать, если задать пару вопросов на стадии проектирования. Зато теперь переделывать все чуть ли не с нуля и ждать возможности вписать изменения в какой-нибудь релиз. Красота! В этом посте я на основе своего и чужого опыта собрал несколько вредных советов, как не надо хранить историю, объединять данные из разных источников и отслеживать их качество. В общем, Если вы сломать решили всю отчетность у коллег, Обязательно зайдите в этой записи под кат!

    habr.com/ru/companies/ru_mts/a

    #data_quality #работа_с_данными #итпродукт #вредные_советы #жизненный_цикл_данных #хранение_данных #качество_данных #интеграция_данных

  36. Как меняется рынок и зачем нужны конференции по Ai

    Привет, Хабр! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии.

    habr.com/ru/companies/oleg-bun

    #конференция #ai #ии #ииассистенты #ai_агенты #качество_данных #data_quality #data_quality_management #геоданные #llmмодели

  37. Путь к современному MDM на примере клиентского домена данных

    Путь к современному MDM на примере клиентского домена данных Привет, Хабр! На связи команда российского вендора Data Sapience . Наши специалисты в течение многих лет занимались внедрением и адаптацией различных ИТ-решений, в том числе MDM-систем: как российских, так и зарубежных. Объединив накопленные знания, мы выпустили собственный высокопроизводительный мультидоменный продукт Data Ocean Governance MDM . Data Sapience стремилась сделать Data Ocean Governance MDM гибким, комфортным и производительным решением, поэтому внимательно изучала рынок и его потребности. Сегодня хотим поделиться с вами результатами анализа и порассуждать, зачем MDM-решения нужны современному бизнесу, какую роль они выполняют и какие задачи закрывают на примере клиентского домена данных.

    habr.com/ru/companies/datasapi

    #mdm #знай_своего_клиента #качество_данных #data_quality #готовое_решение #собственная_разработка #золотая_запись #Мастерзаписи #клиентские_данные

  38. Nocode с MWS Tables: кейсы объединения разных команд в одном пространстве, системы выдачи пропусков и геймификации

    Привет, Хабр! Меня зовут Александр Антипов, я продакт-оунер MWS Tables. Современный бизнес требует быстрых и эффективных решений для управления проектами, задачами и данными. И далеко не всегда есть возможность разрабатывать с нуля сложные системы или интегрировать дорогостоящий софт. Именно для таких случаев создан

    habr.com/ru/companies/ru_mts/a

    #tabs #lowcode #nocode #программирование #прототипирование #проектирование_систем #управление_проектами #управление_продуктами #data_quality #качество_данных

  39. Как создать инструмент для DQ только на Python и Airflow?

    Всем привет! Меня зовут Павел, я главный аналитик данных управления подготовки данных Банка. В этой статье я расскажу, как мы создали самописный инструмент и библиотеку для проверок качества данных, используя только Python и Airflow, и какую пользу это принесло команде.

    habr.com/ru/companies/gazpromb

    #dq #python #airflow #superset #data_engineering #data_analysis #data_quality

  40. Released 0.42.0 Changelog: github.com/SpeciesFileGroup/ta

    Life, the Universe, Everything!

    Well, not quite. More cloning features though, and ways to visualize "the universe" (of data). Better indexing synchronization, more API endpoints, more built in . Update to 7. Less need for a ( many bug fixes), better babelfish (email authentication means far less false-positive spam).

  41. Качество данных в М.Видео-Эльдорадо

    Привет, Хабр! С середины 2023 года у нас в компании было принято решение открыть новое направление в области управления данными - «Качество данных». Вот почти уже год мы активно в нем развиваемся и хотели бы поделиться накопленным опытом. Надеемся, что данный материал будет вам полезен.

    habr.com/ru/companies/mvideo/a

    #мвидео #эльдорадо #данные #хранение_данных #качество_данных #DQ #data_quality

  42. Повышаем Data Quality: щепотка Soda для ваших данных

    Привет! Меня зовут Александр Кудрявцев, я аналитик данных в команде Data Platform Банки.ру. Недавно мы озадачились вопросом контроля качества данных (Data Quality) и стали искать комплексное решение. Один из инструментов, который попал в поле зрения, — Soda Core. О нем и пойдет речь в материале.

    habr.com/ru/companies/banki/ar

    #data_quality #data_analysis #soda #качество_данных_(data_quality)

  43. Быстрая Data Quality проверка на базе алгоритма adversarial validation

    Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user defined function. В частности, я расскажу, почему такой подход хорошо масштабируется и может быть успешно применен к различным типам данных, становясь универсальным инструментом для встраивания в ваши продуктовые процессы. Все подробности — под катом.

    habr.com/ru/companies/ru_mts/a

    #psi #adversarial_validation #data_quality #spark #udf

  44. Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных

    Привет, Хабр! Меня зовут Яна и я работаю Data Quality в департаменте развития аналитики "Цепочки поставок и поддерживающие функции" X5 Tech. В этой статье мы с моей коллегой Наташей , менеджером по качеству данных, решили рассказать о мониторинге качества данных большинства отчётов нашей команды. На первый взгляд может показаться, что проверять таблицы – задача рутинная и однотипная, но это не так, ведь все данные имеют свои особенности, а значит и проверки для них зачастую создаются уникальные. Статья, как нам кажется, будет полезна тем, кто интересуется качеством данных, ищет подходы к мониторингу или хочет больше узнать о работе DQ в целом.

    habr.com/ru/companies/X5Tech/a

    #data_quality #bigdata #качество_данных #качество_данных_(data_quality) #мониторинг_данных #dq #анализ_данных #аналитика #аналитика_данных

  45. Reference Data Management по-русски: что мы называем НСИ и почему это не всегда RDM

    В российских проектах НСИ часто выходит далеко за рамки справочников и включает задачи MDM и Data Quality. Разбираемся, чем это отличается от классического RDM и к чему это приводит.

    habr.com/ru/companies/datasapi

    #RDM #НСИ #Reference_Data_Management #MDM #Master_Data_Management #Data_Quality #Справочные_данные #Управление_данными #Data_governance

  46. Reference Data Management по-русски: что мы называем НСИ и почему это не всегда RDM

    В российских проектах НСИ часто выходит далеко за рамки справочников и включает задачи MDM и Data Quality. Разбираемся, чем это отличается от классического RDM и к чему это приводит.

    habr.com/ru/companies/datasapi

    #RDM #НСИ #Reference_Data_Management #MDM #Master_Data_Management #Data_Quality #Справочные_данные #Управление_данными #Data_governance

  47. [Перевод] AI и Data engineering: Что реально происходит с профессией?

    Сразу успокоим читателя: AI не вытеснил data-инженера из рабочего процесса. Наоборот, он сделал эту роль еще более значимой. И в этой статье объясняется, что именно это означает для вас и вашей профессии. Не с точки зрения технологий и инструментов, а с точки зрения изменения зоны ответственности. AI, как и везде, конечно классно справляется с некоторыми задачами, но всю ответственность по-прежнему несет человек. Весь контекст не передашь через промпт, и AI не делает компромиссных решений. Большинство систем не выходят из строя, потому что было сложно написать код. Выходят потому что решения по разработке были приняты поспешно, и без четкого понимания, кто и как этими системами будет пользоваться. И AI еще быстрее за нас принимает решения, но все те же риски «непонимания контекста» остаются.

    habr.com/ru/articles/1002036/

    #ai #качество_данных #data_quality #etl #data_engineering #data_engineer #schema #модель_данных #искусственный_интеллект #инженер_данных

  48. [Перевод] AI и Data engineering: Что реально происходит с профессией?

    Сразу успокоим читателя: AI не вытеснил data-инженера из рабочего процесса. Наоборот, он сделал эту роль еще более значимой. И в этой статье объясняется, что именно это означает для вас и вашей профессии. Не с точки зрения технологий и инструментов, а с точки зрения изменения зоны ответственности. AI, как и везде, конечно классно справляется с некоторыми задачами, но всю ответственность по-прежнему несет человек. Весь контекст не передашь через промпт, и AI не делает компромиссных решений. Большинство систем не выходят из строя, потому что было сложно написать код. Выходят потому что решения по разработке были приняты поспешно, и без четкого понимания, кто и как этими системами будет пользоваться. И AI еще быстрее за нас принимает решения, но все те же риски «непонимания контекста» остаются.

    habr.com/ru/articles/1002036/

    #ai #качество_данных #data_quality #etl #data_engineering #data_engineer #schema #модель_данных #искусственный_интеллект #инженер_данных

  49. [Перевод] AI и Data engineering: Что реально происходит с профессией?

    Сразу успокоим читателя: AI не вытеснил data-инженера из рабочего процесса. Наоборот, он сделал эту роль еще более значимой. И в этой статье объясняется, что именно это означает для вас и вашей профессии. Не с точки зрения технологий и инструментов, а с точки зрения изменения зоны ответственности. AI, как и везде, конечно классно справляется с некоторыми задачами, но всю ответственность по-прежнему несет человек. Весь контекст не передашь через промпт, и AI не делает компромиссных решений. Большинство систем не выходят из строя, потому что было сложно написать код. Выходят потому что решения по разработке были приняты поспешно, и без четкого понимания, кто и как этими системами будет пользоваться. И AI еще быстрее за нас принимает решения, но все те же риски «непонимания контекста» остаются.

    habr.com/ru/articles/1002036/

    #ai #качество_данных #data_quality #etl #data_engineering #data_engineer #schema #модель_данных #искусственный_интеллект #инженер_данных