#openmetadata — Public Fediverse posts on home.social

Crossref @[email protected] · 2026-05-12 · 18:37 UTC

Kami membuat metadata jadi lebih mudah.

Pelajari cara mendepositkan metadata artikel dengan Metadata Manager baru + tips meningkatkan kualitas Meatadata lewat Participation Reports.

Gratis, ayo segera daftar: https://crossref.zoom.us/webinar/register/5817739341484/WN_Ru5JQaXJTrqPq2_TbWLooA
#publikasischolarly #openmetadata

#publikasischolarly #openmetadata

Crossref @[email protected] · 2026-05-12 · 18:37 UTC

Kami membuat metadata jadi lebih mudah.

Pelajari cara mendepositkan metadata artikel dengan Metadata Manager baru + tips meningkatkan kualitas Meatadata lewat Participation Reports.

Gratis, ayo segera daftar: https://crossref.zoom.us/webinar/register/5817739341484/WN_Ru5JQaXJTrqPq2_TbWLooA
#publikasischolarly #openmetadata

#publikasischolarly #openmetadata

Crossref @[email protected] · 2026-05-12 · 18:37 UTC

Kami membuat metadata jadi lebih mudah.

Pelajari cara mendepositkan metadata artikel dengan Metadata Manager baru + tips meningkatkan kualitas Meatadata lewat Participation Reports.

Gratis, ayo segera daftar: https://crossref.zoom.us/webinar/register/5817739341484/WN_Ru5JQaXJTrqPq2_TbWLooA
#publikasischolarly #openmetadata

#publikasischolarly #openmetadata

Crossref @[email protected] · 2026-05-12 · 18:37 UTC

Kami membuat metadata jadi lebih mudah.

Pelajari cara mendepositkan metadata artikel dengan Metadata Manager baru + tips meningkatkan kualitas Meatadata lewat Participation Reports.

Gratis, ayo segera daftar: https://crossref.zoom.us/webinar/register/5817739341484/WN_Ru5JQaXJTrqPq2_TbWLooA
#publikasischolarly #openmetadata

#openmetadata #publikasischolarly

Crossref @[email protected] · 2026-05-12 · 18:37 UTC

Kami membuat metadata jadi lebih mudah.

Pelajari cara mendepositkan metadata artikel dengan Metadata Manager baru + tips meningkatkan kualitas Meatadata lewat Participation Reports.

Gratis, ayo segera daftar: https://crossref.zoom.us/webinar/register/5817739341484/WN_Ru5JQaXJTrqPq2_TbWLooA
#publikasischolarly #openmetadata

#publikasischolarly #openmetadata

Data for Breakfast @[email protected] · 2026-05-08 · 19:57 UTC

Bringing Metadata to Life at Automattic with OpenMetadata

The metadata problem at scale

Automattic’s data ecosystem is large and highly interconnected: thousands of Iceberg tables and views queried via Trino, thousands of Airflow tasks producing and updating them via Spark jobs, and a growing catalogue of Looker and Superset dashboards and charts on top.

Most of the information about these assets exists somewhere, scattered across version control (like Git), schema registries (in some metastore like HiveMetastore), and the heads of whoever built the pipeline.

Anyone working with our data eventually hits the same wall:

Which table should I query?
Where did this data come from?
Was it updated recently? When?
Who owns this pipeline?
Has this table grown recently, and was the latest run healthy?

These questions come up repeatedly. Answering even one usually requires knowing the right system to check, or the right person to ask. That doesn’t scale. It has become a bottleneck not just for humans, but also for the AI agents we increasingly want to put in front of our data.

We tried to address this with internal documentation pages describing our tables. They helped, but two gaps remained: people still struggled to find the right asset, and there was no lineage information. The most important question, “where does this data actually come from?”, kept going unanswered.

Why OpenMetadata

After surveying metadata solutions (where metadata is essentially “data about data”) and discovery solutions (DataHub, Marquez, Amundsen, Apache Atlas, Unity, ODD, OpenMetadata, and more), we picked OpenMetadata as the platform to consolidate everything: one user interface, one API, one graph that connects tables, dashboards, owners, profiles, quality checks, and lineage.

The platform is now live internally, and we are actively ingesting metadata from Trino, Airflow, Superset, and Looker.

What it gives us

A single source of truth for discovery

A centralized UI where anyone can find tables, dashboards, charts, and metrics; explore schemas and column‑level descriptions; browse ownership; check data quality results; and navigate relationships without needing to know where to look.

End-to-end lineage

Trace how a table was produced, which Airflow job ran, which upstream tables it depends on, and which dashboards consume it. Before changing a schema, you can assess downstream impact and understand the blast radius.

Data quality in the catalog

A database catalog is a centralized, self‑describing repository storing metadata about database objects such as tables, views, columns, users, and constraints. Quality tests check results live alongside the tables they validate, so users can confirm freshness and correctness without leaving the catalog.

Live profiling

Row counts and last‑updated timestamps are captured after each pipeline run, keeping the catalog in sync with the actual state of the data. This also helps answer questions like “how much has this table grown in the last 15 days?”

Auditing and change tracking

Schema, ownership, and annotation changes are versioned for debugging and compliance. Users can also be notified of schema updates, critical for catching issues that might break dashboards.

Why this matters for AI agents

OpenMetadata is not just for humans.

An AI agent querying Trino without metadata context produces unreliable results: it cannot know which of twelve similarly named tables is the authoritative one, whether a column is still maintained, or what a given metric actually represents. At scale, this becomes more than a discovery problem. It becomes an operational risk.

Increasingly, we want AI agents and automation systems to interact directly with our data platform: generate queries, investigate incidents, validate transformations, understand lineage, and reason about data quality. Without metadata, those systems are effectively blind and more prone to AI agent hallucinations.

The same context humans rely on, ownership, lineage, freshness, semantics, and quality signals, is also what allows agents to operate safely and intelligently on top of a modern data platform.

With a rich metadata graph in place—table descriptions, column semantics, lineage, ownership, and quality results—agents can make the same informed decisions as a data engineer.

A few concrete things a metadata‑aware agent can do that a blind agent cannot:

Resolve ambiguous table references by checking descriptions, ownership, and lineage before writing a query.
Warn before suggesting a transformation that would break a downstream dashboard by walking the lineage graph first.
Surface data quality failures as context (e.g., “this table failed a column check 3 days ago”), and, if the agent has access to the repository and understands the pipeline, even fix the issue.
Identify the right owner to contact when a table needs to be dropped or its schema changed.

We are currently testing an MCP server that exposes OpenMetadata to AI agents, allowing them to search assets, fetch schemas, navigate lineage, and retrieve quality results, with semantic search for more precise answers.

Semantic search in OpenMetadata currently only works with OpenSearch. Since we run Elasticsearch, we are contributing the Elasticsearch implementation upstream so the same capability works on both backends.

How we keep the catalog fresh

Two complementary ingestion paths feed OpenMetadata, keeping the catalog continuously up to date:

Async (DAG‑based)
An Airflow DAG (openmetadata_ingestion) crawls Trino, Airflow, Superset, and Looker on a schedule. Each source runs as a YARN task (isolated) via a reusable OpenMetadataWorkflowOperator, using the official openmetadata‑ingestion library. This keeps the broader catalog up to date without coupling ingestion to individual pipeline runs.
Sync (per‑run)
An OpenMetadataSync module integrated into the Spark task execution lifecycle posts metadata updates after every job: table schema, column descriptions, ownership, lineage, row counts from the Iceberg snapshot, and the results of any data quality checks.

High-value, frequently updated tables stay continuously fresh without waiting for the next scheduled crawl (which still captures deleted and static tables).

Where out‑of‑the‑box connectors fall short, particularly for lineage edges they cannot infer, we close the gap with custom integrations using the OpenMetadata API directly. We also noticed that some Looker and Superset lineage and ownership mappings do not work as expected and require additional development.

Where we are, and what’s next

The OpenMetadata infrastructure and async ingestion DAG were recently deployed in our internal system. Even in its early stages, the catalog is already indexing tens of thousands of data assets across our analytics ecosystem, including Looker, Trino, Superset, and Airflow.

33k+ assets already indexed

The remaining work falls into a few areas:

Sync ingestion of per‑run metadata from Spark jobs.
Ownership and lineage enrichment for Superset and Looker.
Column‑level lineage via the OpenLineage Spark connector.
MCP and agent integration to fully connect the catalog with AI workflows.

We have also started contributing fixes and improvements back to the OpenMetadata open‑source project.

If you build on top of Automattic’s data, whether as a human being or an agent, this is the layer that should make every next answer faster, safer, and easier to find.

#ai #DataLineage #DataScience #Metadata #OpenMetadata

#openmetadata #metadata #datascience #datalineage #ai

Crossref @[email protected] · 2026-05-07 · 19:55 UTC

Yesterday, our colleague @Helena Cousijn attended the EARMA Annual Conference 2026 in Utrecht, where she facilitated a breakout table discussion on "Leveraging open research metadata in your work."

Great to see the #research management community engaging with open #metadata and how it can support their day-to-day work.

#EARMA2026 #OpenMetadata #ResearchManagement

#research #metadata #earma2026 #openmetadata #researchmanagement

Crossref @[email protected] · 2026-05-04 · 19:24 UTC

Ikuti webinar kami pada 20 Mei dan pelajari cara menggunakan Record Registration Form baru dari Crossref, tanpa perlu XML. Daftar sekarang: https://crossref.zoom.us/webinar/register/1017739341558/WN_Ru5JQaXJTrqPq2_TbWLooA #publikasischolarly #openmetadata

#openmetadata #publikasischolarly

Crossref @[email protected] · 2026-04-29 · 22:29 UTC

We've developed a new strategy for matching funder names to @[email protected] IDs to further enrich our member's metadata to show how research is connected. Read more: https://doi.org/10.64000/d3f5t-g5017 #ResearchNexus #DataScience #OpenMetadata #ResearchFunding

#researchfunding #openmetadata #datascience #researchnexus

Habr @[email protected] · 2026-04-07 · 05:22 UTC

Объясняю на пальцах — зачем твоему бизнесу каталог данных

Статья носит исключительно образовательный/ознакомительный характер. Она не служит цели, рекламировать какой-либо инструмент или ПО. Все наименования программного обеспечения, упомянутые в статье приведены из личного опыта. Ну-ка что там

https://habr.com/ru/articles/1020142/

#openmetadata #каталог_данных #датакаталог #datacatalog #data_governance #управление_данными #big_data #datahub #data #datadriven

#datadriven #data #datahub #big_data #управление_данными #data_governance

Habr @[email protected] · 2026-04-07 · 05:22 UTC

Объясняю на пальцах — зачем твоему бизнесу каталог данных

Статья носит исключительно образовательный/ознакомительный характер. Она не служит цели, рекламировать какой-либо инструмент или ПО. Все наименования программного обеспечения, упомянутые в статье приведены из личного опыта. Ну-ка что там

https://habr.com/ru/articles/1020142/

#openmetadata #каталог_данных #датакаталог #datacatalog #data_governance #управление_данными #big_data #datahub #data #datadriven

#datadriven #data #datahub #big_data #управление_данными #data_governance

Habr @[email protected] · 2026-04-07 · 05:22 UTC

Объясняю на пальцах — зачем твоему бизнесу каталог данных

Статья носит исключительно образовательный/ознакомительный характер. Она не служит цели, рекламировать какой-либо инструмент или ПО. Все наименования программного обеспечения, упомянутые в статье приведены из личного опыта. Ну-ка что там

https://habr.com/ru/articles/1020142/

#openmetadata #каталог_данных #датакаталог #datacatalog #data_governance #управление_данными #big_data #datahub #data #datadriven

#datadriven #data #datahub #big_data #управление_данными #data_governance

Habr @[email protected] · 2026-04-07 · 05:22 UTC

Объясняю на пальцах — зачем твоему бизнесу каталог данных

Статья носит исключительно образовательный/ознакомительный характер. Она не служит цели, рекламировать какой-либо инструмент или ПО. Все наименования программного обеспечения, упомянутые в статье приведены из личного опыта. Ну-ка что там

https://habr.com/ru/articles/1020142/

#openmetadata #каталог_данных #датакаталог #datacatalog #data_governance #управление_данными #big_data #datahub #data #datadriven

#openmetadata #каталог_данных #датакаталог #datacatalog #data_governance #управление_данными

Habr @[email protected] · 2026-03-24 · 09:22 UTC

Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.

https://habr.com/ru/companies/kryptonite/articles/1014180/

#data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT

#карьера_в_it #etl #great_expectations #quality_assurance #качество_данных #soda

Habr @[email protected] · 2026-03-24 · 09:22 UTC

Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.

https://habr.com/ru/companies/kryptonite/articles/1014180/

#data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT

#карьера_в_it #etl #great_expectations #quality_assurance #качество_данных #soda

Habr @[email protected] · 2026-03-24 · 09:22 UTC

Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.

https://habr.com/ru/companies/kryptonite/articles/1014180/

#data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT

#карьера_в_it #etl #great_expectations #quality_assurance #качество_данных #soda

Habr @[email protected] · 2026-03-24 · 09:22 UTC

Кто такой инженер по обеспечению качества данных и почему без него уже не обойтись?

Современный бизнес переживает очередную трансформацию под влиянием информационных технологий. Он движется от стадии слепого принятия концепций больших данных (Big data) и искусственного интеллекта к более осознанной работе с информацией. На этом фоне появляются новые профессии, такие как инженер по обеспечению качества данных — data quality assurance engineer, или просто инженер DQ, как часто указывают в вакансиях. Почему эта профессия на пике востребованности, где она нужна и кому легче освоить её прямо сейчас? На эти и другие вопросы отвечают эксперты российской ИТ-компании «Криптонит»: руководитель департамента тестирования Александр Гречин и ведущий инженер по тестированию качества данных Вероника Казакова. Как и в любой профессиональной среде, у специалистов по работе с данными есть своя терминология. Мы подготовили краткий глоссарий, чтобы говорить с вами на одном языке: Метаданные, или «данные о данных» — это их происхождение (источник), формат, время создания, правила обработки и контроля качества. Например, к нам загружаются таблицы с данными о компании (ИНН, названием компании, коды ОКВЭД и так далее). Здесь метаданные — это атрибуты таблицы (какие колонки мы загружаем, какой в них тип данных, обязательно ли их заполнение, какие правила мы накладываем на значения. Пайплайны (data pipelines): автоматизированные последовательности получения, преобразования и перемещения данных из источников в хранилища. Пайплайны работают как конвейеры, подготавливающие сырые данные для их дальнейшего анализа.

https://habr.com/ru/companies/kryptonite/articles/1014180/

#data_quality #qa_engineer #data_driven #OpenMetadata #Soda #качество_данных #quality_assurance #Great_Expectations #ETL #карьера_в_IT

#data_quality #qa_engineer #data_driven #openmetadata #soda #качество_данных

DataCite @[email protected] · 2026-03-17 · 19:21 UTC

New metadata dashboards are here! 🎉 Explore metadata quality and completeness across key properties and spot opportunities to boost discoverability and impact. Search for an organization or repository at metadata.datacite.org and read the announcement for more details: https://doi.org/10.5438/p7h4-9s17
@kelly
#openscience #openresearch #openmetadata #openinfrastructure #metadata

#openscience #openresearch #openmetadata #openinfrastructure #metadata

Habr @[email protected] · 2026-02-24 · 15:02 UTC

Data catalog есть, а пользы нет: Частые ошибки внедрения

Data governance, data mesh, modern data stack, data lineage – столько разных data, столько разных популярных подходов и инструментов. Лидером по популярности (на мой скромный взгляд) среди всех них является data catalog. Многие говорят о нем, многие хотят его, многие уже внедрили. Но внедрить это одно дело, а вот получить от него пользу – дело совсем другое. Мы сформировали список самых частых проблем, основанные не только на нашем опыте, но и на опыте наших коллег, проанализировав множество статей и материалов на эту тему.

https://habr.com/ru/articles/1003158/

#data_catalog #data_governance #openmetadata #datahub #ai #metadata #метаданные #каталог_данных #управление_данными #data_quality

#data_quality #управление_данными #каталог_данных #метаданные #metadata #ai

Habr @[email protected] · 2026-02-24 · 15:02 UTC

Data catalog есть, а пользы нет: Частые ошибки внедрения

Data governance, data mesh, modern data stack, data lineage – столько разных data, столько разных популярных подходов и инструментов. Лидером по популярности (на мой скромный взгляд) среди всех них является data catalog. Многие говорят о нем, многие хотят его, многие уже внедрили. Но внедрить это одно дело, а вот получить от него пользу – дело совсем другое. Мы сформировали список самых частых проблем, основанные не только на нашем опыте, но и на опыте наших коллег, проанализировав множество статей и материалов на эту тему.

https://habr.com/ru/articles/1003158/

#data_catalog #data_governance #openmetadata #datahub #ai #metadata #метаданные #каталог_данных #управление_данными #data_quality

#data_quality #управление_данными #каталог_данных #метаданные #metadata #ai

Habr @[email protected] · 2026-02-24 · 15:02 UTC

Data catalog есть, а пользы нет: Частые ошибки внедрения

Data governance, data mesh, modern data stack, data lineage – столько разных data, столько разных популярных подходов и инструментов. Лидером по популярности (на мой скромный взгляд) среди всех них является data catalog. Многие говорят о нем, многие хотят его, многие уже внедрили. Но внедрить это одно дело, а вот получить от него пользу – дело совсем другое. Мы сформировали список самых частых проблем, основанные не только на нашем опыте, но и на опыте наших коллег, проанализировав множество статей и материалов на эту тему.

https://habr.com/ru/articles/1003158/

#data_catalog #data_governance #openmetadata #datahub #ai #metadata #метаданные #каталог_данных #управление_данными #data_quality

#data_quality #управление_данными #каталог_данных #метаданные #metadata #ai

Habr @[email protected] · 2026-02-24 · 15:02 UTC

Data catalog есть, а пользы нет: Частые ошибки внедрения

Data governance, data mesh, modern data stack, data lineage – столько разных data, столько разных популярных подходов и инструментов. Лидером по популярности (на мой скромный взгляд) среди всех них является data catalog. Многие говорят о нем, многие хотят его, многие уже внедрили. Но внедрить это одно дело, а вот получить от него пользу – дело совсем другое. Мы сформировали список самых частых проблем, основанные не только на нашем опыте, но и на опыте наших коллег, проанализировав множество статей и материалов на эту тему.

https://habr.com/ru/articles/1003158/

#data_catalog #data_governance #openmetadata #datahub #ai #metadata #метаданные #каталог_данных #управление_данными #data_quality

#data_catalog #data_governance #openmetadata #datahub #ai #metadata

Habr @[email protected] · 2026-02-13 · 14:12 UTC

Хороший, плохой, злой: База данных, data catalog и AI

Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде всего свою работу в некоторых аспектах. И первым инструментом сделали генерацию бизнес-описания на основе AI. Назвали Datadesc (data + description). Об этом опыте и пойдет речь в этой статье.

https://habr.com/ru/articles/996288/

#dwh #sql #data_catalog #openmetadata #datahub #data_engineering #data_analyst #semantic #arenadata_catalog #ai

#ai #arenadata_catalog #semantic #data_analyst #data_engineering #datahub

Habr @[email protected] · 2026-02-13 · 14:12 UTC

Хороший, плохой, злой: База данных, data catalog и AI

Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде всего свою работу в некоторых аспектах. И первым инструментом сделали генерацию бизнес-описания на основе AI. Назвали Datadesc (data + description). Об этом опыте и пойдет речь в этой статье.

https://habr.com/ru/articles/996288/

#dwh #sql #data_catalog #openmetadata #datahub #data_engineering #data_analyst #semantic #arenadata_catalog #ai

#ai #arenadata_catalog #semantic #data_analyst #data_engineering #datahub

Habr @[email protected] · 2026-02-13 · 14:12 UTC

Хороший, плохой, злой: База данных, data catalog и AI

Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде всего свою работу в некоторых аспектах. И первым инструментом сделали генерацию бизнес-описания на основе AI. Назвали Datadesc (data + description). Об этом опыте и пойдет речь в этой статье.

https://habr.com/ru/articles/996288/

#dwh #sql #data_catalog #openmetadata #datahub #data_engineering #data_analyst #semantic #arenadata_catalog #ai

#ai #arenadata_catalog #semantic #data_analyst #data_engineering #datahub

Habr @[email protected] · 2026-02-13 · 14:12 UTC

Хороший, плохой, злой: База данных, data catalog и AI

Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде всего свою работу в некоторых аспектах. И первым инструментом сделали генерацию бизнес-описания на основе AI. Назвали Datadesc (data + description). Об этом опыте и пойдет речь в этой статье.

https://habr.com/ru/articles/996288/

#dwh #sql #data_catalog #openmetadata #datahub #data_engineering #data_analyst #semantic #arenadata_catalog #ai

#dwh #sql #data_catalog #openmetadata #datahub #data_engineering

DataCite @[email protected] · 2026-02-04 · 13:11 UTC

DataCite’s public data file is now available in the Dimensions BigQuery Lab through a partnership with Digital Science! Explore & analyze metadata for 100M+ research outputs and resources—open by default and free to access on Google BigQuery. https://doi.org/10.5438/p8kv-df04

#OpenMetadata #OpenInfrastructure

#openmetadata #openinfrastructure

Thoth Open Metadata @[email protected] · 2026-01-22 · 11:40 UTC

📚✨ Now live: What does the FIL Guadalajara reveal about the circulation of academic books?

This post reflects on conversations from the fair and connects them to the role of Thoth Open Metadata and SciELO Books in enabling the discovery, circulation, and long-term sustainability of open access academic books.
🔗 https://copim.pub/fil-guadalajara-academic-books-thoth-open-metadata-scielo-livros/

#OpenAccess #OpenMetadata #OpenInfrastructure #OAbooks

#openaccess #openmetadata #openinfrastructure #oabooks

Serhii Nazarovets @[email protected] · 2026-01-20 · 18:31 UTC

Sitting without electricity and heating, but still thinking about… open #bibliometric data. Sharing our presentation from Bergen 2025. Even in these conditions, we keep building resilient research infrastructures:

👉 https://doi.org/10.6084/m9.figshare.30753224

The bibliometrics market is a textbook case of market failure: monopolies dominate, national research stays invisible, and profit beats #data quality. That’s why national infrastructures and #openmetadata really matter.

#OpenScience #OpenData #SciencePolicy

#bibliometric #data #openmetadata #openscience #opendata #sciencepolicy

Barcelona Declaration @[email protected] · 2025-12-18 · 12:48 UTC

Highlights from the post:
✨ funding statements alone aren’t sufficient
🔎 enables analysis & verification across outputs
🏗️ infrastructure matters (e.g. Crossref Grant IDs) + stronger workflows
🔗 clear roles for funders, publishers & infrastructure providers

#OpenResearchInformation #FundingMetadata #OpenMetadata #ResearchTransparency #OpenScience

#openresearchinformation #fundingmetadata #openmetadata #researchtransparency #openscience

Crossref @[email protected] · 2025-12-17 · 18:40 UTC

New blog post on how Wellcome and Europe PMC are using the Crossref Grant Linking System to improve funding transparency and reduce reporting burden through open metadata. https://doi.org/10.64000/c1dh8-qn968

#OpenResearch #OpenMetadata #OpenInfrastructure

#openresearch #openmetadata #openinfrastructure

COPIM @[email protected] · 2025-11-19 · 09:00 UTC

Join @Thoth_metadata @PublicKnowledgeProject at the 20th Munin Conference on Scholarly Publishing TODAY!

🖊️ Moving beyond closed silos: liberating workflows based on open metadata to bring about an interoperable and open not-for-profit ecosystem for open access books and chapters
⏰ 12:00-12:10
🔗 https://buff.ly/3BX2Ahl

#Munin2025 #OpenMetadata #MetadataMatters #OpenAccess #OpenData

#munin2025 #openmetadata #metadatamatters #openaccess #opendata

COPIM @[email protected] · 2025-11-19 · 09:00 UTC

Join @Thoth_metadata @PublicKnowledgeProject at the 20th Munin Conference on Scholarly Publishing TODAY!

🖊️ Moving beyond closed silos: liberating workflows based on open metadata to bring about an interoperable and open not-for-profit ecosystem for open access books and chapters
⏰ 12:00-12:10
🔗 https://buff.ly/3BX2Ahl

#Munin2025 #OpenMetadata #MetadataMatters #OpenAccess #OpenData

#munin2025 #openmetadata #metadatamatters #openaccess #opendata

Luis M. Montilla @[email protected] · 2025-10-23 · 10:47 UTC

ICYMI: @crossref is launching the new Participation Reports, already available at https://www.crossref.org/members/prep/. Read about what's new and why more transparency on #openmetadata is important for movements like @BarcelonaDORI
, not to mention insights for members themselves https://doi.org/10.64000/8d5ga-2n897

#openmetadata

COPIM @[email protected] · 2025-10-22 · 08:01 UTC

Join @Thoth_metadata at #DCMI2025 all week

Today they're sharing a poster

📝 Open Access, Open Data, Open Archiving: Liberating Metadata Flows across the OA Books Landscape
📌 University of Barcelona, Spain
🔗 https://buff.ly/BjlTux1

#OpenMetadata #MetadataMatters #OABooks

#dcmi2025 #openmetadata #metadatamatters #oabooks

ilkayholt @[email protected] · 2025-10-21 · 15:43 UTC

👩🏻‍💻 Checking the Day 2 Wed. 23Oct programme at #OpenEngaged #OAWeek:
🌟Lightning talks: #SafeguardingResearch #Datarescue #CARE #OpenGLAM #Accessibility
🌟Technology, Power, and Equitable Design session. #LocalContexts #OpenCitations #OpenMetadata
✅ Register https://openscholarship.gitbook.io/open-and-engaged-2025/day-2-wednesday-22-october

#openengaged #oaweek #safeguardingresearch #datarescue #care #openglam

COPIM @[email protected] · 2025-10-21 · 08:01 UTC

✈️ @Thoth_metadata are a busy lot!

They'll be at #DCMI2025 all week

Catch them delivering a lightening talk at the Open Metadata Clinic TODAY

📌 University of Barcelona, Spain
🔗 https://buff.ly/BjlTux1

#OpenMetadata #MetadataMatters #OABooks

#dcmi2025 #openmetadata #metadatamatters #oabooks

The Munin Conference @[email protected] · 2025-10-13 · 12:57 UTC

🌍 New panel at #Munin2025! 🌍
How can publishers make more – and better – scholarly metadata openly available?
Join top experts from OA2020, DOAJ, CERN & PKP to explore strategies for #OpenMetadata & #OpenResearchInformation 💬
🔗 https://doi.org/10.7557/5.8155

#OpenScience #UiTNorway

#munin2025 #openmetadata #openresearchinformation #openscience #uitnorway

The Munin Conference @[email protected] · 2025-10-13 · 12:57 UTC

🌍 New panel at #Munin2025! 🌍
How can publishers make more – and better – scholarly metadata openly available?
Join top experts from OA2020, DOAJ, CERN & PKP to explore strategies for #OpenMetadata & #OpenResearchInformation 💬
🔗 https://doi.org/10.7557/5.8155

#OpenScience #UiTNorway

#munin2025 #openmetadata #openresearchinformation #openscience #uitnorway

The Munin Conference @[email protected] · 2025-10-13 · 12:57 UTC

🌍 New panel at #Munin2025! 🌍
How can publishers make more – and better – scholarly metadata openly available?
Join top experts from OA2020, DOAJ, CERN & PKP to explore strategies for #OpenMetadata & #OpenResearchInformation 💬
🔗 https://doi.org/10.7557/5.8155

#OpenScience #UiTNorway

#munin2025 #openmetadata #openresearchinformation #openscience #uitnorway

The Munin Conference @[email protected] · 2025-10-13 · 12:57 UTC

🌍 New panel at #Munin2025! 🌍
How can publishers make more – and better – scholarly metadata openly available?
Join top experts from OA2020, DOAJ, CERN & PKP to explore strategies for #OpenMetadata & #OpenResearchInformation 💬
🔗 https://doi.org/10.7557/5.8155

#OpenScience #UiTNorway

#uitnorway #openscience #openresearchinformation #openmetadata #munin2025

The Munin Conference @[email protected] · 2025-10-13 · 12:57 UTC

🌍 New panel at #Munin2025! 🌍
How can publishers make more – and better – scholarly metadata openly available?
Join top experts from OA2020, DOAJ, CERN & PKP to explore strategies for #OpenMetadata & #OpenResearchInformation 💬
🔗 https://doi.org/10.7557/5.8155

#OpenScience #UiTNorway

#munin2025 #openmetadata #openresearchinformation #openscience #uitnorway

Bianca Kramer @[email protected] · 2025-10-07 · 09:11 UTC

Is there a relationship between the metadata publishers submit to Crossref and the submission systems they use? 🤔

In this new preprint with @HLdeJonge, we analyzed 153 publishers and 4 major systems to find out.

👉 https://doi.org/10.31222/osf.io/ndx3f_v1

#OpenScience #Crossref #OpenMetadata #Publishing

#openscience #crossref #openmetadata #publishing

César Pallares :damnified: @[email protected] · 2025-10-03 · 20:29 UTC

Pleased to join the Joint Task Force on Negotiating Openness of Publication Metadata, launched by Barcelona Declaration and OA2020.
Publication metadata locked behind paywalls limits transparency and academic sovereignty. Our task force will develop practical negotiation frameworks and tools to embed metadata openness in publisher agreements.
Co-chaired by Miranda Bennett and Ludo Waltman.
#OpenScience #OpenMetadata #BarcelonaDeclaration #OA2020
https://oa2020.org/2025/10/02/barcelona-declaration-and-oa2020-launch-joint-task-force-on-negotiating-openness-of-publication-metadata/

#oa2020 #barcelonadeclaration #openmetadata #openscience

César Pallares :damnified: @[email protected] · 2025-10-03 · 20:29 UTC

Pleased to join the Joint Task Force on Negotiating Openness of Publication Metadata, launched by Barcelona Declaration and OA2020.
Publication metadata locked behind paywalls limits transparency and academic sovereignty. Our task force will develop practical negotiation frameworks and tools to embed metadata openness in publisher agreements.
Co-chaired by Miranda Bennett and Ludo Waltman.
#OpenScience #OpenMetadata #BarcelonaDeclaration #OA2020
https://oa2020.org/2025/10/02/barcelona-declaration-and-oa2020-launch-joint-task-force-on-negotiating-openness-of-publication-metadata/

#oa2020 #barcelonadeclaration #openmetadata #openscience

César Pallares :damnified: @[email protected] · 2025-10-03 · 20:29 UTC

Pleased to join the Joint Task Force on Negotiating Openness of Publication Metadata, launched by Barcelona Declaration and OA2020.
Publication metadata locked behind paywalls limits transparency and academic sovereignty. Our task force will develop practical negotiation frameworks and tools to embed metadata openness in publisher agreements.
Co-chaired by Miranda Bennett and Ludo Waltman.
#OpenScience #OpenMetadata #BarcelonaDeclaration #OA2020
https://oa2020.org/2025/10/02/barcelona-declaration-and-oa2020-launch-joint-task-force-on-negotiating-openness-of-publication-metadata/

#oa2020 #barcelonadeclaration #openmetadata #openscience

César Pallares :damnified: @[email protected] · 2025-10-03 · 20:29 UTC

Pleased to join the Joint Task Force on Negotiating Openness of Publication Metadata, launched by Barcelona Declaration and OA2020.
Publication metadata locked behind paywalls limits transparency and academic sovereignty. Our task force will develop practical negotiation frameworks and tools to embed metadata openness in publisher agreements.
Co-chaired by Miranda Bennett and Ludo Waltman.
#OpenScience #OpenMetadata #BarcelonaDeclaration #OA2020
https://oa2020.org/2025/10/02/barcelona-declaration-and-oa2020-launch-joint-task-force-on-negotiating-openness-of-publication-metadata/

#openscience #openmetadata #barcelonadeclaration #oa2020

César Pallares :damnified: @[email protected] · 2025-10-03 · 20:29 UTC

Pleased to join the Joint Task Force on Negotiating Openness of Publication Metadata, launched by Barcelona Declaration and OA2020.
Publication metadata locked behind paywalls limits transparency and academic sovereignty. Our task force will develop practical negotiation frameworks and tools to embed metadata openness in publisher agreements.
Co-chaired by Miranda Bennett and Ludo Waltman.
#OpenScience #OpenMetadata #BarcelonaDeclaration #OA2020
https://oa2020.org/2025/10/02/barcelona-declaration-and-oa2020-launch-joint-task-force-on-negotiating-openness-of-publication-metadata/

#oa2020 #barcelonadeclaration #openmetadata #openscience

Crossref @[email protected] · 2025-08-26 · 16:04 UTC

One link gives you quick access to our blog, newsletter, forum, YouTube channel, API learning hub, and special programs. Bookmark for future reference: https://linktr.ee/crossref?mtm_campaign=crossref%20resources&mtm_source=MS&mtm_medium=social

#research #funders #librarians #community #openmetadata #scholarlycommunication

Barcelona Declaration @[email protected] · 2025-07-31 · 13:20 UTC

▶️ Bologna Meeting morning session
Welcome by @essepuntato & Raffaella Campaner
Update by @MsPhelps Implementation journeys from Carla Carbonell Cortés, @chodacki & Ana Ranitovic
https://www.youtube.com/watch?v=1USShJ5cO9U

▶️ WOOC2025 Day 2
Talks, lightning sessions & posters by key voices from the open research infrastructure community

📹 https://youtube.com/playlist?list=PLJfoW7ub2AkxzLLaXcpJOt5ccSdG24WH2&si=cRPwWEfBTKnXM1UF

#OpenResearch #OpenMetadata #BarcelonaDeclaration #WOOC2025 #OpenInfrastructure

#openresearch #openmetadata #barcelonadeclaration #wooc2025 #openinfrastructure