#data-lineage — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #data-lineage, aggregated by home.social.
-
Discover how data governance shapes business success. Real stories, best practices, and debate on data quality and security. #DataGovernance #DataQuality #DataSecurity #DataStewardship #DataManagementBestPractices #DataCompliance #DataOwnership #DataLineage #DataCulture #DataDrivenDecisions #DataAudit #DataTrust #DataProtection #DataStewardshipTeam #DataDictionary
https://medium.com/@sanjay.mohindroo66/data-governance-best-practices-ensuring-data-quality-and-security-62cc1aae0f1f -
Data lineage vergroot vertrouwen in overheidsdata
Overheden maken vaak gebruik van data om beleid te maken, dienstverlening te verbeteren en maatschappelijke vraagstukken aan te pakken. Maar hoe weet je of die data betrouwbaar is? Volgens een nieuw rapport van het Wetenschappelijk Onderzoek- en Documentatiecentrum (WODC) kan data lineage daarbij helpen.Wat is data lineage?
Data lineage betekent letterlijk ‘afstamming van data’. Het gaat om het in kaart brengen van de volledige reis die data aflegt: van het moment dat het wordt verzameld (bijvoorbeeld via een formulier), tot aan de verwerking, bewerking en het uiteindelijke gebruik in bijvoorbeeld dashboards of rapportages. Met data lineage kun je nagaan:
- waar de data vandaan komt;
- welke bewerkingen of transformaties zijn toegepast;
- in welke systemen of rapporten de data uiteindelijk terecht komt.
Waarom is dit belangrijk voor de overheid?
Data lineage helpt om fouten vroegtijdig te signaleren, risico’s in beeld te brengen en het vertrouwen in beleidsinformatie te vergroten, zowel binnen als buiten de organisatie. Het WODC benadrukt dat data lineage niet alleen een technisch hulpmiddel is, maar ook een stap richting professionalisering van datamanagement binnen de overheid.
Lees het nieuwsbericht van het WODC op hun website en bekijk het Engelstalige rapport.
Dit is een automatisch geplaatst bericht. Vragen of opmerkingen kun je richten aan @[email protected]
-
"AI is all about data. Reams and reams of data are needed to train algorithms to do what we want, and what goes into the AI models determines what comes out. But here’s the problem: AI developers and researchers don’t really know much about the sources of the data they are using. AI’s data collection practices are immature compared with the sophistication of AI model development. Massive data sets often lack clear information about what is in them and where it came from.
The Data Provenance Initiative, a group of over 50 researchers from both academia and industry, wanted to fix that. They wanted to know, very simply: Where does the data to build AI come from? They audited nearly 4,000 public data sets spanning over 600 languages, 67 countries, and three decades. The data came from 800 unique sources and nearly 700 organizations.
Their findings, shared exclusively with MIT Technology Review, show a worrying trend: AI's data practices risk concentrating power overwhelmingly in the hands of a few dominant technology companies."
https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/
-
#ModelExplainability, #DataLineage, and editing the #TrainingData set are topics that will be in the news next year…assuming we make it.
https://social.lol/@rom/112543674749743641 -
TFW you realize the dataset you’re pulling from for your analysis project drops data after 5 years AND THEY DON’T BOTHER TO SAY THAT IN THE DOCUMENTATION. 🤬
-
"[#DataAnalysts]..should know how the data was born, with all details of measurement... Few things have more devastating consequences ... than someone in the audience pointing out...measurement issues the analyst didn't consider." Békés and Kézdi, 2021: Data Analysis for Business, Economics, and Policy
If you're having trouble helping your org understand the value of #datalineage and #metadata, share this with them and ask if they know how all the data they're using was gathered and measured.
-
I wrote about the Lineage Diff for dbt projects feature of PipeRider:
You can compare then lineage DAG from both and after making code changes in dbt. It's really useful for debugging issues/seeing impact etc:
https://medium.com/inthepipeline/dbt-data-lineage-diff-impact-analysis-visualized-bec9927b0c4e
#DataOps #DataLineage #DataViz #DataQuality #DataTesting #DataEngineering