“dataplane” — Fediverse search results on home.social

Python Job Support @[email protected] · 2025-05-22 · 19:45 UTC

Apache Iceberg Deep Dive | Part 1 | Crash Course

Lakehouse #iceberg #Apache_Iceberg #datalake #data ... source

https://quadexcel.com/wp/apache-iceberg-deep-dive-part-1-crash-course/

#data #datalake #apache_iceberg #iceberg

(((@amarois))) @[email protected] · 2025-05-16 · 07:24 UTC

[Veille] la plateforme d'auto-formation Callisto-Formation des #Urfist accueille un cours adapté des travaux de Mariannig Le Béchec sur les #datapaper : "Nouveau cours en ligne : « Rédiger et publier un Data Paper »" => https://fondationcallisto.fr/nouveau-cours-en-ligne-rediger-et-publier-un-data-paper/
#openscience #researchdata #scienceouverte #data #research #ESR #autoformation #learning

#urfist #datapaper #openscience #researchdata #scienceouverte #data

(((@amarois))) @[email protected] · 2025-05-16 · 07:24 UTC

[Veille] la plateforme d'auto-formation Callisto-Formation des #Urfist accueille un cours adapté des travaux de Mariannig Le Béchec sur les #datapaper : "Nouveau cours en ligne : « Rédiger et publier un Data Paper »" => https://fondationcallisto.fr/nouveau-cours-en-ligne-rediger-et-publier-un-data-paper/
#openscience #researchdata #scienceouverte #data #research #ESR #autoformation #learning

#urfist #datapaper #openscience #researchdata #scienceouverte #data

(((@amarois))) @[email protected] · 2025-05-16 · 07:24 UTC

[Veille] la plateforme d'auto-formation Callisto-Formation des #Urfist accueille un cours adapté des travaux de Mariannig Le Béchec sur les #datapaper : "Nouveau cours en ligne : « Rédiger et publier un Data Paper »" => https://fondationcallisto.fr/nouveau-cours-en-ligne-rediger-et-publier-un-data-paper/
#openscience #researchdata #scienceouverte #data #research #ESR #autoformation #learning

#urfist #datapaper #openscience #researchdata #scienceouverte #data

(((@amarois))) @[email protected] · 2025-05-16 · 07:24 UTC

[Veille] la plateforme d'auto-formation Callisto-Formation des #Urfist accueille un cours adapté des travaux de Mariannig Le Béchec sur les #datapaper : "Nouveau cours en ligne : « Rédiger et publier un Data Paper »" => https://fondationcallisto.fr/nouveau-cours-en-ligne-rediger-et-publier-un-data-paper/
#openscience #researchdata #scienceouverte #data #research #ESR #autoformation #learning

#urfist #datapaper #openscience #researchdata #scienceouverte #data

Gytis Repečka @[email protected] · 2025-04-09 · 09:21 UTC

Attended an event Brewing Data with Snowflake yesterday in Vilnius :blobcatnerd:

Some of they key insights:

Medallion Architecture (good or bad) is widespread.
Snowflake and Databricks are clear competitors, targeting similar landscape.
Open formats are trending: file format, table format, catalog, etc. - the more of them are open source, the better.
Time travel feature is important, many users already used it for disaster recovery.
Clear distinction of Storage from Compute (generic cloud approach).

Full text of one of the slides presented:

Strategic Architecture Outlook
Agility & Future-Proofing - Open, portable data means you can adopt new technologies or switch platforms with minimal friction. No single vendor can hold your data hostage, so you can evolve vour architecture as needed.
Multi-Cloud and Hybrid - An open data layer can span clouds and on-prem seamlessly. You avoid cloud vendor lock-in and leverage best-of-breed services on different clouds using the same data. This flexibility is key for resilience and optimization.
Accelerating Innovation - When any team can access data with the tools of their choice, experimentation flourishes. Open data fosters Al/ML and cross-domain analytics since data isn't locked in silos - more innovation and insights from the same data.
Vendor Leverage - Strategically, using open standards increases your leverage in vendor negotiations. You car opt in or out of services more freely, pushing vendors to provide value (since you're not irreversibly locked to them).

#data #datalake #datalakehouse #medallion #architecture #snowflake #vilnius #lithuania #bigdata #event #meetup

#data #datalake #datalakehouse #medallion #architecture #snowflake

Digitale Overheid (geautomatiseerd account) @[email protected] · 2025-03-24 · 09:30 UTC

Data lineage vergroot vertrouwen in overheidsdata

Overheden maken vaak gebruik van data om beleid te maken, dienstverlening te verbeteren en maatschappelijke vraagstukken aan te pakken. Maar hoe weet je of die data betrouwbaar is? Volgens een nieuw rapport van het Wetenschappelijk Onderzoek- en Documentatiecentrum (WODC) kan data lineage daarbij helpen.

Wat is data lineage?

Data lineage betekent letterlijk ‘afstamming van data’. Het gaat om het in kaart brengen van de volledige reis die data aflegt: van het moment dat het wordt verzameld (bijvoorbeeld via een formulier), tot aan de verwerking, bewerking en het uiteindelijke gebruik in bijvoorbeeld dashboards of rapportages. Met data lineage kun je nagaan:

waar de data vandaan komt;
welke bewerkingen of transformaties zijn toegepast;
in welke systemen of rapporten de data uiteindelijk terecht komt.

Waarom is dit belangrijk voor de overheid?

Data lineage helpt om fouten vroegtijdig te signaleren, risico’s in beeld te brengen en het vertrouwen in beleidsinformatie te vergroten, zowel binnen als buiten de organisatie. Het WODC benadrukt dat data lineage niet alleen een technisch hulpmiddel is, maar ook een stap richting professionalisering van datamanagement binnen de overheid.

Lees het nieuwsbericht van het WODC op hun website en bekijk het Engelstalige rapport.

Dit is een automatisch geplaatst bericht. Vragen of opmerkingen kun je richten aan @[email protected]

#BetrouwbareData #DataLineage #nieuwsbrief62025 #WODC

#betrouwbaredata #datalineage #wodc #nieuwsbrief62025

Digitale Overheid (geautomatiseerd account) @[email protected] · 2025-03-24 · 09:30 UTC

Data lineage vergroot vertrouwen in overheidsdata

Overheden maken vaak gebruik van data om beleid te maken, dienstverlening te verbeteren en maatschappelijke vraagstukken aan te pakken. Maar hoe weet je of die data betrouwbaar is? Volgens een nieuw rapport van het Wetenschappelijk Onderzoek- en Documentatiecentrum (WODC) kan data lineage daarbij helpen.

Wat is data lineage?

Data lineage betekent letterlijk ‘afstamming van data’. Het gaat om het in kaart brengen van de volledige reis die data aflegt: van het moment dat het wordt verzameld (bijvoorbeeld via een formulier), tot aan de verwerking, bewerking en het uiteindelijke gebruik in bijvoorbeeld dashboards of rapportages. Met data lineage kun je nagaan:

waar de data vandaan komt;
welke bewerkingen of transformaties zijn toegepast;
in welke systemen of rapporten de data uiteindelijk terecht komt.

Waarom is dit belangrijk voor de overheid?

Data lineage helpt om fouten vroegtijdig te signaleren, risico’s in beeld te brengen en het vertrouwen in beleidsinformatie te vergroten, zowel binnen als buiten de organisatie. Het WODC benadrukt dat data lineage niet alleen een technisch hulpmiddel is, maar ook een stap richting professionalisering van datamanagement binnen de overheid.

Lees het nieuwsbericht van het WODC op hun website en bekijk het Engelstalige rapport.

Dit is een automatisch geplaatst bericht. Vragen of opmerkingen kun je richten aan @[email protected]

#BetrouwbareData #DataLineage #nieuwsbrief62025 #WODC

#betrouwbaredata #datalineage #wodc #nieuwsbrief62025

Digitale Overheid (geautomatiseerd account) @[email protected] · 2025-03-24 · 09:30 UTC

Data lineage vergroot vertrouwen in overheidsdata

Overheden maken vaak gebruik van data om beleid te maken, dienstverlening te verbeteren en maatschappelijke vraagstukken aan te pakken. Maar hoe weet je of die data betrouwbaar is? Volgens een nieuw rapport van het Wetenschappelijk Onderzoek- en Documentatiecentrum (WODC) kan data lineage daarbij helpen.

Wat is data lineage?

Data lineage betekent letterlijk ‘afstamming van data’. Het gaat om het in kaart brengen van de volledige reis die data aflegt: van het moment dat het wordt verzameld (bijvoorbeeld via een formulier), tot aan de verwerking, bewerking en het uiteindelijke gebruik in bijvoorbeeld dashboards of rapportages. Met data lineage kun je nagaan:

waar de data vandaan komt;
welke bewerkingen of transformaties zijn toegepast;
in welke systemen of rapporten de data uiteindelijk terecht komt.

Waarom is dit belangrijk voor de overheid?

Data lineage helpt om fouten vroegtijdig te signaleren, risico’s in beeld te brengen en het vertrouwen in beleidsinformatie te vergroten, zowel binnen als buiten de organisatie. Het WODC benadrukt dat data lineage niet alleen een technisch hulpmiddel is, maar ook een stap richting professionalisering van datamanagement binnen de overheid.

Lees het nieuwsbericht van het WODC op hun website en bekijk het Engelstalige rapport.

Dit is een automatisch geplaatst bericht. Vragen of opmerkingen kun je richten aan @[email protected]

#BetrouwbareData #DataLineage #nieuwsbrief62025 #WODC

#betrouwbaredata #datalineage #wodc #nieuwsbrief62025

Justin Buzzard @[email protected] · 2025-03-20 · 20:46 UTC

A Data Lake in the software world is essentially where raw data is taken and turned into something tangible like reports, often using AI/machine learning and them put into the Data Warehouse. #software #datalake #datawarehouse

#software #datalake #datawarehouse

Sarah Lea @[email protected] · 2025-02-08 · 20:35 UTC

There is no need to move data. Data latency is minimised. Data can be transformed and analysed within a single platform.

Let me know what you know about Zero-ETL :blobcoffee:

Why ETL-Zero? Understanding the shift in Data Integration“ by Sarah Lea on Medium: https://medium.com/towards-data-science/why-etl-zero-understanding-the-shift-in-data-integration-as-a-beginner-d0cefa244154

#python #datalake #cloudcomputing #etl #zeroetl #salesforce #data #tech #technology #datawarehousing #datalakehouse

#python #datalake #cloudcomputing #etl #zeroetl #salesforce

Graylog @[email protected] · 2025-01-14 · 21:17 UTC

Security data lakes and data warehouses are repositories that enable organizations to store large amounts of security data — typically types not immediately required for search and analysis. Is it time for your org to build a security data lake strategy? 🏗️ Let's explore some of the important details about security data management. 👀

Read on to learn about data lake architecture, the benefits of using #security data lakes, some key strategy considerations, and a cost-effective solution to security data management. 💵 🔒 🙌

https://graylog.org/post/security-data-lake-strategy/ #datalakes #cybersecurity

#security #datalakes #cybersecurity

PPC Land @[email protected] · 2024-12-24 · 17:20 UTC

Google Analytics introduces Data Layer Tutorial for enhanced web tracking: New video tutorial explains data layer implementation in Google Tag Manager and gag.js for improved website tracking and tag management. https://ppc.land/google-analytics-introduces-data-layer-tutorial-for-enhanced-web-tracking/?utm_source=dlvr.it&utm_medium=mastodon #GoogleAnalytics #DataLayer #WebTracking #TagManager #Gtag

#googleanalytics #datalayer #webtracking #tagmanager #gtag

Science ouverte UnivRennes @[email protected] · 2024-11-06 · 08:37 UTC

🎇 Prochain webinaire de l'atelier de la donnée #ARDoISE : il reste des places !⤵️
https://scienceouverte.univ-rennes.fr/tous-les-evenements/publier-un-article-sur-ses-donnees-rediger-un-data-paper?oac=eyJpbmRleCI6MiwidG90YWwiOjMsImZpbHRlcnMiOnsicmVsYXRpdmUiOlsicGFzc2VkIiwidXBjb21pbmciLCJjdXJyZW50Il0sImRldGFpbGVkIjoxfX0%3D
#datapaper #donneesrecherche

#ardoise #datapaper #donneesrecherche

Science ouverte UnivRennes @[email protected] · 2024-11-06 · 08:37 UTC

🎇 Prochain webinaire de l'atelier de la donnée #ARDoISE : il reste des places !⤵️
https://scienceouverte.univ-rennes.fr/tous-les-evenements/publier-un-article-sur-ses-donnees-rediger-un-data-paper?oac=eyJpbmRleCI6MiwidG90YWwiOjMsImZpbHRlcnMiOnsicmVsYXRpdmUiOlsicGFzc2VkIiwidXBjb21pbmciLCJjdXJyZW50Il0sImRldGFpbGVkIjoxfX0%3D
#datapaper #donneesrecherche

#donneesrecherche #datapaper #ardoise

Science ouverte UnivRennes @[email protected] · 2024-11-06 · 08:37 UTC

🎇 Prochain webinaire de l'atelier de la donnée #ARDoISE : il reste des places !⤵️
https://scienceouverte.univ-rennes.fr/tous-les-evenements/publier-un-article-sur-ses-donnees-rediger-un-data-paper?oac=eyJpbmRleCI6MiwidG90YWwiOjMsImZpbHRlcnMiOnsicmVsYXRpdmUiOlsicGFzc2VkIiwidXBjb21pbmciLCJjdXJyZW50Il0sImRldGFpbGVkIjoxfX0%3D
#datapaper #donneesrecherche

#ardoise #datapaper #donneesrecherche

(((@amarois))) @[email protected] · 2024-11-05 · 09:15 UTC

[Aujourd'hui] 17e #CafésRenatis ! Résultats de l’enquête sur les data papers – ce 5 nov. 13h30 => https://indico.mathrice.fr/event/632/M. Gassama et C. Tang présenteront l'enquête 2023 sur les pratiques de la communauté scientifiq. fr en matière de #datapaper
#openscience #data #research #RoR

#cafesrenatis #datapaper #openscience #data #research #ror

(((@amarois))) @[email protected] · 2024-11-05 · 09:15 UTC

[Aujourd'hui] 17e #CafésRenatis ! Résultats de l’enquête sur les data papers – ce 5 nov. 13h30 => https://indico.mathrice.fr/event/632/M. Gassama et C. Tang présenteront l'enquête 2023 sur les pratiques de la communauté scientifiq. fr en matière de #datapaper
#openscience #data #research #RoR

#cafesrenatis #datapaper #openscience #data #research #ror

(((@amarois))) @[email protected] · 2024-11-05 · 09:15 UTC

[Aujourd'hui] 17e #CafésRenatis ! Résultats de l’enquête sur les data papers – ce 5 nov. 13h30 => https://indico.mathrice.fr/event/632/M. Gassama et C. Tang présenteront l'enquête 2023 sur les pratiques de la communauté scientifiq. fr en matière de #datapaper
#openscience #data #research #RoR

#cafesrenatis #datapaper #openscience #data #research #ror

(((@amarois))) @[email protected] · 2024-11-05 · 09:15 UTC

[Aujourd'hui] 17e #CafésRenatis ! Résultats de l’enquête sur les data papers – ce 5 nov. 13h30 => https://indico.mathrice.fr/event/632/M. Gassama et C. Tang présenteront l'enquête 2023 sur les pratiques de la communauté scientifiq. fr en matière de #datapaper
#openscience #data #research #RoR

#cafesrenatis #datapaper #openscience #data #research #ror

Open Science Pasteur @[email protected] · 2024-10-28 · 13:01 UTC

Résultats de l’enquête sur les pratiques des scientifiques en matière de publication de #DataPapers :
👉 une forme de publication encore peu utilisée : seuls 31% des répondants ont déjà publié des data papers.
👉 une méconnaissance parmi les utilisateurs de #RechercheDataGouv de l’outil de génération de data paper.

📋 Le rapport complet : https://hal.inrae.fr/hal-04690792v1

#recherchedatagouv #datapapers

Science ouverte UnivRennes @[email protected] · 2024-09-20 · 13:52 UTC

Connaissez-vous l'outil de génération de data paper de #RechercheDataGouv ?
Pour le tester, rendez-vous sur la page d'accueil de l'entrepôt : https://entrepot.recherche.data.gouv.fr
#datapaper

#recherchedatagouv #datapaper

Habr @[email protected] · 2024-09-17 · 05:32 UTC

Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join. Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.

https://habr.com/ru/companies/cedrusdata/articles/843882/

#trino #cedrusdata #sql #data_analysis #data_engineering #query_optimization #query_performance #datalake #lakehouse

#lakehouse #datalake #query_performance #query_optimization #data_engineering #data_analysis

Habr @[email protected] · 2024-09-17 · 05:32 UTC

Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join. Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.

https://habr.com/ru/companies/cedrusdata/articles/843882/

#trino #cedrusdata #sql #data_analysis #data_engineering #query_optimization #query_performance #datalake #lakehouse

#lakehouse #datalake #query_performance #query_optimization #data_engineering #data_analysis

Laetitia Bracco @[email protected] · 2024-09-02 · 08:23 UTC

🎒 Les #données de la recherche font aussi leur rentrée ! Découvrez le dernier numéro de la newsletter, avec @recherchedatagv, @doranum_, @callisto_lms, @datacite... #scienceouverte #datapaper #softwarepaper
https://gtso.couperin.org/gtdonnees/veille-sur-les-donnees-de-la-recherche/

#softwarepaper #datapaper #scienceouverte #donnees

Habr @[email protected] · 2024-07-19 · 07:02 UTC

Как вырастить динозавра: масштабирование платформы YTsaurus от 200 до 20 000 хостов. Доклад Яндекса

Привет! Меня зовут Паша Сушин. Уже больше десяти лет я занимаюсь в Яндексе развитием платформы YTsaurus — нашего внутреннего инструмента, который в марте 2023 года вышел в опенсорс и теперь доступен всем на GitHub по лицензии Apache 2.0. Сегодня мой рассказ будет о том, какие ограничения архитектуры мы преодолели, чтобы масштабировать наши кластеры больше чем в сотню раз.

https://habr.com/ru/companies/yandex/articles/829654/

#ytsaurus #datalake #opensorce #опенсорс #yt #высокая_производительность #высокая_нагрузка

#ytsaurus #datalake #opensorce #опенсорс #yt #высокая_производительность

Epimorphics @[email protected] · 2024-07-10 · 13:00 UTC

We’ve updated a number of our core products including #DataPlatform, Agora #DataCatalog, #MeasurementStore, & #ConceptStore + other #reference #DataManagement tools. Looking for #ConnectedData tech to support your #DataArchitecture then we’d love to talk. www.epimorphics.com

#dataarchitecture #connecteddata #datamanagement #reference #conceptstore #measurementstore

Epimorphics @[email protected] · 2024-07-02 · 11:30 UTC

We've integrated our latest #ConceptStore product into our #DataPlatform tech solutions to assist organisations in managing controlled vocabularies and standards.

Explore more at www.epimorphics.com/agora-concept-store
#AgoraConceptStore #DataManagement #DataStandards

#conceptstore #dataplatform #agoraconceptstore #datamanagement #datastandards

Epimorphics @[email protected] · 2024-07-02 · 11:30 UTC

We've integrated our latest #ConceptStore product into our #DataPlatform tech solutions to assist organisations in managing controlled vocabularies and standards.

Explore more at www.epimorphics.com/agora-concept-store
#AgoraConceptStore #DataManagement #DataStandards

#conceptstore #dataplatform #agoraconceptstore #datamanagement #datastandards

Epimorphics @[email protected] · 2024-07-02 · 11:30 UTC

We've integrated our latest #ConceptStore product into our #DataPlatform tech solutions to assist organisations in managing controlled vocabularies and standards.

Explore more at www.epimorphics.com/agora-concept-store
#AgoraConceptStore #DataManagement #DataStandards

#datastandards #datamanagement #agoraconceptstore #dataplatform #conceptstore

Search