#world-digital-preservation-day — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #world-digital-preservation-day, aggregated by home.social.
-
#Archivierung digitaler Fachverfahren - oder: Wie kann man die Erkennung signifikanter Eigenschaften trainieren? 😉 #archivistodon #OffeneArchive
Beitrag im SAXARCHIV-Blog anlässlich des #WorldDigitalPreservationDay :
https://saxarchiv.hypotheses.org/47231 -
Today we celebrate #WorldDigitalPreservationDay with the launch of the @wgbh Archives Collection, featuring thousands of digitized TV episodes, raw interviews, radio broadcasts, news reports, and curated clips from public media’s oldest professional archive.
Discover groundbreaking journalism from FRONTLINE, scientific breakthroughs from NOVA, powerful documentaries from AMERICAN EXPERIENCE, timeless drama from MASTERPIECE, and much more.
Explore the collection: https://americanarchive.org/special_collections/open-vault
-
On this #WorldDigitalPreservationDay I'm reflecting on the fact that my attempts to preserve data documenting the development of online collections was thwarted this year by GLAM institutions who are today posting about #WDPD2025. Oh the irony...
Anyway, here's what I was trying to do: https://updates.timsherratt.org/2024/09/20/preserving-the-history.html (from September last year). It all stopped in January when changes at NLA and NAA made it impossible for me to continue harvesting data. I will, however, make sure that all the data I have captured over the years is properly documented and preserved in a repository. #digiPres
-
Erstellen von ZIP-Disk-Images: ein Erfahrungsbericht zum World Digital Preservation Day 2025
Der folgende Beitrag ist eine übersetzte und leicht veränderte Version eines ursprünglich am 23. September 2025 in französischer Sprache veröffentlichten Blogbeitrags.
Vorab eine kleine Anmerkung: Ich bin noch Anfänger auf dem Gebiet der digitalen Forensik. Die Beschäftigung mit dem Thema macht mir viel Spaß, daher nutze ich diese Begeisterung, um meine Abenteuer aufzuschreiben und sie mit Ihnen zu teilen. Ich ziehe es vor, meine Beiträge später zu überarbeiten, anstatt mich zu Beginn zu sehr in das Thema zu vertiefen und dabei den anfänglichen Schwung zu verlieren. Diese Anfangsbegeisterung führt vielleicht zu einem kleinen Dunning-Kruger-Effekt, aber sie spornt mich an.
Ein wenig Hintergrundinformation
Vor einigen Wochen erwähnte Felix Burger, einer meiner Kollegen bei der TIB, fünf ZIP-Disketten, die er von Kamel Louafi, einem algerisch-deutschen Architekten, erhalten hatte. Die ZIP-Disketten gehören zu seinem Vorlass, den er der Leibniz Universität Hannover überlassen hatte und deren Inhalt deshalb archiviert werden sollte. Es wurde vermutet, dass diese Disketten Daten zur Neugestaltung des Welfengartens enthalten könnten, in dem sich die Leibniz Universität Hannover befindet.
Was ist eine ZIP-Diskette?
Vielleicht haben Sie noch nie eine gesehen. ZIP-Disketten wurden vom Unternehmen Iomega zwischen 1995 und 2003 verkauft. Diese Superdisketten waren mit einer Kapazität von 100, dann 250 und schließlich 750 MB erhältlich, während die Standarddiskette lediglich 1,44 MB fasste. Sie sind dicker als die Standardversion.
Iomega ZIP 100 Diskette CC BY-SA 4.0 https://creativecommons.org/licenses/by-sa/4.0, via Wikimedia CommonsIm Gegensatz zu den 3½-Zoll-Disketten verfügen sie jedoch nicht über einen manuellen Schutzmechanismus, also mechanische Schalter, mit denen das Beschreiben verhindert werden konnte. Natürlich benötigt man für die Arbeit mit diesen Disketten ein spezielles Laufwerk, welches an der TIB nicht vorhanden war und nun noch gefunden werden musste. Beim Online-Marktplatz eBay sind zahlreiche Laufwerke für unter 100 Euro erhältlich, aber ihre Eigenschaften und ihr Verschleißgrad sind schwer einzuschätzen. Einer meiner Kollegen hatte ein externes ZIP-Laufwerk, aber dieses funktioniert nur über eine parallele Schnittstelle, über die unsere Arbeitscomputer nicht verfügen. Zufälligerweise hatte ich jedoch kurz zuvor ein neues Laufwerk erhalten, das sowohl für die Datenübertragung als auch für die Stromversorgung USB nutzt und daher sehr praktisch ist. Anlässlich der jährlichen Teambesprechung in Hannover brachte ich dieses charmante Gerät mit.
Mein USB-Laufwerk: so gut wie neuDas Laufwerk anschließen
Ich begann meine kleinen Experimente im Zug nach Hannover. Ich wollte die Datenwiederherstellung an einer ZIP-Diskette testen, die noch im Laufwerk steckte und einem Familienmitglied gehört hatte. Aber ich wollte die Sache wie unter echten Archivierungsbedingungen angehen – also versuchte ich den Inhalt der Diskette nicht zu verändern. Wie ich bereits in einem früheren Beitrag erwähnte, ist es sehr leicht, den Inhalt eines Wechseldatenträgers unbeabsichtigt zu verändern. Daher ist größte Vorsicht geboten.
Wenn Sie ein Plug-and-Play-Medium anschließen, können Sie auf dessen Inhalt zugreifen, ohne etwas tun, konfigurieren oder einen Treiber installieren zu müssen. Das ist praktisch, aber der Zugriff erfolgt dabei standardmäßig im Read-Write-Modus, was natürlich das Risiko erhöht, dass der Inhalt der Festplatte verändert wird. Dieses Verhalten wollte ich vermeiden.
Automatisches Mounten deaktivieren
Also habe ich (unter Ubuntu) folgenden Befehl eingegeben:
systemctl stop udisks2.serviceDieser Befehl deaktiviert vorübergehend – bis zum Neustart des Computers – die automatische Einbindung, das heißt die automatische Konfiguration des Zugriffs auf ein Dateisystem.
Laufwerk anschließen
Jetzt kann ich mein Laufwerk anschließen und nach Belieben einbinden – in diesem Fall als read-only. Sobald es angeschlossen ist (in diesem Fall über USB), suche ich nach seinem Namen, um es zu mounten . GNU/Linux betrachtet jedes manipulierbare Objekt als Datei, einschließlich Wechseldatenträger. Um es zu identifizieren, verwende ich den Befehl
fdisk, der mit seiner Option--listalle Datenträger und Partitionen auflistet, unabhängig davon, ob sie gemountet sind oder nicht:$ sudo fdisk --list
(...)
Festplatte /dev/sda: 239,03 MiB, 250640384 Bytes, 489532 Sektoren
Festplattenmodell: ZIP 250
Einheiten: 1 × 512 = 512 Bytes pro Sektor
Sektorgröße (logisch/physisch): 512 Byte/512 Byte
E/A-Größe (minimal/optimal): 512 Byte/512 Byte
Festplatten-Typbezeichnung: dos
Festplatten-ID: 0xd8e9a7f7Gerät Boot Start Ende Sektoren Größe Id Typ
/dev/sda1 2048 489471 487424 238M c W95 FAT32 (LBA)Am Ende einer langen Liste von physischen oder virtuellen Medien, auf die ich von meinem Arbeitsplatz aus Zugriff habe, finde ich also mein Gerät mit seinem kurzen Namen (
/dev/sda) und seiner oder seinen Partitionen – hier gibt es nur eine, nämlich/dev/sda1.In einem GNU/Linux-System sind alle Geräte im Ordner
/dev(für devices) aufgelistet, ebenso wie die Partitionen, die auf jedem einzelnen davon erstellt wurden.Als read-only einbinden
Wir werden nun die Partition des betreffenden Datenträgers mounten (denn wir mounten nicht einen Datenträger, sondern eine „Partition”, das heißt die Aufteilung eines Speicherplatzes in separate Einheiten, die jeweils über ein eigenes Dateisystem verfügen). Hier gibt es nur eine einzige Partition, was uns die Arbeit erleichtert. Das Mounten der Partition(en) eines Datenträgers ist für die Erstellung eines Disk-Images nicht zwingend erforderlich, ermöglicht jedoch das Durchsuchen des Inhalts, um über das weitere Vorgehen zu entscheiden.
Hier ist die Befehlszeile, die ich verwendet habe:
sudo mkdir /media/zip_disk && sudo mount --options ro /dev/sda1 $_Ich erstelle einen leeren Ordner in
/mediaund mounte dann meine Partition als read-only (--options ro). (Beachten Sie die Abkürzung$_, die das letzte Argument des vorherigen Befehls ersetzt, nämlich/media/zip_disk.)Ich habe nun unter meinem Mountpunkt
/media/zip_diskZugriff auf den logischen Inhalt des Disk-Images, das heißt auf die Ordner und Dateien, wie sie auf der ZIP-Diskette zu sehen sind.Verwenden eines Schreibschutzes
Diese Lösung ist bereits recht zufriedenstellend, könnte jedoch in bestimmten Fällen nicht ausreichen. Selbst bei einer Read-Only-Einbindung kann es vorkommen, dass der Befehl
mountauf die Festplatte schreibt.
Im Handbuch zum Befehl heißt es dazu:Note that, depending on the filesystem type, state and kernel behavior, the system may still write to the device. For example, ext3 and ext4 will replay the journal if the filesystem is dirty.
Wenn die Integrität des Erfassungsprozesses nachgewiesen werden muss, insbesondere wenn die Daten in einem rechtlichen Kontext verwendet werden sollen, ist es daher unerlässlich, zusätzliche Vorsichtsmaßnahmen1 zu treffen und einen Schreibblocker zu verwenden. Die Beschreibung dieses Prozesses überlasse ich an dieser Stelle unseren Kollegen vom AIDA Capture Lab in ihrem Datenblatt zu Disketten und ZIP-Laufwerken.
Erstellen eines Disk-Images
Warum ein Disk-Image erstellen? Kurz gesagt ermöglicht dies, den binären Inhalt eines Datenträgers so genau wie möglich zu reproduzieren und ihn so zu „dematerialisieren” oder zumindest auf einen anderen Datenträger zu kopieren. Dieser Prozess ist im Bereich der digitalen Forensik, wo der Nachweis der Unverfälschtheit von entscheidender Bedeutung ist, von grundlegender Bedeutung, kann aber auch für die digitale Erhaltung des Kulturerbes erforderlich sein.
Persönliche Erfahrung: Ich habe ein erstes Image unter Beachtung der oben genannten Vorsichtsmaßnahmen (Einbindung als read-only) erstellt und dann den Inhalt der Festplatte ohne große Vorsicht gesichtet – jedoch ohne die Absicht, ihn zu verändern. Anschließend habe ich ein zweites Image erstellt, das sich als ein Megabyte kleiner als das vorherige herausstellte! Ich kann mir diesen Unterschied nicht erklären, aber er ist erheblich.Für die Erstellung eines Disk-Images unter GNU/Linux verweise ich erneut auf die Anweisungen des AIDA Capture Lab, das das Tool Guymager empfiehlt.
Guymager ist ein Tool zur Erstellung von Disk-Images, das nur unter GNU/Linux funktioniert, aber über eine grafische Benutzeroberfläche verfügt, was es für Personen interessant macht, die mit der Benutzung der Kommandozeile nicht vertraut sind.
Zu den Einstellungen von Guymager gehört auch das Format des Disk-Images. Das AIDA Capture Lab empfiehlt das Rohformat .dd, bei dem es sich um eine exakte, unkomprimierte Kopie einer Festplatte handelt, die mit dem Tool
ddund seinen Derivaten erstellt wird. Es ist jedoch auch möglich, ein komprimiertes Format wie Encase zu wählen, um Speicherplatz zu sparen – es ist zu erwarten, dass das Disk-Image viel freien Speicherplatz enthält, der sich leicht komprimieren lässt. Darüber hinaus ist das Rohformat eine einfache Kopie der Bytes der Festplatte und enthält keine Metadaten, sodass Tools wie Guymager eine weitere Begleitdatei mit der Erweiterung.infoerstellen, um Informationen zum Erstellungsprozess des Images zu speichern.Es ist auch möglich, ein recht praktisches Befehlszeilen-Tool zum Erstellen eines Disk-Images zu verwenden. Peter Eisner, einer meiner Kollegen bei der TIB, der sich mit dem Erstellen von Disk-Images beschäftigt, hat
dc3ddvorgeschlagen. Dabei handelt es sich um eine Ableitung des Unix-Dienstprogrammsdd, das vom Department of Defense Cyber Crime Center entwickelt wurde. Es hat den Vorteil, dass es einen digitalen Fingerabdruck des Images erstellt und eine Metadatendatei generiert, in der dieser sowie weitere Informationen zum Erstellungsprozess gespeichert werden.Hier ist die von Peter vorgeschlagene Befehlszeile:
dc3dd if=/dev/sda of=~/disk_images/mydisk.dd hash=md5 log=~/disk_images/mydisk.txtDas Ergebnis dieses Vorgangs ist eine Datei
mydisk.dd, die eine exakte, unkomprimierte Kopie des Mediums ist – das Image hat also genau die Größe der Festplatte, das heißt 250 Megabyte / 239 Megabyte – und eine Dateimydisk.txt, die das Protokoll des Vorgangs zur Erstellung des Festplatten-Images enthält.Das Image mounten, um den Inhalt zu sichten
Wie eine Support-Partition kann das Disk-Image gemountet werden, um es zu erkunden. Bei einigen GNU/Linux-Distributionen reicht ein Doppelklick auf das Image, um es zu mounten, aber bei meinem „rohen” Ubuntu war das nicht der Fall. Daher musste ich das Image mit folgendem Befehl mounten:
sudo mkdir ~/zip_image && sudo mount --types vfat --options ro,loop,offset=1048576 mydisk.dd $_Diese Befehlszeile erfordert eine Reihe von Parametern:
- das Dateisystem; hier handelt es sich um vfat, eine Variante der FAT-Dateisysteme für virtuelle Volumes
- der Start-Offset; Dies ist der Startsektor multipliziert mit der Anzahl der Bytes pro Sektor.
Diese Informationen erhalten Sie mit dem bereits erwähnten Befehl
fdisk -l:$ sudo fdisk --list mydisk.dd
Festplatte mydisk.dd: 239,03 MiB, 250640384 Bytes, 489532 Sektoren
Einheiten: Sektor von 1 × 512 = 512 Bytes
Sektorgröße (logisch/physisch): 512 Bytes/512 Bytes
E/A-Größe (minimal/optimal): 512 Bytes/512 Bytes
Typ des Datenträgerlabels: dos
Datenträger-ID: 0xd8e9a7f7Gerät Boot Start Ende Sektoren Größe Typ
zip_250_image.dd1 2048 489471 487424 238M c W95 FAT32 (LBA)Sie können nun durch die Baumstruktur des Disk-Images navigieren. Dort lassen sich alle gewünschten Erkundungsvorgänge durchführen, ohne Gefahr zu laufen, etwas Wichtiges zu verändern.
Gelöschte Dateien wiederherstellen
Wie Sie vielleicht wissen, wird beim Löschen einer Datei auf Ihrem Computer, selbst wenn Sie den Papierkorb leeren, lediglich die Indizierung der Daten aufgehoben: Der Computer vergisst ihre Adresse. Er schreibt an dieser Stelle nur dann erneut, wenn er Platz für weitere Daten benötigt. Daher ist es möglich, gelöschte Daten wiederherzustellen, solange er an dieser Stelle nicht erneut geschrieben hat. Es gibt sicherlich mehrere Möglichkeiten, dies zu tun, aber ich werde Ihnen nur eine davon vorstellen, um es zu demonstrieren.
Das Tool: PhotoRec
Ich habe die Tools
TestDiskundPhotoRecgetestet, die von Christophe Grenier entwickelt wurden und mir von meinem Kollegen Peter Eisner empfohlen wurden. Diese Tools sind einfach zu bedienen; ich werde nur PhotoRec vorstellen, da dieses Tool in meinem Fall zu Ergebnissen geführt hat.Sobald das Tool mit dem Befehl
sudo photorec mydisk.ddgestartet wurde, erscheint folgender Bildschirm:Man wählt das Medium aus …
… dann die Partition …
… dann das Dateisystem …
… man entscheidet, ob die Analyse auf der gesamten Partition oder nur auf dem freien Speicherplatz durchgeführt werden soll …
… man wählt den Ordner aus, in den die Dateien extrahiert werden sollen, und drückt auf C …
… und fertig: Das Tool hat einen Ordner namens
recup_directoryerstellt und dort 360 wiederhergestellte Dateien abgelegt.In diesem Ordner wurde ein kleines Stück der Jugendgeschichte meiner Schwester wiederhergestellt: Szenarien für ein Rollenspiel namens Lycéenne, ihre Abschlussarbeit, Scans von Karten der spanischen Kolonialisierung in Südamerika …
Screenshot des Ordners, in den die wiederhergestellten Dateien extrahiert wurden.Die ethischen Fragen, die sich daraus ergeben
Über die technische Dimension hinaus wirft dies natürlich auch schwierige ethische und rechtliche Fragen auf. Die Wiederherstellung von Dateien, deren Löschung der Eigentümer des Datenträgers gewünscht hat, ist fragwürdig, aber es ist wichtig, dass wir wissen, dass dies möglich ist. Nur so können wir Spendern von Datenträgern klar kommunizieren, was wir oder zukünftige Leser finden könnten, wenn wir diesen Ansatz verfolgen würden3.
Ein paar abschließende Worte
Wie ich bereits erwähnt habe, bin ich noch ein Anfänger auf dem Gebiet der digitalen Forensik in Bezug auf Kulturgüter, und zwar aus einem einfachen Grund: Die beiden Institutionen, in denen ich gearbeitet habe (die Bibliothèque nationale de France und die TIB), beginnen gerade erst, ihre Position zu diesem Thema zu definieren.
Archivar:innen und Bibliothekar:innen stehen zahlreiche Tools zur Verfügung, um diese Techniken anzuwenden. Ich war überrascht, wie einfach sie anzuwenden sind, was im Gegensatz zu den komplexen ethischen und rechtlichen Fragen steht, die sich aus der allgemeinen Erstellung von Disk-Images für die Sammlung von born-digital-Archiven ergeben. Nur Archivar:innen und Bibliothekar:innen können diese Fragen beantworten, aber nur dann, wenn sie die Möglichkeiten der oben genannten technischen Verfahren im Blick haben.
Auf jeden Fall gelang es Felix, Images der fünf ZIP-Disketten zu erstellen und deren Inhalt zu extrahieren, und wir haben gemeinsam einen bedeutenden Schritt beim Experimentieren mit Disketten-Images gemacht!
- Siehe hierzu Kessler (Gary C.) und Carlton (Gregory H.), „A Study of Forensic Imaging in the Absence of Write-Blockers”, in Journal of Digital Forensics, Security and Law, 2014, 9(3), abrufbar unter https://commons.erau.edu/db-security-studies/28 (abgerufen am 22. September 2025).
- Um den Nutzen der Erstellung eines Disk-Images gegenüber einer einfachen gesicherten Kopie zu beurteilen, empfehle ich Ihnen die Lektüre des folgenden Dokuments: Digital Archival traNsfer, iNgest, and packagiNg Group, „Disk Imaging Decision Factors”, DANNNG!, [o. J.], abrufbar unter https://dannng.github.io/disk-imaging-decision-factors.html (abgerufen am 23. September 2025).
- Siehe hierzu den folgenden Artikel: Lassere (Monique) und Whyte (Jess M.), „Balancing Care and Authenticity in Digital Collections: A Radical Empathy Approach To Working With Disk Images”, Journal of Critical Library and Information Studies, Band 3, Nr. 2 (2021), abrufbar unter https://doi.org/10.24242/jclis.v3i2.125 (abgerufen am 23. September 2025).
Dieser Beitrag wurde unter Zuhilfenahme von deepl.com durch Felix Burger übersetzt und leicht überarbeitet.
#ZIPDiskette #WDPD2025 #LizenzCCBY40INT #Langzeitarchivierung #WorldDigitalPreservationDay
-
My LB is a reminder on #WorldDigitalPreservationDay that even famous works that had big audiences can be lost in whole or in part: https://www.kozaksclassiccinema.com/the-broadway-melody-1929/ . As I've noted before, the majority of silent pictures are now lost as well.
Similar fates may await popular culture today that's streaming-only, locked down with DRM, dependent on proprietary infrastructure that then gets discontinued, or otherwise under too tight control or limited availability.
-
I got a response to my paper PREMIS Events Through an Event-Source Lens.
There are two strange choices made by this response. I’ll touch on the more personal one at the end, but first, what does the response say?
It’s not entirely clear.
If the response says that, “it is a choice to implement PREMIS?” And that “PREMIS can be implemented in different ways?” “and that it’s technology agnostic” Then yes, 100% that’s basically the driver for my original paper and once you read it holistically, instead of dissecting it and cherry-picking points, you will probably read it that way as well.
As I wrote in my first blog response to the publication of my paper in 2023, Tessella’s Rob Sharpe’s 2013 presentation was an important reference point for me and we’ll revisit it below, but Rob labors that PREMIS is technology agnostic and can be represented in other formats, and since 2013 I haven’t seen enough conversation or discussion about that, and I wanted to amplify that message by looking at PREMIS in an event-sourced model as an aggregation.
If there’s something more substantive in the PREMIS Editorial Committee’s (EC) response, then I feel it’s lost in its own stylistic choices (to focus on what I might have been saying rather than taking a show don’t tell approach to clarifying their more salient points.).
I wonder if it might have been handled differently? I am pretty easy to find these days, and so reaching out to clarify any of my thinking might have been one way; perhaps there was a way to collaborate on a response; perhaps most of of the EC’s concerns (if there are any) could have been handled with a joint editorial note in the original paper to clarify that my words are not an authoritative source on PREMIS, rather, PREMIS (events) were largely a vehicle to describe more the benefits of an event-sourced architecture and that you still need to consider and interpret the PREMIS documentation and guidance for yourself before implementing it in your own solutions.
Going a different direction
The essence of the original paper is this: (from my perspective) PREMIS is not a schema to be implemented in the back-end of any digital preservation system. Should it be still be deemed a relevant technology, it might be studied in your requirements analysis, and you would make sure that your own system is not lossless in any way as to effect PREMIS “conformance”, but you would not match your “schema” to PREMIS, you would ensure that you can output it, “present it” that is, it would become one representation of data that can be generated from your system out of many. One view, or as I clearly point out, an aggregation, in the case we have chosen an event-based architecture.
This is not at odds with the (so-called) corrections that have been provided to me in the Code4Lib journal article from the PREMIS EC.
That being said, a further thesis is that PREMIS events are often a lossy, stateful representation of data in a digital preservation system. PREMIS represents one-dimensional state (or slices of state) over a period of time. In the modern engineering world, we have at our disposal methods of capturing, greedily, all events in the life of a digital object and doing that will create a richer view of the life of that object, and, as a representation of that data, a richer PREMIS view of an object and its events over time if so desired.
The authors of the EC response labor heavily on their perception of a misunderstanding on my part about PREMIS and they can choose to do that but what may look like a misunderstanding of PREMIS is not a misunderstanding of technology:
Conformance, in general, is defined as:
> how well something, such as a product, service or a system, meets a specified standard
And the PREMIS EC have decided to attach levels to conformance (also graduated levels, and degrees) to “quantify(ing) the degree to which PREMIS has been implemented”, three of which are anchored in implementation, apparently, three distinct implementations.
- Mapping, indirect or otherwise,
- Export,
- Direct implementation,
I write:
PREMIS conformance should be separate from representation. If we acknowledge PREMIS is at least one important representation of preservation metadata, i.e. for its ability to act as an interface to those looking to interpret preservation metadata, then whether it exists logically on disk, or is generated through an event sourced projection, is irrelevant. How a representation complies with the PREMIS data model remains of greater importance, but this is measured from the same eventual view, whatever intermediate abstraction it sits within.
The PREMIS EC can choose to have three graduated levels of implementation to quantify degree of implementation. They can also make it clear level three (internal representation) is not necessarily the final goal, but it might benefit you; but If you’re not the PREMIS EC, don’t go near it, there’s no need.
I posit that conformance is only how well you can map to PREMIS or access something PREMIS-like that satisfies its data model. Your goal is to look at PREMIS as one interface you can potentially satisfy (you still need to describe objects uniquely; you need to describe agents engaging with them; rights need to sit somewhere), and once you can satisfy that interface you can access it in many different ways, and conformance should be measured against that, if PREMIS conformance is deemed valuable.
Put simply, conformance does not require levels. Levels may simply be the wrong word, these are just guides you might follow to demonstrate conformance (or ways that someone might audit a system to determine conformance).
The EC clipped this from one of the points they responded to:
Is level three (internal implementation) reasonable in today’s software development world, is it reasonable in today’s environmental climate?
Do we sacrifice the potential to store and access other different, richer, more-complex, (or less-complex), representations about other cross-sections of our data at the expense of putting PREMIS at the core of our digital preservation system? – No. We can make it an output of many, and use its schema and data dictionary to output it, but we don’t build around it, we essentially report around it.
They argue:
there are also benefits in choosing to take an internationally defined and agreed data model and use that as the basis of your system.
Well, if it’s internationally defined and agreed, let’s just do that! 🤷
The benefits of not implementing an external data model are broadly around increased control and flexibility, however the trade-off to consider is the likely loss of easy interoperability and exchange with other systems.
If you re-frame PREMIS as an interchange-format and you can prove that as useful, you absolutely have my buy-in and I will have designed you a system that doesn’t preclude a PREMIS-like output, i.e. a way of aggregating more detailed information in your system and outputting PREMIS as a representation (a format) for others to understand.
The resurgence of OAIS?
From the EC:
There are two responses to this, the first is to note that access has always been considered a part of Digital Preservation, to the point that one of the functional areas of the OAIS model is Access.
Who had OAIS on their World Digital Preservation Day (WDPD) Bingo Card?
But also, no. This is a misleading read and deserves more context.
Access when it is considered part of digital preservation is when access is used as a measure of success of digital preservation (or indicator of the potential obsolescence of an object) – it is an intrinsic property of digital preservation.
But the access function in OAIS is not that. And even if you’re crafty, and build an access component to a system that provides a feedback loop to digital preservation functions, it’s not that part of OAIS.
Now, PREMIS does have some nice features that support access BUT we’re talking “events”, and information that supports digital preservation and even though there may be a way to encode events that provide a feedback loop to measure the success of preservation, e.g. {“event”: “access”, “detail”: “tried to open PSD in GIMP”, “outcome”: “FAIL”}, true access goes well beyond the scope of my article and the spirit in which it was written.
We need to evolve
The EC presents a somewhat dogmatic and institutionalised response. As a flaneur in the field, as someone who has worked implementing PREMIS in one of the most PREMIS heavy digital preservation systems out there, and involved too in efforts to minimise PREMIS verbosity, including my own event-like approaches I revisit Sharpe’s paper in 2022/2023. I do this asking, why don’t we talk about it more? Why do I see projects today still see XML as the end goal of PREMIS?
- https://github.com/bishbashbackup/premissh
- https://github.com/rochester-rcl/premis-generator (also JSON which is really nice!)
My view is that a 20 year old standard, a 2015 specification (last revision) and a 2016 reference implementation in an out of date technology (XML), and an very institutional PREMIS EC, with roots at the Library of Congress, all have influence, and some of the points I do see appearing from their response are being buried in their desire to hold onto authority.
The biggest point being buried, technological agnosticism, appears in the EC’s response to me five times, technology independent once, and in the official data dictionary once (unrelated), and it appears in the official 2015 conformance statement, zero (although you can bend the verbosity of the conformance statement into words that read like technologically agnostic. But make it explicit, don’t write it five times to me and not put it in the docs. Make new reference implementations, or borrow them from your implementers. Use plain-language, and just make it explicit.
Better still, let’s evolve the presentation of the PREMIS standard (away from separate PDFs), and use a modern documentation framework (e.g. Diataxis), and put it into public versioned source control, and give us a way that we can help write the documentation with you to make things like this clearer.
While the EC’s response to me labor on the idea I have missed the fact that PREMIS is technology agnostic I wrote the original paper to amplify previous conversations and keep them relevant because they were formative for me, and I hope that they will be formative for others.
I also wrote the original paper as more of a technology paper than a PREMIS paper (honouring PREMIS of course) but I make a very clear conclusion that is very much inclusive of PREMIS:
It is this paper’s assertion that we can store more, and “do more” by taking an event-sourced approach to storing events associated with the “objects” described in the PREMIS data dictionary.
I can nuance this further:
- Store events about your digital objects and try to make sure some of those events can be aligned with PREMIS,
- Store events because events happen on a continuum, don’t fall into the trap of storing state,
- Create representations of your data, PREMIS might be one, access reports and logs might be another, feature analyses might be another, don’t limit yourself to one schema, use many.
My paper is about trying to fit older trusted paradigms into modern development practices. It’s about moving away from dogmatic adherence to the past while honouring something that exists.
We can do PREMIS exactly the same as we do it now, as long as we don’t put it front and centre of our implementation.
How to respond to a “well-actually”?
Well-actually… https://www.recurse.com/social-rules#no-well-actuallys
There are some editorial quirks in my paper, the one I am most embarrassed by is when my writing conflated the data model with the events in the Library of Congress controlled vocabulary (what other controlled vocabularies have other folks been using in the last decade? Next PREMIS revision, please, put those listings in there or open the editorial process to modern practices). Conflating these two things in one paragraph should hardly be the thread that untangles the entire piece.
The PREMIS EC haven’t reached out to me before publication, or after, yet as I point out, they all know where to find me (I wasn’t able to make the PREMIS birds-of-a-feather at iPRES (probably a good thing while this seems to have been in the air) but I was at the conference). Their response though does something strange, directing their efforts at things I might not have understood, may seemingly be getting at; or pointing out what I am “really saying here”. It is a patronising approach. For the gaps they filled in on my behalf, I would happily have provided clarity, offering me the opportunity to respond in a less reactive way, or perhaps all of us a chance to collaborate.
Their response appeals to authority, and its two references are my article and the PREMIS data dictionary. I am sure there was a more neutral, reflective, and holistic way to approach this work by focusing on the entirety of the article and its spirit, and giving the benefit of the doubt to what is perceived as the author’s “mistakes” or “misreadings”. A show don’t tell approach might have helped, and would certainly be valuable, e.g. spending more time implementing examples that lent themselves to updating future revisions of the data dictionary and conformance statements.
¯\_(ツ)_/¯
Anyway folks. ¯\_(ツ)_/¯ Interpretation is tricky? I imagine that the PREMIS EC will find fault with the above text, but to try to avoid another article on the subject of my misinterpretation: The PREMIS EC aren’t foisting the standard on you and I most definitely am not. Read their docs if you do choose PREMIS. Technology changes and so do standards. I feel we have an obligation to modernise (and demonstrate modernisation) with those changes. I feel we have an obligation to question, and evaluate as time moves on; especially when technology is front and centre of how we support our archivists and librarians.
Hopefully people reading this can continue to read the original paper for what it is. There may be some potentially interesting ideas and conclusions that a pure PREMIS discussion distracts from, including what event-sourced data might mean for activating information supporting digital preservation.
Hopefully too, from this engagement, the PREMIS EC will take an opportunity to fold some of their own response into their own documentation and guidance.
Thanks for reading.
PREMIS conformance statement (2015): https://www.loc.gov/standards/premis/premis-conformance-20150429.pdf
PREMIS data dictionary (Version 3.0 (2015)): https://www.loc.gov/standards/premis/v3/premis-3-0-final.pdf
https://exponentialdecay.co.uk/blog/dont-implement-premis-represent-it/
#Code #Coding #Data #digipres #DigitalPreservation #PREMIS #WDPD #WorldDigitalPreservationDay
-
Happy World Digital Preservation Day! 📼🎞️
Learn how to preserve and digitize your organization's records with the AAPB at https://americanarchive.org/help/contribute
#wdpd #wdpd2023 #worlddigitalpreservationday #publicmedia #publicbroadcasting #aapb #archives #mediaarchives #publictv #wgbh #gbh #digitization #americanhistory #publicbroadcastinghistory
-
I didn't know there was such a thing as #WorldDigitalPreservationDay, but it's a cause I believe in and can celebrate! 💾 💿
Here's a talk I gave earlier this year about my work recovering the software of Yaakov Kirschen:
https://www.youtube.com/watch?v=Jv53gDSiKYUYou can find some of this software here:
https://archive.org/search?query=subject%3A%22yaakov+kirschen%22#digipres #computerhistory #retrocomputing #vintagecomputing
-
Unsere dringende Empfehlung für alle Freund:innen der #DigitaleLangzeitarchivierung zum #WorldDigitalPreservationDay: Die heutige sehr kurzweilige Tröt-Action von 👉 @mickylindlar.
-
RT by @EULawDataPubs: Wishing you a good #WorldDigitalPreservationDay today from myself and our web preservation team!
At @EULawDataPubs we work to preserve EU content for all, for tomorrow and for future generations ... for #transparency and #accountability.
See our tweets today on @EULawDataPubs.
🐦🔗: https://nitter.cz/HardemanHildeML/status/1719989733261279394#m
[2023-11-02 08:08 UTC]
-
Heute ist #WorldDigitalPreservationDay! Kennen Sie schon unsere Sammlung zu europäischen Reaktionen auf den Krieg gegen die #Ukraine? Darin archivieren wir Social-Media-Seiten von Forschenden, JournalistInnen und PolitikerInnen, die sich zum Krieg äußern: https://www.osmikon.de/news-sl/european-responses-webarchiv
-
For those planning on attending the #ApacheTika for #digipres intro/workshop tomorrow, please signup via meetup and then email me to get the dial-in info (directions on the meetup link).
Happy #WorldDigitalPreservationDay #wdpd2023!
https://www.meetup.com/apache-tika-community/events/296969821/
-
This year #WorldDigitalPreservationDay was celebrated on 3/11 with the theme ‘Data for all, for Good, Forever’.
At EU level, the @EULawDataPubs is certainly a pioneer in digital preservation and #eArchiving.
Read more about this in our news piece 👇
https://data.europa.eu/en/news-events/news/looking-back-world-digital-preservation-day-2022🐦🔗: https://nitter.eu/EU_opendata/status/1591060691125145601
-
RT @DigitalEU: 🏛️Digital preservation of cultural heritage is crucial in its protection & restoration, especially in moments of crisis.
🇪🇺 #EUfunded projects like @4chProject or @InceptionEu help digitise & preserve #Ukraine monuments & #NotreDame.
-
🏛️Digital preservation of cultural heritage is crucial in its protection & restoration, especially in moments of crisis.
🇪🇺 #EUfunded projects like @4chProject or @InceptionEu help digitise & preserve #Ukraine monuments & #NotreDame.