Archivismi: il giorno dopo l’upload

Logo di Feddit Logo di Flarum Logo di Signal Logo di WhatsApp Logo di Telegram Logo di Matrix Logo di XMPP Logo di Discord

Archivierung: am Tag nach dem Hochladen

Dieser Beitrag wurde zuletzt aktualisiert von 6 Monaten tut

Dies ist ein automatisch aus dem Italienischen übersetzter Text. Wenn Sie unsere Arbeit schätzen und sie gerne in Ihrer Sprache lesen, denken Sie über eine Spende nach, damit wir sie weiterhin durchführen und verbessern können.

Die Artikel von Cassandra-Kreuzung Ich bin unter Lizenz CC BY-SA 4.0 | Cassandra-Kreuzung ist eine Spalte, die von erstellt wurde Marco Calamari mit dem „nom de plume“ von Kassandra, geboren 2005.

Neue Folge von Archivismen, Fortsetzung des gestrigen Artikels!

Dieser Artikel wurde geschrieben am 27. Dezember 2023 von Cassandra

Cassandra Crossing 561/ Archivismi: der Tag nach dem Upload

Gestern haben wir unseren ersten Upload durchgeführt und die Ergebnisse gesehen. Aber hat sich heute etwas geändert?

In der letzten Folge hat Cassandra versucht, Ihnen einen Teil der Funktionsweise des Internetarchivs zu erklären. Wir haben nur an der Oberfläche seiner Funktionen gekratzt und um Langeweile zu vermeiden, haben wir versucht, die PDF-Datei eines Artikels von Cassandra zu archivieren und zu beschreiben, was passiert ist.

So wurde uns klar, dass wir einen ebenso komplexen wie langsamen, aber glücklicherweise völlig automatischen Prozess in Gang gesetzt hatten. So langsam, dass es nach mehr als einer halben Stunde immer noch nicht fertig war. Wenn wir heute zur Dokumentseite zurückkehren, finden wir das Browser von Objekten des aktiven Internetarchivs, und der Vorgang ist abgeschlossen.

Sie können schnell durch Seiten blättern, sie von einer sehr roboterhaften Stimme vorlesen lassen und Textteile auf jeder Seite auswählen. Dies scheinen kleine Dinge zu sein, wenn man bedenkt, dass die Quelle ein „modernes“ PDF war, das direkt aus einem Libreoffice-Dokument stammte, aber tatsächlich wurde das scheinbar „einfache“ PDF in eine Menge Dateien zerlegt, von denen wir einige noch nicht analysiert hatten .

Allein anhand der Namen können wir leicht erkennen, dass ein gewisser OCR-Prozess zur Zeichenerkennung automatisch durchgeführt wurde. Diese Dateien, von denen einige von der verwendet werden Browser von Objekten des Internet Archives, gestatten Sie diesem, das Dokument einzusehen.

An dieser Stelle werden einige der gut informierten 24 Leser herausplatzen: „Aber das ist alles absolut trivial, es könnte auch mit dem Acrobat Reader erledigt werden, ohne all diese Peinlichkeiten.„Der liebe Leser hat mit der konkreten Tatsache recht, in der allgemeineren Frage jedoch falsch. Ja, denn bei der Archivierung des modernen 3-seitigen PDF haben wir tatsächlich eine Kanone eingesetzt, um eine Mücke zu töten, und zwar eine gebrechliche und kranke.

Jetzt ist es an der Zeit, die volle Archivleistung von zu entfesseln Internetarchiv. Aus diesem Grund nutzte Cassandra einen Archivierungsauftrag, der auf ihr Alter Ego Marco Calamari wartete. Dabei handelte es sich um die Archivierung von hundert Ausgaben einer kleinen Zeitschrift, die in den letzten 30 Jahren ausschließlich in Papierform erschienen war.

Die .pdf-Dateien, die von den verschiedenen elektronischen Layoutprogrammen zur Erstellung des Magazins generiert wurden, waren bereits gesammelt und glücklicherweise als Nebenprodukt erhalten geblieben. Von den ersten Papierausgaben waren ebenfalls Scans erstellt worden, handschriftlich und auf verschiedene Weise, auch im PDF-Format, aber offensichtlich nicht durchsuchbar, da die Seiten „Fotos“.

All dieses Material, selbst wenn es bereits in digitaler Form vorliegt, hätte sehr viel Zeit in Anspruch genommen, um es zusammenzustellen, abzugleichen und in einem durchsuchbaren und wiederverwendbaren Format zu veröffentlichen, insbesondere in „seriösen“ Archivierungskontexten.

Tatsächlich bestand das eigentliche, große Problem nicht darin, eine Sammlung von PDF-Dateien zu erstellen, sondern diese auf nützliche, durchsuchbare und konsultierbare Weise zu archivieren. Andernfalls würden diese Dateien, wie so oft, trotz mühsamer Sammlung früher oder später vergessen auf einem Flash-Laufwerk ganz unten in einer Schublade oder in einer Ecke der kommerziellen Cloud landen, vergänglich und wo niemand (außer GAFAM) dies tun würde konnte sie finden und nutzen.

Es reichte jedoch aus, die 75 Dateien unterschiedlicher Formate und Inhalte mithilfe der sehr nützlichen kostenlosen Software in einem einzigen PDF zusammenzufassen Pdftk, wodurch ein einzelnes PDF von fast 1 Terabyte erstellt und letzteres in das Internetarchiv hochgeladen wird, genau wie wir es für den dreiseitigen Artikel getan haben. Auch diese Datei wurde vom System übernommen und die ganze Nacht über „geschreddert“; Heute Morgen war es bereits verfügbar.

Alle Anomalien und Unterschiede wurden automatisch behoben und a 662-seitiges Dokument, das die gesamte Zeitschriftensammlung enthielt, war verfügbar, schnell durchsuchbar, auswählbar, durchsuchbar und anhörbar und wurde mit einem Zeitaufwand von nur wenigen Minuten erstellt.

Wenn wir dann noch die Tatsache hinzufügen, dass das Dokument in mehreren Rechenzentren redundant archiviert wurde und sich in einer digitalen Bibliothek befindet, die es für jedermann frei durchsuchbar und einsehbar macht, wird es fast schon erstaunlich, auch ohne die Hinzufügung dessen, was auch verfügbar ist im E-Book-Format (.epub) vorliegen und bei Bedarf für andere Zwecke weiter „bearbeitet“ werden können.

Um allgemein zu beschreiben, was bei der Archivierung entstanden ist, wurde das Original-PDF zunächst in Seiten unterteilt, um die Anzeige zu beschleunigen. Jede Seite besteht aus einer PDF-Datei in einem bestimmten Format, einem Hintergrundbild, einem Scan der Originalseite sowie einer auswählbaren Textebene, die über die Seite gelegt und durch OCR-Untersuchung des Scans selbst generiert wird.

Wirklich bemerkenswert ist, dass das System in der Lage war, eine Mischung aus PDF-Dateien mit unterschiedlichen internen Strukturen, von einfachen Scans bis hin zu strukturierten PDFs, korrekt zu verarbeiten und sie alle auf ein kleinstes gemeinsames Vielfaches aus den geschichteten PDFs der einzelnen Seiten zurückzuführen.

Nun, wenn Ihnen das alles nicht viel erscheint, dann liegt das daran, dass diese Artikelserie nicht für Sie geeignet ist; es ist vielmehr zukunftstauglich digitale Bibliothekare die durch Zufall oder Glück auf diesen Seiten gelandet sind. Aber Sie könnten Ihre Meinung trotzdem ändern.

Bleiben Sie dran für die nächste Folge von „Archivare“.

Marco Calamari

Schreiben Sie an Cassandra — Twitter — Mastodon
Videokolumne „Ein Gespräch mit Cassandra“
Cassandras Slog (Statischer Blog).
Cassandras Archiv: Schule, Ausbildung und Denken

Treten Sie Communities bei

Logo di Feddit Logo di Flarum Logo di Signal Logo di WhatsApp Logo di Telegram Logo di Matrix Logo di XMPP Logo di Discord




Wenn Sie Fehler im Artikel gefunden haben, können Sie diese per Klick melden Hier, Danke schön!

Kommentare

Jeder Artikel entspricht einem Beitrag auf Feddit wo du kommentieren kannst! ✍️ Klicken Sie hier, um diesen Artikel zu kommentieren ✍️

Feddit ist die von uns verwaltete italienische Alternative zu Reddit, basierend auf der Software Lemmy, eines der interessantesten Projekte von Fediversum.