Archivismi: archiviamo Cassandra, parte terza

Logo di Feddit Logo di Flarum Logo di Signal Logo di WhatsApp Logo di Telegram Logo di Matrix Logo di XMPP Logo di Discord

Archivismus: Wir archivieren Cassandra, Teil drei

Warnung: Dieser Beitrag wurde erstellt 5 Monaten tut

Dies ist ein automatisch aus dem Italienischen übersetzter Text. Wenn Sie unsere Arbeit schätzen und sie gerne in Ihrer Sprache lesen, denken Sie über eine Spende nach, damit wir sie weiterhin durchführen und verbessern können.

Die Artikel von Cassandra-Kreuzung Ich bin unter Lizenz CC BY-SA 4.0 | Cassandra-Kreuzung ist eine Spalte, die von erstellt wurde Marco Calamari mit dem „nom de plume“ von Kassandra, geboren 2005.

Und hier sind wir beim dritten und letzten Teil von archivisimi Cassandra (aber es fehlt noch ein Artikel zum Abschluss von Archivisimi!).

Dieser Artikel wurde geschrieben am 5. Januar 2024 von Cassandra

Cassandra Crossing 566/ Archivismus: Wir archivieren Cassandra, Teil drei

Es ist Zeit zum Schluss; Massen-Upload von Cassandra Crossing beginnt!

In frühere Episoden von Archivare Wir haben erklärt, wie die Archivierung im Großen und Ganzen funktioniert.WAHR” im Internet Archive. „WAHRDenn es geht nicht darum, ein Dateiverzeichnis hochzuladen, sondern um die Erstellung echter Archivobjekte, komplett mit allen Dateien und Metadaten, die notwendig sind, um das Objekt zu definieren und es nützlich und nutzbar zu machen. Und Metadaten sind, ob Sie es glauben oder nicht, bei weitem das Schwierigste und Nützlichste.

Um unsere Lieblingskolumne zu archivieren, mussten wir uns also zunächst einmal fragen Was Archiv, zusätzlich zum klassischen PDF. Die Wahl fiel darauf, dem Inhalt eine HTML-Datei und eine Datei im MARKDOWN-Format hinzuzufügen, wobei letzteres für eine eventuell erforderliche weitere Verarbeitung nützlich ist. In einigen Artikeln ging es auch um Bücher oder kostenlose Publikationen, und in diesen wenigen Fällen war auch das PDF der Publikation im Betreff enthalten.

Nun ja, es war notwendig, sie zu erstellen, diese gesegneten 1686-Dateien. Die Markdown-, HTML- und PDF-Dateien wurden vollständig automatisch generiert, ausgehend von den HTML-Dateien der von Medium.com exportierten Artikel, dank der in den vorherigen Episoden vorbereiteten und einsatzbereiten Tools, die die von Medium.com exportierten Eingabedaten verarbeiten. Alles einfach also?

Offensichtlich nicht. In diesen Reiseberichten erzählt Ihnen Ihre Lieblingsprophetin von den weiteren Wechselfällen, denen sie auf ihrer Reise begegnete.

Eins: Daten von Medium.com enthielten immer noch Fehler. Der häufigste und schmerzhafteste Typ war die fehlerhafte Konstruktion des Dateinamens, die durch die automatische Erkennung der Artikelnummer entstand. Dies hat zwei Hauptgründe. Erstens waren einige Artikel einfach falsch nummeriert. Zweitens enthielten die Dateien die Artikelnummer, allerdings nicht nur im Text, sondern auch im von Medium.com automatisch erstellten Header. Der einmal erstellte Header wurde nicht mehr aktualisiert; Ratet mal, woher die Artikelnummer kommt?

Zwei: Das Erstellen der Tabelle, das Erstellen und Umbenennen der Dateien war einfach. Es war sehr nützlich, jeden Upload-Durchlauf in einem neuen Blatt zu speichern, um Fehler zu finden und Ihre Schritte nachzuvollziehen. Bewahren Sie außerdem das Ausführungsprotokoll auf u.a Es war sehr nützlich, um Fehler zu extrahieren.

DreiFestsetzung In einigen Fällen verlor die Nummerierung der Artikel die Übereinstimmung zwischen dem Dateinamen und der Objektkennung. Während Dateien und Metadaten geändert, hinzugefügt und gelöscht werden können, ist es nicht möglich, die einmal erstellte Objektkennung zu ändern. Und wenn Sie den Dateigenerierungsvorgang erneut starten und sich die Nummerierung ändert, ändern sich auch einige Dateinamen. Um die nachfolgenden Blätter für die Verladung zu erstellen, war es notwendig, dies zu berücksichtigen und umfassende Kontrollen durchzuführen Ausrichtung zwischen Bezeichnern und Dateinamen. Natürlich war die Versuchung groß, alles zu korrigieren und die Prozeduren noch einmal von vorne zu beginnen. Doch die totale Automatisierung ist nicht das Ziel, sondern nur ein Mittel. Zeit sparen, trotzdem alles richtig machen, es ist das eigentliche Ziel.

Vier: Der erste Massen-Upload der PDF-Datei wurde nur für 10 Objekte durchgeführt. Anschließend warteten wir darauf, dass die verschiedenen automatischen Alchemien des Internetarchivs abgeschlossen waren, und untersuchten das Ergebnis sorgfältig. Auf der Ebene der Metadaten führte dies dazu, dass die Auswahlmöglichkeiten geändert wurden, um sie nützlicher zu machen.

Fünf: Die restlichen 552 PDFs wurden dann in großen Mengen hochgeladen, wodurch alle Objekte erstellt wurden. Die Objekte und insbesondere die Bezeichner haben sich in allen nachfolgenden Operationen, die wir durchgeführt haben, nie verändert. Bei diesem ersten echten Bulk-Upload wurden Fehlermeldungen generiert Versäumnis zu schaffen, weil der aktuelle Vorgang wie dieser als Spam identifiziert wurde

Fehler beim Hochladen von 186_Cassandra-Crossing – L-Internet-senza-Rete.pdf: Bitte reduzieren Sie Ihre Anfragerate. — Ihr Upload von 186_Cassandra-Crossing — L-Internet-senza-Rete vom Benutzernamen pippo@pluto.paperino scheint Spam zu sein. Wenn Sie glauben, dass es sich hierbei um einen Fehler handelt, wenden Sie sich an info@archive.org und fügen Sie die gesamte Nachricht in Ihre E-Mail ein.

Gesagt, getan, ich kontaktierte den Helpdesk per E-Mail, vielleicht weil ich auch ein langjähriger Benutzer bin Spender Regelmäßig wurden innerhalb weniger Stunden einige offensichtliche Anti-Spam-Einschränkungen entfernt. Nachträgliche Einfügungen bereiteten keine Probleme mehr.

Sechs: Es wurden zwei zusätzliche separate Massen-Uploads durchgeführt, einer für die Markdown-Dateien und einer für die HTML-Dateien. In den Tabellen waren nur zwei Spalten erforderlich; Identifikator und Datei. Die Metadaten wurden zum Zeitpunkt der Objekterstellung, also beim ersten Massen-Upload, zugewiesen. Sollten sie massenhaft geändert werden, wäre es notwendig, „Massenkorrektur“.

Sieben: Die Massenmetadaten wurden bearbeitet und die Beschreibung (aus dem Untertitel entnommen) und das Veröffentlichungsdatum eingefügt. Beide Datenspalten wurden mit einer modifizierten Version des bereits bekannten Verfahrens generiert, beginnend mit den Markdown-Dateien, dem Extrahieren des Felds mit einem regulären Ausdruck, dem manuellen Hinzufügen, Bereinigen und Korrigieren der fehlenden oder falschen Felder und dem anschließenden Kopieren der richtigen Bereiche in die Tabelle zum Massen-Upload einfügen. Trotz der "StandardisierungenIn den vorherigen Phasen der Bearbeitung und Manipulation der Artikeldateien dauerte es mehr als einen halben Tag, um die Unstimmigkeiten zu beheben.

Acht: Und es dauerte noch ein paar Stunden, bis ich die nach Datum sortierte Liste der Artikel auf der Website des Internetarchivs durchgesehen und festgestellt hatte, dass darin enthalten war, was drin sein musste. Auch hier traten einige kleine Fehler auf, allerdings nur hinsichtlich des Datums. Nur in einem Fall wurden sowohl Titel als auch Datum vertauscht, aber glücklicherweise handelt es sich auch hier um Metadaten, die daher leicht korrigierbar sind. Aber es war auch eine Genugtuung, zwanzig Jahre Arbeit in nur wenigen Stunden Revue passieren zu lassen!

Und das ist auch alles für heute, denn die Überarbeitungsarbeit ist wirklich anstrengend. Wir behalten uns die Schlussfolgerungen und Kommentare für die nächste und letzte Folge dieser ersten Kampagne von „ vor.Archivare“.

Marco Calamari

Schreiben Sie an Cassandra — Twitter — Mastodon
Videokolumne „Ein Gespräch mit Cassandra“
Cassandras Slog (Statischer Blog).
Cassandras Archiv: Schule, Ausbildung und Denken

Dieses Tag @treue Alternativen wird verwendet, um diesen Beitrag automatisch an zu senden Feddit und erlauben Sie jedem im Fediversum, dazu Stellung zu nehmen.

Treten Sie Communities bei

Logo di Feddit Logo di Flarum Logo di Signal Logo di WhatsApp Logo di Telegram Logo di Matrix Logo di XMPP Logo di Discord




Wenn Sie Fehler im Artikel gefunden haben, können Sie diese per Klick melden Hier, Danke schön!