Archivismi: archiviamo Cassandra, parte prima

Logo di Feddit Logo di Flarum Logo di Signal Logo di WhatsApp Logo di Telegram Logo di Matrix Logo di XMPP Logo di Discord

Archivismus: Lasst uns Cassandra archivieren, Teil eins

Dieser Beitrag wurde zuletzt aktualisiert von 6 Monaten tut

Dies ist ein automatisch aus dem Italienischen übersetzter Text. Wenn Sie unsere Arbeit schätzen und sie gerne in Ihrer Sprache lesen, denken Sie über eine Spende nach, damit wir sie weiterhin durchführen und verbessern können.

Die Artikel von Cassandra-Kreuzung Ich bin unter Lizenz CC BY-SA 4.0 | Cassandra-Kreuzung ist eine Spalte, die von erstellt wurde Marco Calamari mit dem „nom de plume“ von Kassandra, geboren 2005.

Wir sind am Ende des Archivismus angelangt: der Archivierung von Cassandra

Dieser Artikel wurde geschrieben am 31. Dezember 2023 von Cassandra

Cassandra Crossing 564/ Archivismus: Wir archivieren Cassandra, Teil eins

Heute wechseln wir die Seiten der Medaille; Keine Technik, erzählen wir eine wahre Geschichte.

In letzten drei Episoden Wir haben am Internetarchiv gearbeitet, aber nur mit einfachen Beispielen.

Allerdings bedeutet Archivierung oft die Archivierung einer Menge unterschiedlicher Materialien mit einem endgültigen Zweck. Und in diesen Fällen gibt es keine einfachen Beispiele, die ausreichen; Der Teufel steckt immer im Detail, und die nützlichsten Informationen erhält man, wenn man sich echte Geschichten und Erfahrungen anhört.

Deshalb wird Ihnen Cassandra heute eine wahre, noch unvollendete Geschichte erzählen und nur über Details sprechen, die nicht direkt mit dem Internetarchiv zu tun haben, sondern mit den Vorstufen einer generischen Archivierungskampagne, bei der es am längsten zu finden ist , sammeln und vor allem für die eigentliche Archivierung vorbereiten.

Und was gibt es Schöneres, als es zu erzählen Cassandra Crossing-Archivierungskampagne? Ja, Cassandra hatte Stücke, die archiviert werden sollten, schon seit einiger Zeit beiseite gelegt. Aber gehen wir der Reihe nach vor.

Die Ursprünge von Cassandra Crossing reichen bis ins Jahr 2003 zurück, während die regelmäßige (na ja, fast regelmäßige ...) Veröffentlichung im Jahr 2005 auf Punto Informatico begann. Dann macht er weiter andere Zeitungen wie Zeusnews.it, manchmal parallel. Es erstreckt sich auch auf Papier und auf Video.

Die verfügbaren Materialien waren unterschiedlichster Art; Textdateien mit und ohne Akzente, Textverarbeitungsdateien unterschiedlicher Art, PDF-Dateien usw. Viele Dateien sind offensichtlich einfach verloren gegangen.

So kam es, dass Cassandra vor einigen Jahren nach einer Möglichkeit suchte, sich zu erholen, zu homogenisieren und zentralisieren all die Korpus von Cassandra.

Wie bei allen Dingen ist es besser, sich kopfüber in einen Job zu stürzen, aber nachzudenken, zu planen, zu tun und dann nach einem noch besseren Weg zu suchen. Nach mehreren Versuchen versuchte es Cassandra Medium.com, A Sozial spezialisiert für Schriftsteller oder angehende Schriftsteller. Medium.con bietet nicht nur einen zentralen Punkt zum Schreiben mit einem diskreten Online-Editor und zum Speichern von Artikeln, sondern verfügt auch über eine hervorragende Funktionalität zum Importieren von Text von jeder Website, selbst von Seiten voller Werbung oder verschiedener Effekte.

Es verfügt über eine Funktion zum Exportieren von Benutzerdaten, mit der einzelne Artikel im HTML-Format gespeichert werden.

So war Cassandra zentralisiert das Archiv auf Medium.com, nicht ohne viel Zeit darauf verwendet zu haben, mit Suchmaschinen die Links zu alten Artikeln zu finden, die nie lokal oder auf keinen Fall archiviert wurden verloren.

Aber die Lösung war aus verschiedenen Gründen nicht zufriedenstellend, angefangen damit, dass sich die Artikel in einer Cloud befanden, und schlimmer noch, in etwas, das im Wesentlichen ein soziales Netzwerk war, mit all den schädlichen Aspekten, die Cassandra hasst und von denen Sie oft erzählt.

Und so beschloss Cassandra, mit der Archivierung von Cassandra Crossing im Internet Archive zu beginnen. Und da wir von einem kompletten Archiv in einem homogenen Format ausgingen, schien es, als ob es ein Kinderspiel werden sollte. „Riesiger Fehler“, wie er sagt Jack Slater.

Tatsächlich ist die notwendige Homogenität nicht nur eine Frage des Formats, sondern vor allem der internen Struktur und Homogenität der in den Artikeldateien gespeicherten Informationen.

Beginnen wir mit der einfachsten Sache: Dateinamen. Offensichtlich verwendet Medium.com seine eigene Philosophie und bildet den Namen aus dem Veröffentlichungsdatum (nicht dem Original, sondern dem auf Medium.com), fügt eine binäre Kennung und eine Ableitung des Titels hinzu.

Etwas wie

29.12.2023_Cassandra-Crossing — Archivismi — the-organization-of-documents-in-Internet-Archive-e83b9e3b9cca.html

Zwar lassen sich Dateien auch manuell umbenennen, doch bei Hunderten oder Tausenden von Dateien ist das eine schwierige Aufgabe. Automatisierung wird unabdingbar. Glücklicherweise stehen unter Linux leistungsstarke Skriptsprachen und Bibliotheken zur Verfügung, die Wunder wirken.

Sie können Dateien daher ganz einfach umbenennen, indem Sie Informationen entfernen, hinzufügen und neu anordnen. Paradoxerweise war es am schwierigsten, die Artikelnummer automatisch am Anfang des Dateinamens einzufügen.

Glücklicherweise hatte Cassandra, die manchmal methodisch vorgeht, die Angewohnheit, die Artikelnummer am Anfang des Untertitels zu schreiben und sie in runde Klammern zu setzen. Mit einer kleinen Alchemie regulärer Ausdrücke war es daher möglich, es automatisch zu extrahieren und zum Erstellen eines „mehr“ zu verwenden.menschlich” Dateiname als

562_Cassandra-Crossing – Archivismi – die-Organisation-von-Dokumenten-in-Internet-Archive.html

Anschließend galt es, die Dateien zu verarbeiten, zu bereinigen und in archivierbare Formate zu konvertieren.

Der erste notwendige Schritt bestand darin, die HTML-Dateien von einer großen Menge versteckter Tags zu befreien, die für die Definition des Textes völlig nutzlos, aber notwendig sind, um die Funktionalität der Medium.com-Site zu gewährleisten. Tatsächlich implementiert Medium.com, wie alle sozialen Netzwerke, die Exportfunktionen zu dem von der (immer zu loben) DSGVO geforderten Mindestlohn und produziert daher zwar vollständige Daten, aber nicht für eine einfache Wiederverwendung geeignet.

Die beste Lösung, die Cassandra fand, bestand darin, das HTML zu konvertieren Markdown-Format, Filtern Sie Zeilen heraus, die keine nützlichen Informationen enthielten, und konvertieren Sie sie zurück in HTML. Dieses kleine Wunder war dank Dokumentkonvertierungsbibliotheken möglich Pandoc, unterstützt durch normale Unix-Dienstprogramme wie grep.

Nachdem die Dateien nun bereinigt und mit einem menschlichen Namen versehen wurden, besteht immer noch das Problem der in den Dateien enthaltenen Bilder. Tatsächlich werden die Bilder nicht mit den anderen Daten exportiert, und die URLs der Bilder verweisen alle auf die Server von Medium.com, die daher trotz aller geleisteten Arbeit immer noch vorhanden sind in der Hand ein wichtiger Teil der Artikel.

Daher ist es notwendig, die Remote-Bilder innerhalb desselben HTML-Codes in Inline-Bilder umzuwandeln und sie in Base64 zu kodieren. Dieser konzeptionell einfache Vorgang muss normalerweise für jede einzelne Datei und URL manuell durchgeführt werden. Glücklicherweise gibt es eine Möglichkeit, dies automatisch über den Parameter zu tun – in sich geschlossen, zum Pandoc-HTML-Rewrite-Befehl hinzugefügt.

Für die Archivierung wird hauptsächlich PDF gewählt, bei dem dieses Problem nicht auftritt, da bei der Konvertierung von HTML in PDF die Bilder direkt in die Datei eingefügt werden.

Um nichts zu verpassen, konnte Cassandra dank der Wunder von Pandoc alle bereits erstellten Formate auf sehr einfache Weise in PDF konvertieren, das Start-HTML, das Markdown und das vereinfachte HTML, und dann das beste auswählen.

Im Moment können Sie das Ergebnis finden Hier.

Zusammenfassend lässt sich sagen, dass ein paar „volle“ Arbeitstage zu diesem 39-zeiligen Bash-Skript geführt haben, das sicherlich nicht optimal oder fehlerfrei ist und das wir hier trotzdem kommentieren werden, nur um Ihnen eine Vorstellung zu geben. Es reicht aus, es in groben Zügen zu verstehen. Aber wenn Sie es brauchen, wäre die Wiederverwendung eine große Zeitersparnis für Sie.

# Vorgehensweise zur Vorbereitung der Archivierung von Artikeln
# von Cassandra Crossing
#
# verschiedene Initialisierungen
_base="./tuttocassandra_processing/"
_base2=“./posts/“
_base3=“./markdown/“
_base4=“./temp/“
_base5=“./html/“
_base6=“./pdf/“
_temp=“temp.txt“
#
# Arbeitsverzeichnis ändern, Verzeichnisse erstellen und Dateien bereinigen
CD „${_base}“
mkdir markdown html temp pdf
rm ./markdown/* ./html/* ./temp/* ./pdf/*
cd „${_base2}“
rm „${_temp}“
_dfiles=“*“
#
# Hauptschleifenstart
für f in $_dfiles
Tun
rm „${_temp}“
#
# Extraktion der Artikelnummer
g=`grep -Eo -m 1 '\([0–9]+\)' $f | tr -d '()'`
g=“000″$g
g=`echo $g | rev | Schnitt -c 1–3 | rev`
h=`echo $f | schneiden -d '_' -f2- | rev | schneiden -d '-' -f2-| rev`
#
# Bildung des neuen Dateinamens und Kopie mit dem neuen Namen
i=$g“_“$h
echo „ — -> Kennung: $i“
cp $f „../$_base4${i}.html“
#
#-Konvertierung in das Markdown-Format, Bereinigung und Rückkonvertierung in HTML
pandoc -f html -t markdown „../“$_base4$i“.html“ > „${_temp}“
grep -v „^:::“ „${_temp}“ |sed -e 's|{#.*}||g' > „../“${_base3}$i“.md“
pandoc – eigenständig -f markdown -t html „../“${_base3}$i“.md“> „../“${_base5}$i“.html“
pandoc – pdf-engine=xelatex -f markdown -t pdf „../“$_base3$i“.md“ > „../“${_base6}$i“.pdf“
#
# Reinigung und Zyklusende
Erledigt
rm -rf „${_temp}“ „../$_base4“

(Wenn Sie dieses Verfahren kopieren müssen, ersetzen Sie die geschwungenen doppelten Anführungszeichen durch normale, die geschwungenen einfachen Anführungszeichen durch normale und das lange Minuszeichen durch zwei normale Minuszeichen. Medium.com erlaubt Ihnen nicht, so zu schreiben, wie Sie möchten. ..)

Und das ist auch alles für heute. Bleiben Sie dran für die nächste Folge von „Archivare“.

Marco Calamari

Schreiben Sie an Cassandra — Twitter — Mastodon
Videokolumne „Ein Gespräch mit Cassandra“
Cassandras Slog (Statischer Blog).
Cassandras Archiv: Schule, Ausbildung und Denken

Dieses Tag @treue Alternativen wird verwendet, um diesen Beitrag automatisch an zu senden Feddit und erlauben Sie jedem im Fediversum, dazu Stellung zu nehmen.

Treten Sie Communities bei

Logo di Feddit Logo di Flarum Logo di Signal Logo di WhatsApp Logo di Telegram Logo di Matrix Logo di XMPP Logo di Discord




Wenn Sie Fehler im Artikel gefunden haben, können Sie diese per Klick melden Hier, Danke schön!

Kommentare

Jeder Artikel entspricht einem Beitrag auf Feddit wo du kommentieren kannst! ✍️ Klicken Sie hier, um diesen Artikel zu kommentieren ✍️

Feddit ist die von uns verwaltete italienische Alternative zu Reddit, basierend auf der Software Lemmy, eines der interessantesten Projekte von Fediversum.