Archivismi: API, quando il gioco si fa duro

Dies ist ein automatisch aus dem Italienischen übersetzter Text. Wenn Sie unsere Arbeit schätzen und sie gerne in Ihrer Sprache lesen, denken Sie über eine Spende nach, damit wir sie weiterhin durchführen und verbessern können.

Die Artikel von Cassandra-Kreuzung Ich bin unter Lizenz CC BY-SA 4.0 | Cassandra-Kreuzung ist eine Spalte, die von erstellt wurde Marco Calamari mit dem „nom de plume“ von Kassandra, geboren 2005.

Wir sind bei der sechsten Folge der Archivismen angelangt!

Dieser Artikel wurde geschrieben am 29. Dezember 2023 von Cassandra

Cassandra Crossing 563/ Archivismi: API, wenn es hart auf hart kommt

Heute werden wir zu einer anderen Ebene der Nutzung des Internetarchivs übergehen, nämlich der „Programmierung“ über API; Aber zuerst müssen wir über die Pflichten und Verantwortlichkeiten der Internet Archive-Benutzer sprechen.

In den letzten beiden Folgen (eine davon ist heute verfügbar Volle Liste In den Artikeln von „Archivismi“) beschäftigten wir uns mit der elementaren Archivierung Internetarchiv; Die Archivierung einer einzelnen Datei hat uns jedoch einen erheblichen Teil des Systems und die leistungsstarken Funktionen, die es uns zur Verfügung stellt, eröffnet.

Es bleibt noch viel, viel mehr zu zeigen, auch nur für manuelle Archivierungsvorgänge. Bald werden wir eine echte Archivierungskampagne beschreiben und durchführen und dabei die Details und kleinen Probleme beschreiben, die reale Fälle von den Beispielen unterscheiden, die wir in Handbüchern finden.

Aber heute werden wir uns mit einem Thema befassen, das bereits in einer früheren Folge am Rande erwähnt wurde und das die Archivkraft mit sich bringt Internetarchiv stellt es seinen Nutzern auf einem neuen Niveau zur Verfügung. Wir sprechen offensichtlich über die Möglichkeit, Operationen zu „programmieren“. Internetarchiv.

Man muss kein Genie sein, um sich einen solchen Service vorzustellen Internetarchiv Es existiert, weil es über eine kleine Armee von Programmierern verfügt, die eine Basis dedizierter Software schreiben, pflegen und weiterentwickeln. Und ganz nebenbei, um das niemals Aussterbende zu schüren.Ranking der besten Programmiersprachen", auch in Internetarchiv Python Er regiert das Quartier!

Aber kommen wir zurück zum heutigen Thema.

Kurz gesagt: Ja, es ist möglich, das Internetarchiv mithilfe von Skripten oder echten Programmen zu nutzen, die die Archivierungsvorgänge, die wir durchführen möchten, automatisieren.

Und ja, das wird erreicht.“Offenlegen einer API“. Für Nicht-Programmierer bedeutet es einfach, dass es möglich ist, die auszuführenden Vorgänge mithilfe von Skripten oder tatsächlichen Programmen zu automatisieren, die natürlich über das Internet präzise Aufrufe an elementare Internet-Archivfunktionen ausführen, die in a definiert sind APIs – Schnittstelle für Anwendungsprogrammierung.

Es wäre nicht nötig, etwas mehr zu sagen, sondern lediglich den Link erneut bereitzustellen Internet Archive-Entwicklerportal, und lassen Sie es jemals jemand haben beschäftigtEntdecken und nutzen Sie die Leistungsfähigkeit der Internet Archive API, auch wenn Sie einfach ein .bat-Skript für DOS erstellen.

Aber nein, es sind immer noch ein Minimum an vorläufigen Hinweisen und Empfehlungen erforderlich, bevor auch nur ein sehr kleines Beispiel gegeben wird.

In erster Linie, Internet Archive legt keine vordefinierten Grenzen dafür fest, was ein Benutzer mit den bereitgestellten Diensten tun kann; Es begrenzt beispielsweise nicht von vornherein die Menge der Informationen, die gespeichert werden können.

Aber keine der Öffentlichkeit zugängliche Realität kann sein.wehrlos“, wenn man bedenkt, dass ein Prozentsatz der Dummköpfe, Profiteure und Kriminellen auf der Welt auch unter den Internet-Archiv-Nutzern präsent ist.

Wie die Geschichte des Internets immer wieder gezeigt hat, können große kollaborative Einheiten, zum Beispiel Wikipedia, nur überleben und sich entwickeln, wenn sie als Hybrid zwischen unvollkommener Demokratie und aufgeklärter Tyrannei geführt werden. Internetarchiv ist keine Ausnahme.

Aus diesem Grund sind einige Ressourcen, wie z Sammlungen, werden nur auf Anfrage getrunken und serviert. Eine Reihe von Administratoren verschiedener Ebenen überwachen und kontrollieren die Funktionsweise und Nutzung des Internetarchivs und halten die Benutzer auf dem Laufenden, kontrollieren oder schließen sie aus dysfunktional. Eine solche Präsenz sollte nicht als Problem oder Grenze gesehen werden, sondern als Ressource; Tatsächlich kommt den Administratoren die Hauptaufgabe zu, allen Benutzern bei der Nutzung zu helfen Internetarchiv.

Allerdings sind Administratoren eine wertvolle und knappe Ressource; schicken eine E-Mail an die Administratoren, wenn dies nicht direkt in den Verfahren vorgesehen ist (z. B. für die Erstellung einer Sammlung) es muss als letzter Ausweg betrachtet werden, nur nach sorgfältiger Lektüre der Dokumentation und Online-Hilfe, vielen Tests, einer Suche im Blog und warum nicht auch in normalen Suchmaschinen zu verwenden. Hört mir zu!

Aber es wurde nicht gesagt, dass wir das tun würden geplant etwas? Sehr wahr, und kommen wir gleich zur Praxis. Und um mit etwas Einfachem und Harmlosem zu beginnen: Nehmen wir an, wir haben eine Reihe von Dingen gefunden, die uns interessieren, zum Beispiel mehrere Ausgaben einer Zeitschrift, und wir möchten sie schnell und zuverlässig herunterladen, ohne dass wiederholte manuelle Vorgänge erforderlich sind .

Und der Einfachheit halber erledigen wir alles über die Befehlszeile, ohne die API direkt zu verwenden und daher kein echtes Programm in Python oder ähnlichem schreiben zu müssen; Wir müssen nur das Python-Programm herunterladen.u.a” und benutze es. u.a es handelt sich um ein bereits „pseudokompiliertes“ Programm, also geschrieben in einer sogenannten Zwischen-„Sprache“. Python-Bytecode, das auf jede Plattform portierbar ist, auf der eine Python3-Umgebung installiert ist.

Die Verwendung einer Version von Linux, Debian, Ubuntu usw. wird dringend empfohlen. Sie können es auch in einer virtuellen Virtualbox- oder VMWare-Maschine auf jedem Computer verwenden.

Die Windows-WSL-Umgebung sollte auch funktionieren, aber hier geht Cassandra nicht weiter und lässt diejenigen im Stich, die mutig genug sind, es zu versuchen; Warten Sie in der Tat möglicherweise auf Feedback von ihnen in dieser Hinsicht, um diesen Artikel zu integrieren.

Kehren wir also mit Cassandra zu ihrem geliebten Debian zurück und installieren und konfigurieren es u.a mit dem Verfahren, das wir finden Hier. Aber auch ein einfaches

sudo apt install internetarchive

es ist genug. Wunder von Debian…

Kurz gesagt, auf einem Computer, auf dem die Python3-Umgebung installiert ist, müssen wir den ia-Befehl an der von uns bevorzugten Stelle herunterladen oder installieren, ihn ausführbar machen und ihn schließlich mit dem Parameter starten konfigurieren um es unserem Benutzer zuzuordnen (Sie haben Ihren Benutzer erstellt, oder?).

Es ist alles fertig; Als erstes Beispiel können wir mit dem folgenden Befehl nur das Original-PDF unseres Beispielartikels herunterladen, den wir in der letzten Folge hochgeladen haben.

$ ./ia download cassandra-crossing-2558-il-dizionario-di-cassandra-archivismi – no-directories – format=“Text PDF“
cassandra-crossing-2558-the-dictionary-of-cassandra-archivisms:
Herunterladen von Cassandra_Crossing_2558_The Dictionary of Cassandra_ Archivismi.pdf: 100%|█| 513k/513k [00:00<00:00, 709kiB/s

Aber wenn wir das gesamte Objekt einschließlich abgeleiteter Dateien herunterladen wollten, hätten wir noch einfacher schreiben können

$ ./ia download cassandra-crossing-2558-il-dizionario-di-cassandra-archivismi

Wir hätten somit ein Verzeichnis mit demselben Namen wie die Objektkennung erhalten, das alle Dateien enthält, aus denen es besteht. Der gleiche Vorgang funktioniert auch, um eine gesamte Sammlung oder Teile davon herunterzuladen. Noch eine Empfehlung, Berechnen Sie zunächst, wie groß die von Ihnen getroffene Auswahl ist; An Internetarchiv Es gibt Objekte von enormen Ausmaßen.

Für Hilfe, sowie konsultieren Sie die Online-Ratgeber, Gib einfach die Befehle

$ ./ia Hilfe
$ ./ia Hilfe herunterladen
$ ./ia Hilfe zum Hochladen

Wir schließen mit weiteren Empfehlungen in keiner bestimmten Reihenfolge ab.

Wenn Sie neue Objekte hochladen, ist es besser, die Tabellenkalkulationsmethode im CSV-Format zu verwenden, wofür Sie ein Beispiel finden können Hier oder im Ratgeber. So haben Sie stets alle Parameter gemeinsam im Griff. Die Angabe aller Parameter über die Befehlszeile kann komplex sein und leicht zu Fehlern führen.

Wenn Sie Ihre Objekte erstellen, Nehmen Sie sie immer in die Sammlung auf test_collection, wie auch im Beispielblatt dargestellt. Die Gründe haben wir bereits erläutert.

Wenn Sie stattdessen Ihre ersten Objekte einfügen endgültig, fügen Sie die Sammlung nicht in die Parameter ein und belassen Sie die Standardeinstellung Open Source. Viel Spaß beim Experimentieren!

Und das ist auch alles für heute. Bleiben Sie dran für die nächste Folge von „Archivare“.

Marco Calamari

Schreiben Sie an Cassandra — Twitter — Mastodon
Videokolumne „Ein Gespräch mit Cassandra“
Cassandras Slog (Statischer Blog).
Cassandras Archiv: Schule, Ausbildung und Denken

Archivare | Cassandra-Kreuzung

Treten Sie Communities bei

Aktie

💙 Spenden

Wenn Sie Fehler im Artikel gefunden haben, können Sie diese per Klick melden Hier, Danke schön!

Von Marco Calamari

Schreiben Sie an Cassandra - @calamarim Cassandras Prophezeiungen: @XingCassandra Videokolumne „Ein Gespräch mit Cassandra“ Cassandras Slog (Statischer Blog). Cassandras Archiv: Schule, Ausbildung und Denken

Alle Beiträge von Marco Calamari anzeigen.

Kommentare

Jeder Artikel entspricht einem Beitrag auf Feddit wo du kommentieren kannst! ✍️ Klicken Sie hier, um diesen Artikel zu kommentieren ✍️

Feddit ist die von uns verwaltete italienische Alternative zu Reddit, basierend auf der Software Lemmy, eines der interessantesten Projekte von Fediversum.

Cassandra Crossing 563/ Archivismi: API, wenn es hart auf hart kommt

Treten Sie Communities bei

Von Marco Calamari

Kommentare

Lesen Sie auch: