Skip to content
jriedl edited this page Jun 4, 2020 · 20 revisions

Unsere Projekte IxTheo (eingeschlossen das Projekt RelBib) und KrimDok benötigen verschiedene sogenannte "Datenabzüge" von Titel- und Normdaten, die täglich (IxTheo), wöchentlich (KrimDok) oder unregelmäßig (IxTheo + KrimDok) im BSZ-FTP-Server für uns zur Verfügung gestellt werden.

Die Abzüge werden durch automatische Prozesse, getriggert durch einen Cron-Eintrag ausgeführt. Das relevante Skript auf unserer Seite ist fetch_marc_updates.py dessen Konfigdatei /usr/local/var/lib/tuelib/cronjobs/fetch_marc_updates.conf heißt.

Als Beispiel habe ich IxTheo ausgewählt:

Namensmuster Server-Verzeichnis Häufigkeit Bedeutung bzw. Inhalt
SA-MARC-ixtheo-JJMMTT.tar.gz /ixtheo unregelmäßig, bzw. selten Komplettabzug mit Lokaldaten
SA-MARC-ixtheo_o-JJMMTT.tar.gz /ixtheo unregelmäßig, bzw. selten Komplettabzug ohne Lokaldaten
TA-MARC-ixtheo-JJMMTT.tar.gz /ixtheo täglich Differenzabzug mit Lokaldaten
TA-MARC-ixtheo-JJMMTT_o.tar.gz /ixtheo täglich Differenzabzug ohne Lokaldaten
SA-MARC-ixtheo_hinweis-JJMMTT.tar.gz /ixtheo wöchentlich Umschreibungen von Komposita-Schlagwörtern
WA-MARCcomb-sekkor.tar.gz /sekkor wöchentlich Sekundärkorrekturen (geänderte Normdaten ohne Änderung im Titel)
LOEKXP-JJMMTT /sekkor wöchentlich Löschlisten
LOEKXP_m-JJMMTT /ixtheo wöchentlich Liste der Datensätze die mit mtex getaggt sind
Errors_ixtheo_JJMMTT /ixtheo täglich Liste der PPNs die zwar den Abzugskriterien entsprachen aber aus irgend einem Grund nicht exportiert werden konnten

(Der Grund, warum es sowohl SA- als auch TA-Abzüge mit und ohne Lokaldaten gibt, ist, dass das BSZ nicht gleichzeitig alle Datensätze, die unseren Auswahlkriteriem entsprechen, also sowohl solche, die zugeordnete Lokaldaten als auch solche, die im BSZ keine zugeordneten Lokaldaten haben, in einem Abzug erstellen kann.)

Bei KrimDok fließt BSZ-seitig aktuell nur eine Untermenge der Lokaldaten (insbesondere die Tübinger) ein. Bei IxTheo werden aktuell alle Lokalsätze ausgeleitet und auf Tübinger Seite nach dem Download gefiltert (hier wird noch geprüft, ob in Zukunft nur noch Tübinger Lokaldaten vom BSZ ausgeleitet werden).

Namensmuster BSZ-Terminologie Tübinger Terminologie
SA... Sonderabzug Komplettabzug
TA... Täglicher Abzug Differenzabzug
WA... Wöchentlicher Abzug Differenzabzug
_o ohne Lokaldaten ohne Lokaldaten
_comb UTF-8 ohne kombinierende Zeichen

Datenformate

  • Komplett- und Teilabzüge: Innerhalb der gezippten Tar-Archive finden sich jeweils drei Dateien mit dem Namenschema .*[abc]001.raw Dateien, die Marc21-Daten enthalten. Hierbei bezeichnet a die Titeldaten, und b und c Ausprägungen von Normdaten.
  • Der Aufbau der Löschlisten ist hier dokumentiert.
  • Die Normdatendifferenzabzüge enthalten Titel-, Norm- und Lokaldaten im Format sekkor-.*.mrc.