-
Notifications
You must be signed in to change notification settings - Fork 4
BSZ Datenabzüge
Unsere Projekte IxTheo (eingeschlossen das Projekt RelBib) und KrimDok benötigen verschiedene sogenannte "Datenabzüge" von Titel- und Normdaten, die täglich (IxTheo), wöchentlich (KrimDok) oder unregelmäßig (IxTheo + KrimDok) im BSZ-FTP-Server für uns zur Verfügung gestellt werden.
Die Abzüge werden durch automatische Prozesse, getriggert durch einen Cron-Eintrag ausgeführt. Das relevante Skript auf unserer Seite ist fetch_marc_updates.py
dessen Konfigdatei /usr/local/var/lib/tuelib/cronjobs/fetch_marc_updates.conf
heißt.
Als Beispiel habe ich IxTheo ausgewählt:
Namensmuster | Server-Verzeichnis | Häufigkeit | Bedeutung bzw. Inhalt |
---|---|---|---|
SA-MARC-ixtheo-JJMMTT.tar.gz | /ixtheo | unregelmäßig, bzw. selten | Komplettabzug mit Lokaldaten |
SA-MARC-ixtheo_o-JJMMTT.tar.gz | /ixtheo | unregelmäßig, bzw. selten | Komplettabzug ohne Lokaldaten |
TA-MARC-ixtheo-JJMMTT.tar.gz | /ixtheo | täglich | Differenzabzug mit Lokaldaten |
TA-MARC-ixtheo-JJMMTT_o.tar.gz | /ixtheo | täglich | Differenzabzug ohne Lokaldaten |
SA-MARC-ixtheo_hinweis-JJMMTT.tar.gz | /ixtheo | wöchentlich | Umschreibungen von Komposita-Schlagwörtern |
WA-MARCcomb-sekkor.tar.gz | /sekkor | wöchentlich | Sekundärkorrekturen (geänderte Normdaten ohne Änderung im Titel) |
LOEKXP-JJMMTT | /sekkor | wöchentlich | Löschlisten |
LOEKXP_m-JJMMTT | /ixtheo | wöchentlich | Liste der Datensätze die mit mtex getaggt sind |
Errors_ixtheo_JJMMTT | /ixtheo | täglich | Liste der PPNs die zwar den Abzugskriterien entsprachen aber aus irgend einem Grund nicht exportiert werden konnten |
(Der Grund, warum es sowohl SA- als auch TA-Abzüge mit und ohne Lokaldaten gibt, ist, dass das BSZ nicht gleichzeitig alle Datensätze, die unseren Auswahlkriteriem entsprechen, also sowohl solche, die zugeordnete Lokaldaten als auch solche, die im BSZ keine zugeordneten Lokaldaten haben, in einem Abzug erstellen kann.)
Bei KrimDok fließt BSZ-seitig aktuell nur eine Untermenge der Lokaldaten (insbesondere die Tübinger) ein. Bei IxTheo werden aktuell alle Lokalsätze ausgeleitet und auf Tübinger Seite nach dem Download gefiltert (hier wird noch geprüft, ob in Zukunft nur noch Tübinger Lokaldaten vom BSZ ausgeleitet werden).
Namensmuster | BSZ-Terminologie | Tübinger Terminologie |
---|---|---|
SA... | Sonderabzug | Komplettabzug |
TA... | Täglicher Abzug | Differenzabzug |
WA... | Wöchentlicher Abzug | Differenzabzug |
_o | ohne Lokaldaten | ohne Lokaldaten |
_comb | UTF-8 ohne kombinierende Zeichen |
- Komplett- und Teilabzüge: Innerhalb der gezippten Tar-Archive finden sich jeweils drei Dateien mit dem Namenschema
.*[abc]001.raw
Dateien, die Marc21-Daten enthalten. Hierbei bezeichneta
die Titeldaten, undb
undc
Ausprägungen von Normdaten. - Der Aufbau der Löschlisten ist hier dokumentiert.
- Die Normdatendifferenzabzüge enthalten Titel-, Norm- und Lokaldaten im Format
sekkor-.*.mrc
.