Skripte, um Web-Inhalte in pywb zu importieren.
Autor: I. Kuss
Erstanlagedatum : 29.Januar 2020
Änderung / Grund : 13.10.2023 / Erstindexierung auf tardis-01
Änderung / Grund : 15.01.2024 / Ersteinrichtung nwweb-test
$ ssh wayback@tardis-01
$ cd /opt/pywb
$ git clone https://github.com/hbz/pywb.bin.git bin
Neuaufbau der pywb-Sammlung "Lesesaal"
ssh wayback@wayback
Löschen der Sammlung "Lesesaal"
cd /opt/pywb
. Python3/bin/activate
cd bin
./ks.remove_collection.sh wayback
Neuanlage der Sammlung "Lesesaal"
cd /opt/pywb
wb-manager init wayback
Aufteilung auf multiple Indizes in der Sammlung "lesesaal"
mkdir /opt/pywb/logs
1.+2. zusammenfassen und häppchenweise ausführen ! (z.Zt. 7 * 10 GB groß!):
Index: index.cdxj enthält: wpull-data, heritrix-data, cdn-data
Neuerzeugung des Index:
cd /opt/pywb/bin
nohup ./ks.reindex_haeppchenweise.sh >> /opt/pywb/logs/ks.auto_add_cron.log &
# läuft seit Freitag, 13.Oktober, 18:35 Uhr.
# Muss sieben Indexe index01.cdjx, ..., index07.cdjx erzeugen und einen aktuellen Index index.cdxj.
# fertig Dienstag, 17. Oktober, 23:05 Uhr.
3. Index: index_wget.cdxj enthält: wget-data
Neuerzeugung des Index:
./ks.index_wget-data.sh wayback >> /opt/pywb/logs/ks.index_wget-data.log
Neuaufbau der pywb-Sammlung "Weltweit"
ssh wayback@tardis-01
Löschen der Sammlung "Weltweit"
cd /opt/pywb/bin/
./ks.remove_collection.sh public
Neuanlage der Sammlung "Weltweit"
cd /opt/pywb
wb-manager init public
Ein Index: index.cdxj enthält: public-data, cdn-data
ACHTUNG !! Die Verzeichnisse
/opt/toscience/wpull-data, /opt/toscience/heritrix-data und /opt/toscience/wget-data
müssen auf dem wayback-Server eingerichtet sein, jeweils als symbolische Verknüpfungen zu
/data/wpull-data, /data/heritrix-data bzw. /data/wget-data ,
weil die Links in /data/public-data darauf verweisen !
Neuerzeugung des Index:
cd /opt/pywb/bin
./ks.index_public-data.sh public >> /opt/pywb/logs/ks.index_public-data.log
# läuft seit Mittwoch, 18.Oktober, 18:13 Uhr.
# fertig Sonntag, 22. Oktober, 04:10 Uhr.
ii.) Automatischer Update des Index und der Sammlung der Archivdateien für neu hinzugekommene oder aktualisierte Crawl-Vorgänge
Achtung: Funktioniert nicht für gelöschte Crawl-Archive !
ks.auto_add.sh >> /opt/pywb/logs/ks.auto_add_cron.log
Das als cronjob einstellen:
0 * * * * /opt/pywb/bin/ks.auto_add.sh >> /opt/pywb/logs/ks.auto_add_cron.log
Dieser Schritt braucht nicht mehr gemacht zu werden, da es seit Mai 2020 in ks.auto_add.sh integriert ist !!!
Die Indexe der pywb sollen nicht größer als 10GB werden. Dieses Skipt wird von monit aufgerufen
und schickt eine Mail, sobald der Indexe die kritische Größe erreicht.
Das Skript erwartet die Angabe der maximalen Größe in MB.
Aufruf:
$ check_pywb_indexsize.sh <maximale Größe>
Aufruf in monit Konfiguration mit absoluten Pfaden
$ /opt/pywb/bin/check_pywb_indexsize.sh /opt/pywb/collections/weltweit/indexes/index.cdxj 10000