Skip to content

Latest commit

 

History

History
59 lines (38 loc) · 1.47 KB

README.md

File metadata and controls

59 lines (38 loc) · 1.47 KB

dla-opac-transform

Scripte und Konfigurationsdateien für den ETL-Workflow des Online-Katalogs des Deutschen Literaturarchivs Marbach https://www.dla-marbach.de/katalog

Formatdokumentation

siehe Dokumentation Internformat

Voraussetzungen

Installation

OpenRefine, orcli und Apache Solr:

task install

Nutzung

Das Arbeitsverzeichnis wird über die Variable DIR gesetzt. Die Quelldateien im TSV-Format müssen in einem Unterverzeichnis input bereitgestellt werden.

Weitere Variablen:

  • MEMORY: Wieviel Arbeitsspeicher OpenRefine verwenden darf. Default: 2G
  • PORT: Der von OpenRefine zu verwendende Port. Default: 3333

Beispiel für Arbeitsverzeichnis data mit Quelldateien in data/input, 4 GB Java heap space für OpenRefine und Port 3334:

task DIR=data MEMORY=4G PORT=3334

Das Verzeichnis data ist bereits in .gitignore gelistet.

Entwicklung

orcli im interaktiven Modus starten (vgl. http://localhost:3333):

task dev

Indexierung in Solr testen (vgl. http://localhost:8983):

task solr

Änderungen im Ausgabeformat JSON-Lines prüfen:

git diff -U0 --word-diff-regex='[^,]+' --word-diff=porcelain example/output/*.jsonl