-
Notifications
You must be signed in to change notification settings - Fork 19
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Vorschlag für Handhabung von mehrfach-transformierten Metadaten #17
base: master
Are you sure you want to change the base?
Vorschlag für Handhabung von mehrfach-transformierten Metadaten #17
Conversation
@lvg42 Vielen Dank für den Vorschlag, das sieht vielversprechend aus. Wer hätte denn die Autorität darüber ob ein geharvester Datensatz auf |
Wir in Ö haben das dadurch gelöst, dass die eindeutige ID des originären Systems immer mitübernommen werden muss. Indem die Daten digital sind, unterscheiden wir damit effektiv nicht zwischen Kopie und original. Dubletten gibt es damit nicht. Ich hoffe ich habe die Diskussion so richtig verstanden .... |
@the42 Dieses Feld existiert bereits in unserem Schema: Bei GovData.de steht dann aus, soll nun der Datensatz von Portal A oder Portal B bevorzugt werden? |
Klar, dass ist ein Problem. Eventuell per timestamp überprüfen, welcher der beiden der "jüngere" ist, oder eine Präferenz kodieren. |
In diesem Fall existieren zwei unterschiedliche Transformationen (Umformung der Metadaten zwischen unterschiedlichen Metadatenmodellen): Transformation A
Transformation B
Beide Transformationen liefern unterschiedliche Ergebnisse und somit keine "Kopien". Regeln:
Viele Grüße |
@lvg42 Danke für die Klärung Herr Weichand. Mir ist erst durch ihre Erklärung klar geworden, dass es sich nicht um Kopien handelt durch die unterschiedliche Abbildung des Metadatenformats CSW nach CKAN. Das Hinzufügen eines solchen Feldes wird in der nächsten Datenbereitstellerkonferenz besprochen. |
A new field is added to prevent possible duplicates which can result from harvesting other endpoints but CKAN. For instance, a CSV harvester has to perform a metadata mapping. If different portals do that it becomes unclear who 'owns' the dataset and which portal should be prioritized when harvesting these duplicates. See #17. Signed-off-by: Konrad Reiche <[email protected]>
Dubletten von transformierten Metadaten werden über die 'metadata_original_id' identifiziert. In diesem Fall werden durch den Autor ('author') bereitgestellte Metadaten bevorzugt.
Siehe Screenshot.![govdata_harvesting](https://camo.githubusercontent.com/62e1e2196a5faf32f1fa5fd6da941f22319cd2318dd59e4e32a89d14009a060e/68747470733a2f2f662e636c6f75642e6769746875622e636f6d2f6173736574732f353934303231332f313534323739362f63376437653133382d346434622d313165332d393561372d6437616537356163306466342e706e67)
Viele Grüße
Jürgen Weichand