Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

normalisierte HTML-Fassungen #31

Open
cthomasdta opened this issue Aug 12, 2017 · 0 comments
Open

normalisierte HTML-Fassungen #31

cthomasdta opened this issue Aug 12, 2017 · 0 comments

Comments

@cthomasdta
Copy link
Collaborator

*.norm.xml ist für Kollation usw. absolut klasse. Unbedingt beibehalten.

ABER: das Voyant-(Norm-)XML ist für andere Dinge besser.
Hintergrund: Es gibt leider ein Problem mit dem aus den *.norm.xml (via https://raw.githubusercontent.com/haoess/dta-tools/master/stylesheets/dtabf.xsl) erzeugten HTML: Dieses enthält beispielsweise noch Text in <del>; dieser wird zwar entsprechend als gestrichen formatiert/dargestellt, von Tools wie Copyfind aber als normaler Text behandelt.
Lösung: HTML erzeugen aus Voyant-(Norm-)XML (wofür ja all diese Dinge schon berücksichtigt und entfernt wurden). Vorgehen am Beispiel von http://www.deutschestextarchiv.de/book/download_normxml/parthey_msgermqu1711_1828:

Das wäre dann perfekt für CopyFind et al. Diskutieren wir dann gerne später weiter!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant