Lade Inhalt...

Erfassung und Konvertierung nach XML/TEI am Beispiel des Deutsches Textarchivs

Hausarbeit 2016 20 Seiten

Bibliothekswissenschaften, Information Science

Leseprobe

Inhaltsverzeichnis

1. Einleitung

2. Wie geht die Digitalisierung von statten?

3. DAS Deutsche Textarchiv
3.1 Scannen
3.2 Vorstrukturierung
3.3 Nachbearbeitung

4. Beispiel einer Konvertierung nach XML P5
4.1 Überprüfung der Seitenzahlen
4.2 Strukturierung der Titelblätter
4.3 Interaktive Vorkorrektur
4.4 Fehlerbehebung
4.4.1 Überprüfen der Sonderzeichen/Transkriptionsfehler
4.4.2 Runde s in Antiqua
4.4.3 Falsche Schachtelung der d-Ebenen (Hierarchien)

5. Validierung

6. Qualitätskontrolle

7. DTAQ - Qualitätssicherung

8. Schluss

9. Literaturverzeichnis

1. EINLEITUNG

Die Bestandserhaltung von kulturellem Erbe (durch Schonung von kostbaren und fragilen Originalen), der Wunsch nach Forschung an direkten Quellen, durch leicht und in kürzester Zeit recherchier- und nutzbarer Angebote weltweit, ist in den letzten Jahren immer größer geworden. Durch Brände (Anna Amalia Bibliothek in Weimar), Einsturz von Gebäuden (Stadtarchiv in Köln), aber auch schlecht belüftete Magazine und Archive, Wassereinbrüche und viele andere Ursachen, wird immer wieder deutlich, wie wichtig die Sicherung von kulturellem Gut ist. Andererseits lässt die Digitalisierung sämtlicher Bestände aus Bibliotheken, Archiven und Museen eine neue Infrastruktur entstehen, die das Internet zu einem Forschungsraum für eine zunehmende digital ausgerichtete Forschung macht. Das Ziel der Digitalisierung ist also nicht nur das Bereitstellen, sondern das Vernetzen von unterschiedlichen Ressourcen im Netz, um eine virtuelle Forschungsinfrastruktur entsteht zu lassen (DFG-Praxisregeln 2013, S.5). Digitalisierung kann demnach als Bestandssicherung, Bestandsschonung und neu entstehender Forschungsraum verstanden werden, allerdings weniger als Bestandserhaltung.1 Die Anreicherung mit Struktur- und Metadaten in Katalogen sowie externe Verlinkungen sorgen für einen enormen Gewinn. Wird nicht der gesamte Volltext digital angeboten, kann eine Metadatenanreicherung, zum Beispiel über die Struktur eines Buches (Überschriftenauszeichnung), zur Orientierung des Nutzers beitragen. Durch die Einbindung der Metadaten in den Katalog, kann bei der Suchanfrage auf das Original und das Digitalisat verwiesen werden, ist das gesuchte Werk online verfügbar, erleichtert es den Nutzer die Benutzung und es sorgt für weniger Arbeit in der Bibliothek (zwecks Ausleihe und Rücktransport). Laut Ikas, bietet die Retrodigitalisierung in Informationseinrichtungen sowohl betriebsinterne Vorteile, sowie Vorzüge im Sinne einer Marketingstrategie (Ikas, S.12 f.). Werden die Digitalisate durch Suchmaschinen auffindbar, wird ein größeres Publikum angesprochen, dies sorgt dafür, dass digitalisiertes Material und die bereitstellenden Institutionen positiv hervorgehoben werden. So entsteht durch das Internet die Chance, dass nicht nur Fachpublikum sondern auch andere Interessengruppen angesprochen werden können.2

Die Digitalisierung als Sinnbild eines Wandels, der „neue Formen der Organisation und Verteilung von Wissensressourcen“ und damit „eine tief greifende Umgestaltung des öffentlichen Wissensmanagements“ bewirkt (Fraunhofer IAIS, S. 120).

„ Digitalisierung [ist] vielmehr als nur eine Dokumentationstechnik: Sie ist eine Kulturtechnologie und steht als solche f ü r die Ver ä nderung unserer sozialen Kommunikationsformen. Letztlich ist sie ein Symbol für die Technisierung und Mediatisierung von Gesellschaft und eine Manifestation zuk ü nftiger Kommunikation.“(Fraunhofer IAIS, S. 120.)

2. WIE GEHT DIE DIGITALISIERUNG VON STATTEN?

Digitalisierung passiert in verschiedenen Schritten. Nachdem der Korpus3 über ein bestimmtes Auswahlsystem festgelegt wurde, ist vor allem die bewilligte Zeit und das genehmigte Budget für die Tiefe der Erschließung entscheidend. Aus diesem Grund wird bei vielen Projekten lediglich die Image-Digitalisierung vorgenommen, eine tiefere Erschließung findet jedoch nicht statt. Bei der Image-Digitalisierung werden Zeitschriften, Zeitungen, Fotos, Buchseiten, Karten und so weiter mit einem Scanner oder einer Digitalkamera abgelichtet und meistens auf projekteigenen Internetseiten zur Verfügung gestellt.4 Neben der Präsentation des digitalen Images sollten, zwecks Auffindbarkeit, Metadaten5 erzeugt beziehungsweise erweitert werden, um ein Auffinden und Navigieren über Sprungmarken6 möglich zu machen. Die Image-Digitalisierung ermöglicht eine Massendigitalisierung von Beständen und erspart dem Nutzer den Gang in die Bibliothek oder in das Archiv, trotzdem wird diese Art der Digitalisierung als unzureichend angesehen, da es keine Möglichkeit gibt den gesamten Text zu durchsuchen. Die Volltextdigitalisierung wird demnach zunehmend attraktiver. Volltexterschließung weist ebenfalls verschiedene Spielräume bei der Erschließung auf. Die Strukturierung, vor allem die Tiefe der Strukturierung, hängt meistens von der Weiternutzung der Daten ab. Inhaltliche (zum Beispiel Textgattung) sowie formale Merkmale (physische Auszeichnungen, Fett-, Farb- oder Kursivdruck) werden über verschiedene plattform- und programmunabhängige XML-Standards mit Metadaten versehen. Bei der Retrodigitalisierung hat sich unterdessen die TEI (Text Encoding Initiative) durchgesetzt.7

Philologen gründeten eine internationale und interdisziplinäre Initiative zur Schaffung eines dauerhaften Standards, der nicht abhängig von Betriebssystemen oder Programmen die Sicherung von elektronischen Texten ermöglicht.8 Bis heute wird mit der TEI Version P5, die im November 2007 auf den Markt kam, gearbeitet. Diese Version wird wohl nicht die letzte sein, seit der Veröffentlichung gibt es fortlaufende Weiterentwicklungen und ermöglicht somit eine stetige Verbesserung der Version.9 10

3. DAS DEUTSCHE TEXTARCHIV

Das Digitalisierungsprojekt „ Deutsches Textarchiv “ ( im weiteren Verlauf der Arbeit, als DTA abgekürzt ), ansässig an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW), gefördert durch die Deutsche Forschungsgemeinschaft (DFG)11, hat es sich zur Aufgabe gemacht, einen disziplinen- und gattungsübergreifenden Grundbestand deutschsprachiger Texte aus dem Zeitraum von ca. 1600 bis 1900 nach den Erstausgaben zu digitalisieren (Parschik, S. 1435).

„ Die Textauswahl erfolgte auf der Grundlage einer von Akademiemitgliedern erstellten und ausf ü hrlich kommentierten, umfangreichen Bibliographie “.12

Zusätzlich wurden einschlägige Literaturgeschichten und Fachbibliographien ausgewertet. Aus der Gesamtliste wurde von der DTA-Projektgruppe ein Korpus zusammengestellt. Um den historischen Sprachstand so genau wie möglich abzubilden, wurden in der Regel die jeweiligen Erstausgaben der Werke verwendet. Das elektronische Volltextkorpus ist über das Internet frei zugänglich. Durch die Aufbereitung, mithilfe von computerlinguistischen Methoden, ist der gesamte Bestand (schreibweisentolerant) durchsuchbar. Diverse Texte stehen zum Download zur Verfügung.13 In den folgenden Kapiteln werden die verschiedenen Arbeitsschritte der Digitalisierung genauer dargestellt.

3.1 SCANNEN

Die Arbeiten im DTA werden und wurden durch verschiedene Kooperationspartner unterstützt, unter anderem durch die BBAW, DFG14 und von unterschiedlichen Bibliotheken, die die Textvorlagen für das DTA gescannt und bereit gestellt haben. Dazu gehörten zum Beispiel, die Staatsbibliothek zu Berlin, die Sächsische Landesbibliothek Dresden, die Herzog August Bibliothek Wolfenbüttel.15 Die Bilddigitalisierung wurde zum größten Teil von besagten Bibliotheken übernommen, einzelne Werke wurden aber auch im DTA, durch einen selbst gebauten Scanner, direkt digitalisiert (Wissen aus der studentischen Tätigkeit im Projekt). Die Texte wurden, je nach Buchvorlage, von bestimmten Scannern, die möglichst konservatorisch arbeiten, gescannt. Gerade bei sehr alten Drucken, kann es von Vorteil sein, die Scans per Hand durchzuführen, um das Material vor Schäden zu bewahren. Bei der Massendigitalisierung funktioniert das Scannen per Hand aus Kosten- und Zeitgründen in den meisten Fällen jedoch nicht, Scanroboter sollen die Arbeit dann übernehmen. Die Qualität bei der Massendigitalisierung fällt relativ unterschiedlich aus. Manche Texte sind sehr gut anschaulich und nutzbar, andere wiederum sind von einem qualitativ minderen Wert.

„ Die Materialit ä t der Drucke wird in ihrer Brisanz f ü r den Scanprozess besonders deutlich, wenn es um die Bearbeitung von Massen geht “ (Brantl,S. 6). Markus Brantl stellte dies in seinem Erfahrungsbericht zum VD 1616 Projekt, an der Bayerischen Staatsbibliothek, fest. Neben den normalen Buchscannern wurde auch ein Scanroboter eingesetzt und getestet. Das Scannen ging wesentlich schneller von statten, jedoch konnten viele der alten Bücher, aufgrund ihrer Materialbeschaffenheit und der Porosität des Materials, trotz Zeitersparnis, nicht via Scanroboter bearbeitet werden. Diese Problematik tritt natürlich nicht nur bei den VD 16 Drucken, sondern bei einer Vielzahl alter Bücher auf (Erkenntnis wurde persönlich in anderen Digitalisierungsprojekten, unter anderem am Grimm-Zentrum, ebenfalls gewonnen). Müssen Scans per Hand angefertigt werden, dann gibt es auch hier verschiedene Möglichkeiten. Lässt es das Material zu, dann kann am Buchscanner ein beidseitiger Scan vorgenommen werden, ist dies nicht der Fall, dann müssen die Seiten einzeln gescannt und später sortiert (Recto- und Versoseiten)17, bearbeitet und zusammengefügt werden. Das Scannen per Hand und im speziellen das Scannen einzelner Seiten, ist ein recht fehleranfälliger Vorgang. In den meisten Fällen werden fehlerhafte Scans erst in der Qualitätskontrolle festgestellt. Dies führt dazu, dass ein Nachscannen und Einfügen in den eigentlichen Scan notwendig wird. Oft ist die Nachbearbeitung so aufwendig und mühselig, dass ein neuer Komplettscan weniger zeitaufwendig ist (Brantl, S.333 sowie eigene Erfahrung). Laut Brandl ist es realistisch, dass an einem Arbeitstag ca. 350 Images (inklusive einseitig- und zweiseitiges Scannen, Vor- und Nachbearbeitungsszeit, Personalausfall, Einlernphasen) geschafft werden (Brantl, S. 333). Die Schnelligkeit des Scanners, die Geschwindigkeit der Mitarbeiter beim Scannen sowie die Verarbeitungszeit der Rechner spielen ebenfalls eine enorm große Rolle, bei der am Ende erreichten Imagezahl an einem Arbeitstag (eigene Erfahrung). Bei den Anforderungen der Qualität der Scans, wird häufig auf die Qualitätsstandards der DFG zurückgegriffen. Bei DFG geförderten Projekten ist dies eine Voraussetzung, aber auch nicht geförderte Projekte nutzen die Vorgaben, um einen weitestgehend gleichen Standard zu erreichen. Unter anderem sind von der DFG die Parameter, Farbtiefen, Zeichenkodierung, Dateiformate und Scaneinstellungen vorgegeben. Bei Graustufen oder Farbaufnahmen sollte eine Mindestauflösung von 300 dpi (bezogen auf das Format des Originals) gewählt werden. Die meisten Scans (alte Drucke) werden jedoch mit einer 400 dpi Auflösung gescannt. Diese Angaben beziehen sich auf Vorlagen, die mit dem bloßen Auge erkannt werden können, zum Beispiel Kleinbildnegative müssten mit einer Auflösung von mindestens 3000 dpi digitalisiert werden (DFG Praxisregeln, S. 8 f.).

„ Die Farbtiefe bestimmt die Differenzierung der Helligkeits- und Farbwerte in einem Digitalisat. Da in der digitalen Technik nur diskrete Zust ä nde (ja/nein) m ö glich sind, k ö nnen Helligkeits- und Farbunterschiede - im Gegensatz zur analogen Fotografie - nicht kontinuierlich, d.h. mit flie ß enden Ü berg ä ngen dargestellt werden. F ü r die Sicherung des finalen digitalen Master ist eine Farbtiefe von 8 Bit pro Kanal, d.h. 24 Bit ausreichend, da die heute g ä ngigen Ausgabe- und Anzeigeger ä te nur eine Tonwertwiedergabe mit 8-Bit- Differenzierung unterst ü tzen. “ (Praxisregeln, S.11).

Die durch das Digitalisieren entstandenen Bilder sollen in Tiff uncompressed18 gesichert werden. Dieses Format gibt es seit den 1980er Jahren und hat sich unterdessen als Standard etabliert. Neben Tiff kann auch JPEG200019 als Format verwendet werden, dieses ist jedoch mit mehr Risiken verbunden. (DFG Praxisregeln, S.15 f.). Bei der Zeichencodierung wird auf den Unicode20 gesetzt, da alle verbreiteten Betriebssysteme diesen unterstützen. Ebenfalls ist der Unicode das Zeichenkodierungsformat von XML, welches die Grundlage für verschiedene Strukturdatenauszeichnungssysteme darstellt.

[...]


1 „Digitalisierung ist keine Bestandserhaltung?“ Titel eines Vortrages von Annette Gerlach. Sie spricht sich dagegen aus, dass Digitalisierung der einzig sinnvolle und finanzierbare Weg ist, um Bestand zu erhalten, sie plädiert für einen anderen Weg der Originalerhaltung.

2 Studie zur Sichtbarkeit: „Zugang schaffen bedeutet im Web ein Angebot als solches erkennbar und auffindbar zu machen und gezielt mit anderen Angeboten zu vernetzen“ (Fraunhofer IAIS, S.140)

3 Korpus - als Kurzform für Textkorpus (Sprachwissenschaft), das aus zahlreichen (meist elektronisch aufbereiteten) Texten besteht und als Basisfür sprachwissenschaftliche Auswertungen genutzt wird. http://universal_lexikon.deacademic.com/127723/Textkorpus

4 zum Beispiel Staatsbibliothek München http://www.digitale-sammlungen.de/

5 Daten über das Digitalisat: Struktur, Fundort, Beschaffenheit

6 https://www.w3.org/TR/html4/struct/links.html#anchors

7 www.editura.de/technik/volltextdigitalisierung

8 http://computerphilologie.uni-muenchen.de/praxis/teiprax.html

9 http://www.tei-c.org/index.xml

10 http://www.deutschestextarchiv.de/

11 http://www.deutschestextarchiv.de/doku/kooperationen

12 http://www.deutschestextarchiv.de/

13 http://www.deutschestextarchiv.de/

14 Deutsche Forschungsgemeinschaft

15 http://www.deutschestextarchiv.de/doku/kooperationen (Liste der beteiligten Bibliotheken und Institutionen)

16 https://www.bsb-muenchen.de/index.php?id=1681&type=0

17 Vorder- und Rückseite oder rechte und linke Seite eines Buches 4

18 http://www.digitalpreservation.gov/formats/fdd/fdd000022.shtml

19 https://jpeg.org/jpeg2000/

20 http://www.unicode.org/charts/ (bei europäischen Sprachen UTF-8)

Details

Seiten
20
Jahr
2016
ISBN (eBook)
9783668565777
ISBN (Buch)
9783668565784
Dateigröße
724 KB
Sprache
Deutsch
Katalognummer
v377692
Institution / Hochschule
Humboldt-Universität zu Berlin – Bibliotheks- und Informationswissenschaft
Note
1,0
Schlagworte
XML TEI Konvertierung Volltextdigitalisierung Digitalisierung Konvertierung von Texten

Autor

Teilen

Zurück

Titel: Erfassung und Konvertierung nach XML/TEI am Beispiel des Deutsches Textarchivs