Die Bibliothek der Milliarden Wörter
ESF-Nachwuchsforschergruppen-Projekt in Kooperation mit der Abteilung Automatische Sprachverarbeitung (ASV) und der Abteilung Bild- und Signalverarbeitung des Instituts für Informatik (BSV)
Genauso wie Bücher die Grundlage für traditionelle geisteswissenschaftliche Arbeit sind, werden im Forschungsgebiet der Digitalen Geisteswissenschaften (Digital Humanities) Text-Datenbanken benötigt. Gedruckte Texte sind leicht zugänglich, nicht zuletzt durch Bibliotheken wird der Zugang gewährleistet. Das Angebot an digitalen Textformaten hingegen ist stark heterogen und erschwert so die Nutzung. Die Nachwuchsforscher im Projekt "Die Bibliothek der Milliarden Wörter" entwickeln einen Prozeß mit dem sowohl neue als auch alte Werke als Volltext nachhaltig verfügbar gemacht werden sollen. Hierbei steht die Nutzung von bereits existierenden Open-Source-Softwarelösungen, sowie etablierte Daten-Standards im Vordergrund. Die Bibliothek soll als Lieferant für qualitativ hochwertige Texte, und weiter ihrer atomaren Bestandteile, Wörtern, gedacht und entworfen werden - die Bibliothek der Milliarden Wörter.
Konkret werden gedruckt vorliegende Texte aus Digitalisaten mittels OCR-Verfahren in das Datenformat hOCR überführt und anschließend in XML-TEI Volltexte transformiert. Die strukturierten Volltexte werden über CTS (Canonical Text Service) zur Verfügung gestellt. Um Nutzern einen strukturierten Zugang zu den digitalisierten Texten zu gewährleisten, werden bibliographische Beziehungen zwischen den digitalisierten Werken semi-automatisch ermittelt und mittels eines darauf optimierten Kataloges zur Verfügung gestellt. Zur Verdeutlichung von Beziehungen zwischen den Werken und den auf ihnen ausgeführten Operationen werden bildgebende Verfahren entwickelt, die den Nutzer bei der Arbeit mit den digitalen Volltexten unterstützen sollen.
Digital vorliegende Texte sollen mittels eines Redaktionstools effektiver verwaltet und für die Nachnutzung im Kontext Digitaler Geisteswissenschaften aufbereitet werden. Ziel ist es, den ForscherInnen an der Universität Leipzig mit dem Redaktionstool sinnvolle Unterstützung im akademischen Publikationsalltag zu bieten und ihre Publikationen bestmöglich nachnutzbar zu halten.