Anmelden (DTAQ) DWDS     dlexDB     CLARIN-D

Projektüberblick

1  Eckdaten

Förderung: Deutsche Forschungsgemeinschaft (DFG)
KL 337/12-1 (Phase 1) und KL 337/12-2 (Phase 2)
Sitz: Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)
Projektlaufzeit: 2007–2016
Projektphase 1: 2007–2010
Projektphase 2: 2010–2013
Projektphase 3: 2014–2016
Mitarbeiter: Das DTA-Team

2  Umfang

Werke Tokens¹ Wortformen¹ Zeichen
DTA-Kernkorpus 1 468 150 Mio. 129 Mio. 904 Mio.
DTA-Erweiterungen² 5 014 220 Mio. 189 Mio. 1,3 Mrd.
gesamt 6 482 370 Mio. 318 Mio. 2,2 Mrd.

¹ Als Tokens werden alle Zeichenketten in einem Text bezeichnet, also Wortformen, Satzzeichen und andere textuelle Gliederungszeichen sowie Nichtwörter. Als Wortformen werden Zeichenketten bezeichnet, die als Wörter interpretierbar sind (z. B. „fangen“, „hast“). Als Nichtwörter werden Zeichenketten bezeichnet, die nicht als Wörter interpretierbar sind (z. B. „2aabc5“). Punkt, Komma, Gedankenstrich usw. sind Satzzeichen.

² Einige Texte aus den DTA-Erweiterungen befinden sich noch in der DTA-Qualitätssicherungsumgebung (DTAQ) und sind daher noch nicht über die DTA-Webseite recherchierbar; alle Funktionen zur Recherche und Nutzung stehen aber innerhalb von DTAQ bereits zur Verfügung.

3  DTA-Kernkorpus

Die vorausgewählten und durch das DTA selbst digitalisierten Werke (ca. 1 500) bilden das DTA-Kernkorpus. Dieses enthält Texte unterschiedlicher Disziplinen und Textsorten, welche mit dem Ziel zusammengestellt wurden, das gesamte Spektrum der deutschen Sprache zu erfassen und somit ein ausgewogenes historisches Referenzkorpus in deutscher Sprache zu schaffen.

Es gibt andere umfangreiche Textsammlungen im Internet wie etwa Google Books, Wikisource oder das Projekt Gutenberg-DE. Das DTA unterscheidet sich von diesen Textsammlungen durch die sorgfältige Auswahl der Texte und Ausgaben, die sehr hohe Erfassungsgenauigkeit, die strukturelle und linguistische Erschließung der Textdaten sowie die Verlässlichkeit der Metadaten.

Weitere Informationen:

4  Prinzip der Erstausgabe

Um den historischen Sprachstand chronologisch korrekt zu dokumentieren, werden zur Digitalisierung möglichst die in deutscher Sprache erschienenen Erstausgaben des jeweiligen Werks herangezogen, d. h. die erste gedruckte, selbstständige Publikation des jeweiligen Werks.

Weitere Informationen:

5  Text und Bild

Neben den DTA-Volltexten werden auch die zugehörigen Bildvorlagen zugänglich gemacht. Die Bilddigitalisierung der Werke erfolgt in enger Kooperation mit verschiedenen Bibliotheken. Dabei wird Wert auf eine hohe Bildqualität gelegt, um so eine hohe Qualität der Texterfassung zu gewährleisten.

Weitere Informationen:

6  Hohe Erfassungsqualität

Die Volltexterfassung erfolgt auf Grundlage der erstellten Bilddateien mit größtmöglicher Präzision (zeichengenau). Hierzu werden die Texte in einem standardisierten Prozess größtenteils manuell (im Double Keying-Verfahren) erfasst. Dies ist aufgrund der Textvorlagen, die überwiegend in Frakturschrift vorliegen, bedeutend zuverlässiger als eine Texterfassung durch OCR.

Um die Qualität der Volltexte noch zu erhöhen, wendet das DTA verschiedene Verfahren zur Qualitätssicherung an. Die Qualitätskontrolle findet dabei sowohl formativ (im Vorhinein der Texterfassung) als auch summativ (im Nachhinein) statt. Dabei beinhaltet die formative Qualitätssicherung etwa die Auswahl geeigneter Digitalisierungsvorlagen, die Vorstrukturierung der Bildvorlagen (Zoning) sowie die Formulierung und Pflege ausführlicher Richtlinien für die Texterfassung und Annotation. Im Zentrum der summativen Qualitätssicherung steht die webbasierte, kollaborative Qualitätssicherungsumgebung DTAQ, welche die Nachkontrolle sämtlicher Texte und die Fehlerkorrektur unterstützt.

Weitere Informationen:

7  Standardisierung der Annotation

Die Grundlage für die strukturelle Annotation der DTA-Volltexte bildet das DTA-Basisformat (DTABf), eine echte Teilmenge des TEI/P5-Tagsets, welche auf die Strukturierungsbedürfnisse des DTA abgestimmt ist. Ziel ist es dabei, mit dem DTABf-Tagset sämtliche strukturellen Phänomene bis hin zu einer einheitlichen Erschließungstiefe abzudecken (ein Tagging für jedes Phänomen) und dabei Ambiguitäten bei der Textstrukturierung zu vermeiden (ein identisches Tagging für gleichartige Phänomene).

Weitere Informationen:

8  Schreibweisentolerante Suche

Die Texte sind auf der Webseite des Projekts schreibweisentolerant durchsuchbar. So können zum einen graphematische Varianten für ein Wort („Kleid“: „Kleidt“, „Kleydt“, „Cleyd“, „Cleit“ etc.) mit einer einzigen Abfrage aufgefunden werden, zum anderen wird die gleichzeitige Suche aller Wortformen eines Lemmas ermöglicht.

Weitere Informationen:

9  Freie (Nach-)Nutzbarkeit

Die DTA-Volltexte stehen jeder Nutzerin und jedem Nutzer über das Internet und zum freien Download unter der Creative Commons-Lizenz CC BY-NC 3.0 zur Verfügung. Dadurch sind die Texte sowohl für linguistische Fragestellungen als auch für Fragestellungen anderer Disziplinen (z.B. der Philologie, der Geschichtswissenschaften) vielfältig nachnutzbar.

Weitere Informationen:

Stand dieser Seite: Thu Jan 9 11:57:07 2020