Deutsches Textarchiv: Neuigkeiten

Neue Rubrik »Videos zum DTA«

2021-05-22T09:13:32Z

Die Startseite des DTA wurde um die neue Rubrik »Videos zum DTA« ergänzt. Hier wurden und werden Videotutorials und andere Videos mit DTA-Bezug verlinkt. Dadurch wird das Angebot der Dokumentation um Filme ergänzt, die das Arbeiten mit dem DTA zeigen und Anregungen zur Nutzung geben sollen. Die ersten sechs Videos wurden von Dr. Manuel Wille (Universität Paderborn) über das Paderborner Textanalyseportal bereitgestellt.

DTA-Korpora jetzt noch freier nachnutzbar: „NonCommercial“-Einschränkung entfällt für etwa 2000 Dokumente

2020-07-17T13:25:45Z

Mit einer intensiven Überarbeitung der Metadaten hunderter Dokumente im Deutschen Textarchiv (DTA) im Juni und Juli 2020 ging unter anderem eine Änderung der Lizenzierung einher: Während bisher für das DTA-Kernkorpus und weitere Texte aus den DTA-Erweiterungen (DTAE) standardmäßig die Creative Commons-Lizenz CC BY-NC 3.0 genutzt wurde, stehen diese nun unter der noch freieren Creative Commons-Lizenz CC BY-SA 4.0 (siehe dazu auch die Nutzungsbedingungen des DTA).

Zwar war auch unter CC BY-NC die Nachnutzung der Daten unter Angabe der Quelle erlaubt, die Bedingung „-NC“ (für „NonCommercial“) schloss dabei jedoch eine kommerzielle Nutzung aus. Dadurch wurde zugleich eine Nutzung der Daten in Projekten der Wikimedia Foundation wie Wikipedia oder der freien Quellensammlung Wikisource, aber auch auf (teilweise) werbefinanzierten Blogs und anderen Plattformen verhindert.

Durch die nun vorgenommene Änderung dieser Lizenz zu CC BY-SA 4.0 ist diese Form der Nachnutzung im Wikiversum und der Blogosphäre nicht länger ausgeschlossen: Die DTA-Korpora werden noch freier und unkomplizierter für die Allgemeinheit nachnutzbar.

Die Änderung betrifft zunächst die etwa 1500 Texte des DTA-Kernkorpus sowie viele hundert Einzeltexte aus den DTA-Erweiterungen (DTAE). Dazu zählen auch größere Subkorpora wie beispielsweise die mehr als 300 Leichenpredigten aus der Mitte des 16. bis Mitte des 18. Jahrhunderts im „AEDit“-Korpus, oder auch die mit derzeit mehr als 70 Dokumenten stetig wachsende Sammlung „Texte der ersten Frauenbewegung“ (TdeF). Weitere DTAE-Texte werden in den kommenden Wochen folgen, sofern die Textgeber*innen ihr Einverständnis dazu geben.

Die Lizenzänderung erfolgte in Übereinstimmung mit dem „Leitbild Open Science“ (2019) sowie den 2020 in einer überarbeiteten Fassung veröffentlichten „Leitlinien zur Lizenzierung von wissenschaftlichen Produkten der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW)“. Ein Poster zu diesem Thema, “The German Text Archive / Deutsches Textarchiv (DTA): Open Access to more than 6400 Historical Texts” können Sie, ebenso wie viele weitere Publikationen rund um das Deutsche Textarchiv, hier als PDF herunterladen.

Manual "Encoding Correspondence" now online—and awaiting your feedback

2020-01-15T11:44:43Z

The handbook "Encoding Correspondence. A Manual for Encoding Letters and Postcards in TEI-XML and DTABf" is now online with a first set of articles: https://encoding-correspondence.bbaw.de.

More articles are coming soon. This handbook shall help editors of digital editions and projects to encode letters and postcards in TEI-XML and DTABf. Topics of discussion are, amongst others, problems with and , with postscripts, letterheads, and the expansion of the exchange format CMIF.

The handbook summarizes the discussions and solutions of the workshop "Challenges of Correspondence Encoding" that was held by the TEI Correspondence SIG and CLARIN-D at the Berlin Brandenburg Academy of Sciences in October 2018. The project was also presented at the TEI Conference 2019 in Graz (abstract, slides).

We want to invite the community to review and give feedback. You can use the annotation tool Hypothes.is that is integrated in the webpage and allows to comment text passages. After the public peer review phase that ends 30 April 2020, the articles will be revised and published in version 2 of the handbook. All articles of version 1 remain online and citable. The editors and authors of the handbook are looking forward to your feedback!

The handbook is published under the Creative Commons licence CC BY-SA 4.0 and can be downloaded from GitHub, including all TEI files. The bibliographic information of the articles and cited literature are available at the Zotero group "Encoding Correspondence".

Stefan Dumont, Susanne Haaf, Sabine Seifert

Deutsche Version dieses Newseintrags

Handbuch „Encoding Correspondence“: Open Peer Review eröffnet

2020-01-15T10:51:47Z

Das Handbuch „Encoding Correspondence. A Manual for Encoding Letters and Postcards in TEI-XML and DTABf” ist seit kurzem mit den ersten Artikeln unter https://encoding-correspondence.bbaw.de online. Weitere Artikel werden im Laufe der nächsten Wochen ergänzt. Das Handbuch soll Editor/-innen dabei helfen, im Rahmen von digitalen Editionen und Projekten die Texte von Briefen und Postkarten mitsamt ihren Metadaten in TEI-XML und DTABf zu kodieren. Diskutiert werden u.a. Aspekte und Probleme bei der Kodierung mit und , von Postskripta, Briefköpfen oder die Erweiterung des Austauschformats CMIF.

Die wissenschaftliche Community ist herzlich und nachdrücklich eingeladen, die einzelnen Artikel kritisch zu lesen und ihr Feedback zu geben. Dafür wurde das Annotationstool Hypothes.is eingebunden. Dies ermöglicht es, den Artikel direkt an den entsprechenden Textstellen zu kommentieren und die eigenen Kommentare auch für andere sichtbar zu machen. Nach dem Ende der Open Peer Review-Phase am 30. April 2020 werden die Kommentare diskutiert, die Artikel überarbeitet und in einer zweiten Version des Handbuchs veröffentlicht. Alle Artikel der ersten Version bleiben weiterhin online und sind voll zitierfähig. Die Herausgeber/-innen und Autor/-innen freuen sich auf Feedback!

Das Handbuch versammelt die Ergebnisse des Workshops „Herausforderungen der Briefkodierung“, der von CLARIN-D und der TEI Correspondence SIG im Herbst 2018 an der Berlin-Brandenburgischen Akademie der Wissenschaften ausgerichtet wurde. Auf der TEI-Konferenz 2019 in Graz wurde das Projekt bereits vorgestellt (Abstract, Folien).

Das Handbuch wird unter der Creative Commons-Lizenz CC BY-SA 4.0 veröffentlicht und steht inkl. der TEI-XML-Quelldateien zum Download auf GitHub bereit. Die bibliographischen Angaben der verwendeten Literatur und der Artikel selbst sind darüber hinaus auch in der Zotero-Gruppe “Encoding Correspondence” verfügbar.

Stefan Dumont, Susanne Haaf, Sabine Seifert

Das erste „DTA-Buch“ ist erschienen – Humboldt/Kohlrausch: Die Kosmos-Vorlesung an der Berliner Sing-Akademie

2019-12-19T14:30:02Z

Neuerscheinung: Alexander von Humboldt, Henriette Kohlrausch: Die Kosmos-Vorlesung an der Berliner Sing-Akademie. Herausgegeben von Christian Kassung und Christian Thomas. Berlin: Insel Verlag, 2019.

2019, zum Jubiläum seines 250. Geburtstages, ist im Insel Verlag eine Nachschrift der 1827/28 gehaltenen ›Kosmos-Vorträge‹ Alexander von Humboldts in einer gedruckten Ausgabe, herausgegeben von Christian Kassung (Humboldt-Universität zu Berlin) und Christian Thomas (BBAW), erschienen. Mit diesem Manuskript der Henriette Kohlrausch, deren bislang unbekannte Verfasserschaft in diesem Band belegt und erstmals einer breiten Öffentlichkeit bekannt gemacht wurde, liegt somit die einzige bekannte Nachschrift der populären Vorträge in der Berliner Sing-Akademie in einer zuverlässigen, anhand der Handschrift geprüften Textfassung vor. Diese basiert auf der im DTA-Basisformat für Manuskripte (DTABf-M) annotierten Textgrundlage, die 2014/15 im »Hidden Kosmos«-Projekt erstellt und im Deutschen Textarchiv publiziert wurde.

Weitere Nachschriften der ›Kosmos-Vorträge‹ finden Sie ebenfalls im DTA, siehe dazu das Subkorpus Alexander von Humboldts Kosmos-Vorträge.

Die Aufzeichnung einer Buchvorstellung mit den beiden Herausgebern Christian Kassung und Christian Thomas finden Sie hier im L.I.S.A. Wissenschaftsportal der Gerda Henkel Stiftung.

Neue Werkzeuge für das Deutsche Textarchiv über CLARINs Language Resource Switchboard (LRS) zugänglich

2019-11-01T11:49:37Z

Im Rahmen des für 25 Monate angelegten Verbundprojekts CLARIAH-DE mit dem vornehmlichen Ziel, die beiden mit Mitteln des Bundesministeriums für Bildung und Forschung (BMBF) aufgebauten geisteswissenschaftlichen Forschungsinfrastrukturen CLARIN-D und DARIAH-DE zu einer gemeinsamen digitalen Forschungsinfrastruktur zusammenzuführen, wurden an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) neue Werkzeuge zur Textanalyse zugänglich gemacht. Alle im Deutschen Textarchiv enthaltenen Werke können mittlerweile per URL an das innerhalb von CLARIN-PLUS entwickelte Language Resource Switchboard (LRS) übermittelt werden.

Das LRS evaluiert die einzelnen Textdateien und bietet im Anschluss eine Auswahl an unterschiedlichen Tools an, mithilfe derer die Texte analysiert werden können. Neben der Möglichkeit der morphologischen Analyse der Texte finden sich dort Werkzeuge für Lemmatisierung, Named Entity Recognition, Part-Of-Speech Tagging sowie Constituency und Dependency Parsing.

Veröffentlichung des Korpus Digitale Sammlung Deutscher Kolonialismus im Deutschen Textarchiv

2019-10-18T13:50:20Z

Im Rahmen eines zweijährigen, von der DFG geförderten Kooperationsprojekts der Staats- und Universitätsbibliothek (SuUB) Bremen, der Universitätsbibliothek Johann Christian Senckenberg in Frankfurt/Main und der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) wurde eine umfassende digitale Sammlung zum Deutschen Kolonialismus erarbeitet. Das mehr als 1000 Titel mit ca. 180000 Seiten umfassende Korpus „Digitale Sammlung Deutscher Kolonialismus“ (DSDK) besteht aus Publikationen, die in der Zeit des deutschen Kaiserreichs und von den genannten Bibliotheken unter dem Aspekt Kolonialismus gesammelt wurden.

Mit der Veröffentlichung des Korpus werden nun der Kolonialismusforschung, der Koloniallinguistik sowie weiteren historisch-textbasiert arbeitenden Disziplinen – und nicht zuletzt auch der breiteren Öffentlichkeit – eine in dieser Form einzigartige Sammlung an Publikationen in Bild und Text digital zur Verfügung gestellt. Die digitale Erfassung erfolgte automatisch mit Methoden der Optical Character Recognition (OCR). Die Texte wurden zunächst innerhalb der Qualitätssicherungsumgebung des Deutschen Textarchivs, DTAQ, publiziert, wo die Bände nach freier Anmeldung zugänglich und bereits vollumfänglich nutzbar sind (URL: http://www.deutschestextarchiv.de/dtaq/book?q=dsdk).

Die Dokumente werden nach Abschluss der Qualitätssicherung sukzessive im DTA freigeschaltet sowie zur Langzeitarchivierung an das CLARIN-Repository der BBAW übergeben.

Neues Forschungsprojekt „Die Evolution von komplexen Textmustern“

2019-07-05T13:04:09Z

Im Juni/Juli 2019 startete am Zentrum Sprache der BBAW sowie am Lehrstuhl für Germanistische und Allgemeine Sprachwissenschaft der Universität Paderborn das Kooperationsprojekt Die Evolution von komplexen Textmustern: Entwicklung eines korpuslinguistischen Analyseverfahrens zur Erfassung der Mehrdimensionalität des Textmusterwandels. Das Projekt wird neu von der DFG gefördert und soll geeignete Indikatoren für historischen Textmusterwandel anhand einschlägiger Textsorten der Gebrauchsliteratur der jüngeren Sprachgeschichte (Erbauungsliteratur und Zeitungen) ermitteln.

Für nähere Informationen s. den Blogartikel Neues Forschungsprojekt „Die Evolution von komplexen Textmustern“.

Das DTA-Basisformat bekommt Verstärkung

2019-05-07T08:59:37Z

Das DTA-Basisformat (DTABf) ist ein Format zur Auszeichnung historischer Drucke mit einer Erweiterung für Handschriften auf Basis der TEI-P5-Richtlinien, das vor allem für den Aufbau und die Erschließung historischer Volltextkorpora genutzt wird. Es schränkt die Richtlinien der TEI so ein, dass Ambiguitäten im Tagging vermieden werden, während weiterhin eine möglichst große Anzahl von Phänomenen der Vorlage modelliert werden kann. Mit der Ausarbeitung des DTABf unterbreiten wir einen Vorschlag für einen Standard zur Volltext-Aufbereitung historischer Texte.

Das DTABf soll die Kompatibilität und Interoperabilität von digitalisierten Texten stärken und so einen Beitrag leisten, um homogen aufbereitete und qualitativ hochwertige Forschungsdaten für die Wissenschaft bereitzustellen und nachnutzbar zu machen.

Zunehmend wird das DTABf, das im Projektkontext des DTA entstand, auch von externen Projekten verwendet. Damit steigt der Bedarf, das Format für Kontexte außerhalb des korpuslinguistischen Fokus des DTA zusätzlich nutzbar zu machen. Um dieser Entwicklung gerecht zu werden, wurde eine Steuerungsgruppe gegründet, deren Mitglieder durch ihre Verankerung in verschiedenen Communities unterschiedliche Perspektiven und Expertisen bei der Weiterentwicklung des Formats einbringen können.

Die DTABf-Steuerungsgruppe setzt sich aus Expertinnen und Experten für TEI-Auszeichnung und -Anpassung zusammen. Sie gehörten zum Teil bereits dem ursprünglichen Team des DTA an; zum Teil repräsentieren sie andere Projekte, die ebenfalls das DTA-Basisformat einsetzen. Mitglieder sind Matthias Boenig (BBAW, OCR-D), Daniel Burckhardt (GHI Washington DC), Stefan Dumont (BBAW, Telota), Alexander Geyken (BBAW, DWDS & ZDL), Martina Goedel (textloop & CCEH), Susanne Haaf (BBAW, ZDL & t.evo), Axel Herold (BBAW, ZHistLex & DWDS/ZDL), Christian Thomas (BBAW, CLARIN-D & edition humboldt digital).

Die DTABf-Steuerungsgruppe trifft sich regelmäßig, um Entwicklungen am DTA-Basisformat abzustimmen und über neue Vorschläge zu entscheiden. Im Fokus stehen dabei die Erweiterungs- und Änderungsvorschläge der Nutzenden, die über Tickets auf der GitHub-Präsenz des DTABf gemeldet werden. Alle Vorschläge werden vor dem Hintergrund der DTABf-Leitlinien beraten.

Nachwuchsworkshop “Herausforderungen der Briefkodierung”, 29./30. Oktober 2018, BBAW Berlin

2018-10-29T10:41:14Z

Am 29./30. Oktober 2018 findet an der BBAW der Nachwuchsworkshop “Herausforderungen der Briefkodierung” statt. Diese Veranstaltung wird ausgerichtet durch CLARIN-D und die TEI Correspondence SIG.

Die Erstellung von digitalen Briefeditionen auf Basis von TEI-XML gehört heutzutage wohl zum State-of-the-Art. Doch obwohl die TEI-Richtlinien und deren Subset “Basisformat des Deutschen Textarchivs” (DTABf) schon viele Kodierungsmöglichkeiten für Brieftexte und die dazugehörigen Metadaten beinhalten, gibt es trotzdem Probleme und offene Kodierungsfragen, denen sich Projekte ausgesetzt sehen. Hier soll der angekündigte Workshop Abhilfe schaffen, indem Nachwuchswissenschaftler/innen, die in ihrer täglichen Arbeit mit der Kodierung von Briefen befasst sind, gemeinsam Probleme diskutieren und Lösungen erarbeiten.

Die Veranstaltung ist als Arbeitstreffen konzipiert, das teilweise im Plenum, teilweise in Arbeitsgruppen stattfinden wird. Ziel ist es, sowohl Best Practices der Briefkodierung zusammenzutragen, als auch Desiderata zu identifizieren und dafür konkrete Lösungen zu erarbeiten. Dabei sollen Feature Requests sowohl im Hinblick auf die TEI-Richtlinien als auch auf das DTABf erstellt werden. Die Diskussionen und Ergebnisse des Workshops werden im Nachgang als digitaler Tagungsband im Open Access publiziert.

Der Workshop wird veranstaltet von CLARIN-D und der TEI Correspondence SIG. Insgesamt 21 Nachwuchswissenschaftler/innen werden dabei miteinander in 5 Arbeitsgruppen zu den Themen Textkodierung, Metadatenerfassung und CMIF/Normdaten diskutieren. Die Teilnahme am Workshop ist zunächst beschränkt. Die Ergebnisse werden der Community jedoch vor der endgültigen Publikation zur Kenntnis gegeben und in einer Feedback-Runde zur Diskussion gestellt.

Zeitraum: 29./30. Oktober 2018

Ort: Berlin-Brandenburgische Akademie der Wissenschaften, Jägerstr. 22/23, 10117 Berlin

Organisator/innen:

Stefan Dumont (Co-Convener TEI Correspondence SIG)
Susanne Haaf (CLARIN-D / DTA)
Sabine Seifert (Co-Convener TEI Correspondence SIG)

Programm

Montag, 29.10.2018

Ab 12:30 Uhr: Ankunft und Anmeldung
13:30-14:30 Uhr: Einführung

TEI Correspondence Encoding (Sabine Seifert)
CMIF, correspSearch & Normdaten (Stefan Dumont)
TEI-Infrastruktur (Peter Stadler)
DTA-Basisformat (Susanne Haaf)

14:30-16:00 Uhr: Gruppenarbeit I
16:00-16:30 Uhr: Kaffeepause
16:30-18:00 Uhr: Gruppenarbeit II
18:00-19:00 Uhr: Berichterstattung und Plenumsdiskussion

Dienstag, 30.10.2018
09:00-10:30 Uhr: Gruppenarbeit III
10:30-11:00 Uhr: Kaffeepause
11:00-13:00 Uhr: Plenumsdiskussion

Neues Textformat im DTA: XML (DTABf) mit linguistischer Annotation (TEI class att.linguistic)

2018-09-24T13:57:18Z

Seit Kurzem bietet das DTA für jeden DDC-indizierten Volltext mit „TEI/XML (inkl. att.linguistic)“ ein weiteres Datenformat zum Download an, das Wort- bzw. Token-bezogene Informationen aus der automatischen linguistischen Analyse in einem einzelnen XML-Dokument kombiniert. Anders als das parallel weiterhin angebotene TCF-Format vereint das neue Format strukturelle und semantische Annotationen aus dem DTA-Basisformat (DTABf) mit linguistischen Informationen zur Satzsegmentierung (gekennzeichnet mit dem Element <s> und einer eindeutigen XML-ID) und zu den einzelnen Wörtern bzw. Tokens (gekennzeichnet mit dem Element <w> und einer eindeutigen XML-ID). Grundlage für diese Notation ist die class „att.linguistic“[1] der Text Encoding Initiative (TEI), die von der Special Interest Group „TEI for Linguists“ entworfen und Anfang Januar 2018 mit dem Release 3.3.0 Eingang in die P5-Richtlinien der TEI gefunden hat.[2] Sie finden den Download zu jedem Werk unter dem Menüpunkt „Ansichten“ ⇒ „TEI/XML (inkl. att.linguistic)“.

Die Informationen auf Token-Ebene umfassen Angaben zur Grundform (Attribut @lemma), der Wortart (@pos, notiert gemäß dem im DTA verwendeten STTS-Tagset) sowie der durch CAB orthographisch normierten Schreibweise (@norm). Vgl. dazu z. B. den folgenden Satz[3]:

Ein ſchoͤnes Beyſpiel von dieſem Verdienſt betrachte man hier.

<s xml:id="s1">
  <w xml:id="wf1" lemma="eine" pos="ART" norm="Ein">Ein</w>
  <w xml:id="wf2" lemma="schön" pos="ADJA" norm="schönes">ſchoͤnes</w>
  <w xml:id="wf3" lemma="Beispiel" pos="NN" norm="Beispiel">Beyſpiel</w>
  <w xml:id="wf4" lemma="von" pos="APPR" norm="von">von</w>
  <w xml:id="wf5" lemma="diese" pos="PDAT" norm="diesem">dieſem</w>
  <w xml:id="wf6" lemma="Verdienst" pos="NN" norm="Verdienst">Verdienſt</w>
  <w xml:id="wf7" lemma="betrachten" pos="VVFIN" norm="betrachte">betrachte</w>
  <w xml:id="wf8" lemma="man" pos="PIS" norm="man">man</w>
  <w xml:id="wf9" join="right" lemma="hier" pos="ADV" norm="hier">hier</w>
  <w xml:id="wfa" join="left" lemma="." pos="$." norm=".">.</w>
</s>

[1] Vgl. Text Encoding Initiative: P5: Guidelines for Electronic Text Encoding and Interchange Version 3.4.0. Last updated on 23rd July 2018, revision 1fa0b54, Ch. 17.4: 17.4 Linguistic Annotation, http://www.tei-c.org/release/doc/tei-p5-doc/en/html/AI.html#AILA, abgerufen am 24.09.2018.

[2] Vgl. dazu auch: Piotr Banski, Susanne Haaf, Martin Mueller: Lightweight Grammatical Annotation in the TEI: New Perspectives. In: Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), 7.-12. Mai 2018, Miyazaki (Jp), S. 1795–1802. Online-Zugang.

[3] Aus: Hirschfeld, Christian Cay Lorenz: Theorie der Gartenkunst. Bd. 5. Leipzig, 1785, S. 12. In: Deutsches Textarchiv <http://www.deutschestextarchiv.de/hirschfeld_gartenkunst5_1785/20>, abgerufen am 24.09.2018.

Korpus Alpinistischer Texte im Deutschen Textarchiv

2018-07-11T13:54:13Z

Im Projekt »Text+Berg digital«[1] wurden die Jahrbücher des Schweizer Alpen-Clubs (SAC) aus dem Zeitraum von 1864 bis 2015 digitalisiert. Dieses Korpus konnte nun in zwei Teilen in die Korpora des Zentrums Sprache der BBAW integriert werden. Die Jahrgänge von 1864 bis 1900 sind frei recherchierbar, die Jahrgänge ab 1901 sind nach Anmeldung über das DWDS abfragbar. Zudem wurden beide Teilkorpora an das Kollokationsanalysetool DiaCollo angebunden.

Zugänge:

Beim Abschlussworkshop des Projekts »Text+Berg digital«, der am 14./15. Juni 2018 in Zürich stattfand, wurden diese Ergebnisse präsentiert.[2]

Geplant ist weiterhin die Integration der Jahrgänge 1864-1900 in die Text-Bild-Ansicht des DTA. Ein Testband kann bereits eingesehen werden.[3]

[1] Bubenhofer, Noah / Volk, Martin / Leuenberger, Fabienne / Wüest, Daniel (Hrsg.): Text+Berg-Korpus (Release 151v01). Digitale Edition des Jahrbuch des SAC 1864–1923, Echo des Alpes 1872-1924, Die Alpen, Les Alpes, Le Alpi 1925-2014, The Alpine Journal 1969–2008: Institut für Computerlinguistik, Universität Zürich, 2015.

[2] Susanne Haaf: Integration von Text+Berg in das Deutschen Textarchiv. Vortrag im Rahmen des Text+Berg-Abschlussworkshops, 14./15.6.2018, Zürich. Folien.

[3] Jahrbuch des Schweizer Alpen-Clubs. Schweizer Alpen-Club (Hrsg.), Zürich. 1864. (Digitale Ausgabe, Institut für Computerlinguistik der Universität Zürich (CH), 2018). Text in DTAQ.

Grimm’sche Kinder- und Hausmärchen, 1.–7. Auflage (1812–1857), jetzt vollständig im Deutschen Textarchiv verfügbar

2018-07-09T17:48:34Z

Die sogenannte Große Ausgabe der Grimm’schen Kinder- und Hausmärchen (14 Bände, 1812–1857) steht seit kurzer Zeit vollständig im Deutschen Textarchiv zur Verfügung. Bislang war lediglich die Erstauflage (2 Bände, 1812/15) als Teil des DTA-Kernkorpus verfügbar, nun konnte diese um weitere Auflagen aus der deutschsprachigen Wikisource ergänzt werden.

Die Integration fand als Teil der Bemühungen zur Kuratierung hochwertiger Textressourcen innerhalb des Infrastrukturprojekts CLARIN-D statt. Dazu wurden die Volltexte aus der Wikisource aus deren Wikisyntax (semi-)automatisch in das interoperable, auf TEI-XML beruhende DTA-Basisformat konvertiert. Die Herkunft der Texte ist jeweils auf der Startseite des jeweiligen Bandes bzw. in den Metadaten vermerkt.

Alle 14 Bände der Großen Ausgabe (1.–7. Auflage, 1812–1857) mit mehr als 6900 Seiten (ca. 1,6 Mio. Tokens, ca. 10 Mio. Zeichen) stehen nun in einem einheitlichen, standardkonformen Format zur Lektüre und zur computergestützten Analyse bereit. Somit kann nun beispielsweise die Entwicklung bestimmter Motive oder Erzählstrukturen über die gesamte Große Ausgabe hinweg untersucht werden. Mit dem Tool DiaCollo können in dieser Sammlung diachrone Kollokationsanalysen (z.B. von Begriffen wie „Zauber“, „Gold“, „Glück“, „Stiefmutter“ usw.) durgeführt werden.

Alle Bände im Überblick: http://www.deutschestextarchiv.de/api/pnd/118542265.

Blog: Im Zentrum Sprache

2017-11-20T10:24:40Z

Auf der Plattform hypotheses.org präsentieren die Projekte Deutsches Textarchiv, DWDS und CLARIN-D Neuigkeiten aus der Forschung an, mit und über Korpusressourcen, Werkzeuge und Formate, die im Zentrum Sprache der BBAW erstellt und gepflegt werden. MitarbeiterInnen des Zentrums sowie externe Beiträger berichten dabei praxisnah über neue Projekte oder interessante Einzelbefunde und berichten über Workshops und Konferenzen. Unser neues Blog „Im Zentrum Sprache“ finden Sie unter sprache.hypotheses.org.

Bisher erschienen mehrere Tagungsberichte sowie thematische Artikel zum DTA-Basisformat, zum DTA-Spezialkorpus „Texte der ersten Frauenbewegung“, insbesondere zum Kampf um ein allgemeines Wahlrecht und zum Briefwechsel und weiteren Arbeiten des Lexikografen Daniel Sanders. Weitere Beiträge illustrieren die Nutzung von Wortartentagging für die Lexikographie anhand der DTA- und DWDS-Korpora und beschreiben anhand eines aktuellen Beispiels, wie sich Bedeutungswandel auf dieser Grundlage korpusbasiert untersuchen lässt.

Thematisch passende Gastbeiträge sind uns willkommen; Kontakt und Informationen finden Sie ebenfalls auf der Seite des Blogs „Im Zentrum Sprache“.

Vortrag von Susanne Haaf im Rahmen des DH-Kolloquiums an der BBAW (1.9.2017)

2017-09-02T13:59:48Z

Am 1.9.2017 fand bereits zum dritten Mal das monatliche „Digital-Humanities-Kolloquium“ an der BBAW statt, bei dem diesmal Susanne Haaf (CLARIN-D/Deutsches Textarchiv) einen Vortrag über das DTA-Basisformat (DTABf) zur TEI-XML-konformen Annotation historischer Textressourcen hielt. [1]

Im Vortrag wurde ausführlich der Grundgedanke hinter dem DTA-Basisformat, d. h. die Etablierung eines reduzierten, zugleich vollständig TEI-konformen XML-Markups für historische Textressourcen, erläutert. ‚Reduziert‛ bedeutet in diesem Zusammenhang, dass immer dort, wo die P5-Richtlinien der TEI mehrere Möglichkeiten zur Annotation gleichartiger Phänomene bieten, innerhalb des DTABf nur genau eine dieser Varianten gewählt werden kann. Ziele dieser Restriktion sind zum einen die Gewährleistung gleichartiger Annotationsweisen innerhalb des DTA-Korpus sowie zum anderen die Erhöhung der Interoperabilität verschiedener TEI-XML-kodierter Textkorpora.

Neben dem DTABf für historische Drucke erwähnte Susanne Haaf in ihrem Vortrag auch die verschiedenen Spezialtagsets innerhalb des DTABf, die beispielsweise für die Annotation von (historischen) Zeitungen, Funeralschriften und seit einiger Zeit auch für die Auszeichnung (neuzeitlicher) Manuskripte entwickelt wurden. Dabei wurde das immer noch sehr breite Spektrum der Phänomene erkennbar, die sich mit dem DTABf standardkonform auszeichnen lassen, wobei die ausführliche und reich illustrierte Dokumentation des DTABf eine zuverlässige Orientierungshilfe bietet. In technischer Hinsicht wurde die Erstellung der umfangreichen DTABf-Dokumentation mit dem Dokumentenformat DITA (Darwin Information Typing Architecture) erläutert, das deren Handhabung und Modularisierung (auch durch Nachnutzende) enorm vereinfacht. Als weitere technische Komponenten stellte Haaf das mit dem Chaining-ODDs-Mechanismus modularisierte ODD, auf dem das DTABf beruht, das RNG-Schema sowie die weitere Spezifikation der Annotationspraxis durch einen Schematron-Regelsatz vor. [2]

Alle Komponenten des DTABf werden mittlerweile über die DTA-Präsenz auf der Entwicklungsplattform GitHub verwaltet und versioniert. Sie können dadurch auch von externen Nutzerinnen und Nutzern kommentiert, heruntergeladen und ggf. auf deren eigene Bedürfnisse hin modifiziert werden. Als weiterer Schritt zur stärkeren Einbindung der wachsenden Nutzer-Community des DTABf ist die Einrichtung einer Steuerungsgruppe mit externen Beteiligten geplant, die über zukünftige Modifikationen und Erweiterungen des Formats entscheiden wird. Darüber hinaus wurde in diesem Zusammenhang die geplante Übersetzung der DTABf-Dokumentation ins Englische, die im Rahmen des EU-Projekts PARTHENOS vorgesehen ist, erwähnt. [3]

Die anschließende Diskussion widmete sich u.a. den Implikationen der zunehmenden Verbreitung des DTABf, das mittlerweile von mehr als 25 externen Projekten genutzt und sowohl vom EU-weiten Infrastrukturprojekt CLARIN als auch von der Deutschen Forschungsgemeinschaft (DFG) empfohlen wird, was einen wichtigen Schritt in Richtung Standardisierung bzw. Etablierung von Best Practices innerhalb der Historischen Linguistik sowie allgemein der textbasiert arbeitenden Philologien, Geschichts- und Kulturwissenschaften darstellt. Das DTABf wurde zwar ursprünglich für die Auszeichnung des primär deutschsprachigen Korpus des Deutschen Textarchivs entwickelt, eignet sich aber ebenso zur Annotation von Textressourcen, die in anderen Sprachen (oder anderen Sprachstufen des Deutschen) verfasst wurden.

Anmerkungen

[1] Die Folien zum Vortrag „Das DTA-Basisformat zur TEI-XML-konformen Annotation historischer Textressourcen“ von Susanne Haaf finden Sie sowohl auf den Seiten des DTA als auch (zeitnah) auf dem edoc-Server der BBAW.

[2] Zu diesen Entwicklungen siehe auch Susanne Haafs Beitrag „Das DTA-Basisformat in neuem Gewand“ im Blog des Zentrums Sprache der BBAW.

[3] Siehe dazu auch den (englischsprachigen) Bericht zum Vortrag von Ulrike Wuttke: „Musings about a lecture: Deutsches Textarchiv Basisformat: A TEI Basic Format not only for German“.

DTABf, ediarum und Deutsches Textarchiv auf dem Workshop zum Thema "Editionsportale" in Jena vorgestellt

2017-08-04T10:59:20Z

Am 3. August 2017 waren das Deutsche Textarchiv und die Telota-Initiative der BBAW mit einem gemeinsamen Vortrag auf dem Workshop des Editionsportals Thüringen vertreten. Thema des Workshops waren "Editionsportale".
Stefan Dumont/Susanne Haaf: Die vernetzte Edition. DTABf, ediarum und Deutsches Textarchiv. Vortrag im Rahmen des Workshops "Editionsportale" an der Universität Jena, Historisches Institut, 3./4. August 2017. [Folien]

Ausschreibung für Modulprojekte im Rahmen von OCR-D

2017-03-10T07:39:45Z

Am 6. März 2017 wurde eine vom DFG-Koordinierungsprojekt zur Weiterentwicklung von OCR-Verfahren (kurz OCR-D), dem das Zentrum Sprache an der BBAW angehört, federführend konzipierte Ausschreibung veröffentlicht

Das im Herbst 2015 gestartete Koordinierungsprojekt OCR-D hat zum Ziel, Verfahren zu beschreiben und Richtlinien zu erarbeiten, um einen optimalen Workflow sowie eine möglichst weitreichende Standardisierung von OCR-bezogenen Prozessen und Metadaten zu erzielen. Des Weiteren soll die vollständige Transformation des schriftlichen deutschen Kulturerbes in eine maschinenlesbare Form (strukturierter Volltext) konzeptionell vorbereitet werden. Vornehmlich betrachtet werden Werke aus den Verzeichnissen der im deutschen Sprachraum erschienenen Drucke des 16. bis 18. Jahrhunderts (VD).

Am Koordinierungsprojekt sind neben der BBAW die Herzog August Bibliothek Wolfenbüttel und die Staatsbibliothek zu Berlin beteiligt. In der ersten Projektphase wurden Entwicklungsbedarfe für Verfahren der automatischen Texterkennung ermittelt. Darauf aufbauend erfolgt nun die Ausschreibung zu sechs Themenkomplexen:

Bildvorverarbeitung
Layouterkennung
Textoptimierung
Modelltraining
Langzeitarchivierung und Persistenz
Qualitätssicherung

Um einen Eindruck des zu behandelnden Materials zu gewinnen, stellen wir unter www.ocr-d.de/daten Referenzmaterialien zur Verfügung.

Interessierte werden gebeten, bis zum 26. April 2017 eine Absichtserklärung bei der Deutschen Forschungsgemeinschaft einzureichen. Die Frist zur Einreichung der Förderanträge endet am 31. Mai 2017.

Dokumente aus dem Deutschen Textarchiv sind nun mit den Voyant Tools analysierbar

2017-02-03T14:01:31Z

Ab sofort bietet das Deutsche Textarchiv (DTA) seinen Nutzerinnen und Nutzern die Möglichkeit, jeden DTA-Text mit den von Stéfan Sinclair und Geoffrey Rockwell entwickelten Voyant Tools[1] zu analysieren. Somit lässt sich beispielsweise Theodor Fontanes Roman „Effi Briest“ (1896) nun mit Hilfe der verschiedenen in Voyant Tools bereitgestellten Ansichten erkunden – z. B. hier in der unten erläuterten normalisierten Fassung:

Die XML-Volltexte aus dem DTA werden eigens zu diesem Zweck und ohne weiteren nutzerseitigen Aufwand präprozessiert, um eine nahtlose Verwendung und optimale Analyseergebnisse gewährleisten zu können. Zur Analyse mit Voyant stellt das Deutsche Textarchiv drei spezielle XML-Fassungen zur Verfügung:

Eine zeichennormierte Fassung (unicruftxml): Diese XML-Fassung bietet Ihnen den Text in transliterierter Orthographie, d. h. in einer Fassung, in der alle Zeichen, die außerhalb der Latin-1-Kodierung (ISO/IEC 8859-1) liegen, durch Zeichen innerhalb von Latin-1 approximiert werden. Damit sind Probleme bei der Voyant-seitigen Behandlung von Zeichen wie dem 'langen' s (ſ , U+017F) oder dem hochgestellen 'e' (U+0364) zur Kennzeichnung von Umlauten ausgeschlossen. Abgesehen davon bleiben die Graphie der Vorlage und auch die Silbentrennung am Seiten- und Zeilenende erhalten.
Beispieldatei: https://www.deutschestextarchiv.de/book/download_unicruftxml/fontane_briest_1896.
Eine hinsichtlich der Schreibweisen normierte Fassung (normxml): Diese XML-Fassung bietet Ihnen den Text ebenfalls Latin-1-approximiert (siehe 1.) und zusätzlich in normalisierter Orthographie, d. h. aufgrund der automatischen linguistischen Analyse der historischen Wortformen mit CAB (Cascaded Analysis Broker). Historische Schreibweisen, beispielsweise "Erkaͤndtnuß" und "weißheyt" werden in ihr modernes Äquivalent, "Erkenntnis" und "Weisheit", überführt. In diesem Zuge wird auch die Silbentrennung am Seiten- und Zeilenumbruch aufgelöst.
Beispieldatei: https://www.deutschestextarchiv.de/book/download_normxml/fontane_briest_1896.
Eine lemmatisierte Fassung (lemmaxml): Diese XML-Fassung bietet Ihnen den Text ebenfalls zeichennormiert und in modernisierter Orthographie (siehe 1. und 2.), zusätzlich dazu wird der Text jedoch lemmatisiert wiedergegeben. Bei der Lemmatisierung werden die einzelnen Token auf ihre Grundform (Lemma) zurückgeführt. Beispielsweise wird das flektierte Verb "sahen" auf seine Grundform im Singular Präsens, "sehen", abgebildet. Unbestimmte Artikel wie "ein", "einer", "eine" werden einheitlich auf das Lemma "eine", bestimmte Artikel wie "der", "die" oder "das" zu "d" lemmatisiert usw.
Beispieldatei: https://www.deutschestextarchiv.de/book/download_lemmaxml/fontane_briest_1896.

Die Verbindung des Deutschen Textarchivs mit Voyant ist im Menü zu jedem DTA-Text unter "Ansichten" zu finden. Dabei kann zwischen den oben beschriebenen drei Varianten gewählt werden.

[1] Ausführliche Informationen zur Nutzung des Voyant-Tools finden Sie in der Dokumentation dieses Werkzeuges.

[2] Alle angebotenen XML-Fassungen beruhen auf dem DTA-Basisformat (DTABf) und entsprechen demgemäß den Richtlinien der Text Encoding Initiative (TEI). Jedem Text wurde im TEI-Header ein Zitationshinweis sowie eine kurz gefasste Erläuterung zur Erzeugung der jeweiligen Fassung hinzugefügt. Die XML-Fassungen werden vollautomatisch erstellt und können aufgrund dessen, insbesondere bei der Analyse historischer Schreibweisen und der Lemmatisierung, auch Fehler enthalten. Die XML-Fassungen werden bei jedem Abruf eigens erzeugt, weshalb zu unterschiedlichen Zeitpunkten erzeugte Fassungen voneinander abweichen können.

Das DTA-Basisformat (DTABf) in neuem Gewand

2017-01-31T15:50:29Z

Das DTA-Basisformat (DTABf) ist nach einer grundlegenden Überarbeitung nun in neuem Gewand über die DTABf-Webseite zugänglich. Die DTABf-Dokumentation wurde in das Dokumentationsformat DITA überführt und ist nun als responsive Webseite auch auf mobilen Geräten gut lesbar. Sie ist zugänglich über die gewohnte Webadresse des DTA-Basisformats.

Das DTABf-Schema wurde mithilfe des Chaining-ODDs-Mechanismus der Text Encoding Initiative modularisiert und darauf aufbauend um ein eigenes Schema für Manuskripte ergänzt. Alle DTABf-ODDs und -Schemas sind zugänglich über die Seite: Schema und Dokumentation.

Das DTA beim Workshop "Digitale Editionen und Auszeichnungssprachen", München, 21./22.11.2016

2016-11-16T11:39:30Z

Am 21. und 22. November 2016 findet an der Bayerischen Akademie der Wissenschaften in München ein Workshop zum Thema "Digitale Editionen und Auszeichnungssprachen" statt. Das DTA wird dort mit einem Beitrag zum DTA-Basisformat vertreten sein.

Susanne Haaf, Alexander Geyken: Deutsches Textarchiv: TEI-XML anhand des DTA-Basisformats. Montag, 21. November 2016, 16:15 – 17:00.