The handbook "Encoding Correspondence. A Manual for Encoding Letters and Postcards in TEI-XML and DTABf" is now online with a first set of articles: https://encoding-correspondence.bbaw.de.
More articles are coming soon. This handbook shall help editors of digital editions and projects to encode letters and postcards in TEI-XML and DTABf. Topics of discussion are, amongst others, problems with <opener> and <closer>, with postscripts, letterheads, and the expansion of the exchange format CMIF.
The handbook summarizes the discussions and solutions of the workshop "Challenges of Correspondence Encoding" that was held by the TEI Correspondence SIG and CLARIN-D at the Berlin Brandenburg Academy of Sciences in October 2018. The project was also presented at the TEI Conference 2019 in Graz (abstract, slides).
We want to invite the community to review and give feedback. You can use the annotation tool Hypothes.is that is integrated in the webpage and allows to comment text passages. After the public peer review phase that ends 30 April 2020, the articles will be revised and published in version 2 of the handbook. All articles of version 1 remain online and citable. The editors and authors of the handbook are looking forward to your feedback!
The handbook is published under the Creative Commons licence CC BY-SA 4.0 and can be downloaded from GitHub, including all TEI files. The bibliographic information of the articles and cited literature are available at the Zotero group "Encoding Correspondence".
Stefan Dumont, Susanne Haaf, Sabine Seifert
Das Handbuch „Encoding Correspondence. A Manual for Encoding Letters and Postcards in TEI-XML and DTABf” ist seit kurzem mit den ersten Artikeln unter https://encoding-correspondence.bbaw.de online. Weitere Artikel werden im Laufe der nächsten Wochen ergänzt. Das Handbuch soll Editor/-innen dabei helfen, im Rahmen von digitalen Editionen und Projekten die Texte von Briefen und Postkarten mitsamt ihren Metadaten in TEI-XML und DTABf zu kodieren. Diskutiert werden u.a. Aspekte und Probleme bei der Kodierung mit <opener> und <closer>, von Postskripta, Briefköpfen oder die Erweiterung des Austauschformats CMIF.
Die wissenschaftliche Community ist herzlich und nachdrücklich eingeladen, die einzelnen Artikel kritisch zu lesen und ihr Feedback zu geben. Dafür wurde das Annotationstool Hypothes.is eingebunden. Dies ermöglicht es, den Artikel direkt an den entsprechenden Textstellen zu kommentieren und die eigenen Kommentare auch für andere sichtbar zu machen. Nach dem Ende der Open Peer Review-Phase am 30. April 2020 werden die Kommentare diskutiert, die Artikel überarbeitet und in einer zweiten Version des Handbuchs veröffentlicht. Alle Artikel der ersten Version bleiben weiterhin online und sind voll zitierfähig. Die Herausgeber/-innen und Autor/-innen freuen sich auf Feedback!
Das Handbuch versammelt die Ergebnisse des Workshops „Herausforderungen der Briefkodierung“, der von CLARIN-D und der TEI Correspondence SIG im Herbst 2018 an der Berlin-Brandenburgischen Akademie der Wissenschaften ausgerichtet wurde. Auf der TEI-Konferenz 2019 in Graz wurde das Projekt bereits vorgestellt (Abstract, Folien).
Das Handbuch wird unter der Creative Commons-Lizenz CC BY-SA 4.0 veröffentlicht und steht inkl. der TEI-XML-Quelldateien zum Download auf GitHub bereit. Die bibliographischen Angaben der verwendeten Literatur und der Artikel selbst sind darüber hinaus auch in der Zotero-Gruppe “Encoding Correspondence” verfügbar.
Stefan Dumont, Susanne Haaf, Sabine Seifert
Neuerscheinung: Alexander von Humboldt, Henriette Kohlrausch: Die Kosmos-Vorlesung an der Berliner Sing-Akademie. Herausgegeben von Christian Kassung und Christian Thomas. Berlin: Insel Verlag, 2019.
2019, zum Jubiläum seines 250. Geburtstages, ist im Insel Verlag eine Nachschrift der 1827/28 gehaltenen ›Kosmos-Vorträge‹ Alexander von Humboldts in einer gedruckten Ausgabe, herausgegeben von Christian Kassung (Humboldt-Universität zu Berlin) und Christian Thomas (BBAW), erschienen. Mit diesem Manuskript der Henriette Kohlrausch, deren bislang unbekannte Verfasserschaft in diesem Band belegt und erstmals einer breiten Öffentlichkeit bekannt gemacht wurde, liegt somit die einzige bekannte Nachschrift der populären Vorträge in der Berliner Sing-Akademie in einer zuverlässigen, anhand der Handschrift geprüften Textfassung vor. Diese basiert auf der im DTA-Basisformat für Manuskripte (DTABf-M) annotierten Textgrundlage, die 2014/15 im »Hidden Kosmos«-Projekt erstellt und im Deutschen Textarchiv publiziert wurde.
Weitere Nachschriften der ›Kosmos-Vorträge‹ finden Sie ebenfalls im DTA, siehe dazu das Subkorpus Alexander von Humboldts Kosmos-Vorträge.
Die Aufzeichnung einer Buchvorstellung mit den beiden Herausgebern Christian Kassung und Christian Thomas finden Sie hier im L.I.S.A. Wissenschaftsportal der Gerda Henkel Stiftung.
Im Rahmen des für 25 Monate angelegten Verbundprojekts CLARIAH-DE mit dem vornehmlichen Ziel, die beiden mit Mitteln des Bundesministeriums für Bildung und Forschung (BMBF) aufgebauten geisteswissenschaftlichen Forschungsinfrastrukturen CLARIN-D und DARIAH-DE zu einer gemeinsamen digitalen Forschungsinfrastruktur zusammenzuführen, wurden an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) neue Werkzeuge zur Textanalyse zugänglich gemacht. Alle im Deutschen Textarchiv enthaltenen Werke können mittlerweile per URL an das innerhalb von CLARIN-PLUS entwickelte Language Resource Switchboard (LRS) übermittelt werden.
Das LRS evaluiert die einzelnen Textdateien und bietet im Anschluss eine Auswahl an unterschiedlichen Tools an, mithilfe derer die Texte analysiert werden können. Neben der Möglichkeit der morphologischen Analyse der Texte finden sich dort Werkzeuge für Lemmatisierung, Named Entity Recognition, Part-Of-Speech Tagging sowie Constituency und Dependency Parsing.
Im Rahmen eines zweijährigen, von der DFG geförderten Kooperationsprojekts der Staats- und Universitätsbibliothek (SuUB) Bremen, der Universitätsbibliothek Johann Christian Senckenberg in Frankfurt/Main und der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) wurde eine umfassende digitale Sammlung zum Deutschen Kolonialismus erarbeitet. Das mehr als 1000 Titel mit ca. 180000 Seiten umfassende Korpus „Digitale Sammlung Deutscher Kolonialismus“ (DSDK) besteht aus Publikationen, die in der Zeit des deutschen Kaiserreichs und von den genannten Bibliotheken unter dem Aspekt Kolonialismus gesammelt wurden.
Mit der Veröffentlichung des Korpus werden nun der Kolonialismusforschung, der Koloniallinguistik sowie weiteren historisch-textbasiert arbeitenden Disziplinen – und nicht zuletzt auch der breiteren Öffentlichkeit – eine in dieser Form einzigartige Sammlung an Publikationen in Bild und Text digital zur Verfügung gestellt. Die digitale Erfassung erfolgte automatisch mit Methoden der Optical Character Recognition (OCR). Die Texte wurden zunächst innerhalb der Qualitätssicherungsumgebung des Deutschen Textarchivs, DTAQ, publiziert, wo die Bände nach freier Anmeldung zugänglich und bereits vollumfänglich nutzbar sind (URL: http://www.deutschestextarchiv.de/dtaq/book?q=dsdk).
Die Dokumente werden nach Abschluss der Qualitätssicherung sukzessive im DTA freigeschaltet sowie zur Langzeitarchivierung an das CLARIN-Repository der BBAW übergeben.
Im Juni/Juli 2019 startete am Zentrum Sprache der BBAW sowie am Lehrstuhl für Germanistische und Allgemeine Sprachwissenschaft der Universität Paderborn das Kooperationsprojekt Die Evolution von komplexen Textmustern: Entwicklung eines korpuslinguistischen Analyseverfahrens zur Erfassung der Mehrdimensionalität des Textmusterwandels. Das Projekt wird neu von der DFG gefördert und soll geeignete Indikatoren für historischen Textmusterwandel anhand einschlägiger Textsorten der Gebrauchsliteratur der jüngeren Sprachgeschichte (Erbauungsliteratur und Zeitungen) ermitteln.
Für nähere Informationen s. den Blogartikel Neues Forschungsprojekt „Die Evolution von komplexen Textmustern“.
Im Projekt »Text+Berg digital«[1] wurden die Jahrbücher des Schweizer Alpen-Clubs (SAC) aus dem Zeitraum von 1864 bis 2015 digitalisiert. Dieses Korpus konnte nun in zwei Teilen in die Korpora des Zentrums Sprache der BBAW integriert werden. Die Jahrgänge von 1864 bis 1900 sind frei recherchierbar, die Jahrgänge ab 1901 sind nach Anmeldung über das DWDS abfragbar. Zudem wurden beide Teilkorpora an das Kollokationsanalysetool DiaCollo angebunden.
Zugänge:
Beim Abschlussworkshop des Projekts »Text+Berg digital«, der am 14./15. Juni 2018 in Zürich stattfand, wurden diese Ergebnisse präsentiert.[2]
Geplant ist weiterhin die Integration der Jahrgänge 1864-1900 in die Text-Bild-Ansicht des DTA. Ein Testband kann bereits eingesehen werden.[3]
[1] Bubenhofer, Noah / Volk, Martin / Leuenberger, Fabienne / Wüest, Daniel (Hrsg.): Text+Berg-Korpus (Release 151v01). Digitale Edition des Jahrbuch des SAC 1864–1923, Echo des Alpes 1872-1924, Die Alpen, Les Alpes, Le Alpi 1925-2014, The Alpine Journal 1969–2008: Institut für Computerlinguistik, Universität Zürich, 2015.
[2] Susanne Haaf: Integration von Text+Berg in das Deutschen Textarchiv. Vortrag im Rahmen des Text+Berg-Abschlussworkshops, 14./15.6.2018, Zürich. Folien.
[3] Jahrbuch des Schweizer Alpen-Clubs. Schweizer Alpen-Club (Hrsg.), Zürich. 1864. (Digitale Ausgabe, Institut für Computerlinguistik der Universität Zürich (CH), 2018). Text in DTAQ.
Das DTA-Basisformat (DTABf) ist nach einer grundlegenden Überarbeitung nun in neuem Gewand über die DTABf-Webseite zugänglich. Die DTABf-Dokumentation wurde in das Dokumentationsformat DITA überführt und ist nun als responsive Webseite auch auf mobilen Geräten gut lesbar. Sie ist zugänglich über die gewohnte Webadresse des DTA-Basisformats.
Das DTABf-Schema wurde mithilfe des Chaining-ODDs-Mechanismus der Text Encoding Initiative modularisiert und darauf aufbauend um ein eigenes Schema für Manuskripte ergänzt. Alle DTABf-ODDs und -Schemas sind zugänglich über die Seite: Schema und Dokumentation.
Am 21. und 22. November 2016 findet an der Bayerischen Akademie der Wissenschaften in München ein Workshop zum Thema "Digitale Editionen und Auszeichnungssprachen" statt. Das DTA wird dort mit einem Beitrag zum DTA-Basisformat vertreten sein.
Susanne Haaf, Alexander Geyken: Deutsches Textarchiv: TEI-XML anhand des DTA-Basisformats. Montag, 21. November 2016, 16:15 – 17:00.