Projektbeschreibung

Projektlaufzeit (Phase 2): 01.06.2022 - 31.05.2024

Die erfolgreiche Projektarbeit der Phase 1 wird fortgesetzt. Im MWK-geförderten Programm „Kleine Fächer und KI“ setzt das MultiHTR-Team weiterhin die jüngsten Fortschritte im Bereich der Handschriftenerkennung (Handwritten Text Recognition, HTR) zum Wohle der Bevölkerung ein. Dabei sollen einerseits mithilfe von KI verstärkt ‚smarte‘ Handschriftenerkennungsmodelle für bislang nicht berücksichtigte Sprachen bzw. Schriften trainiert werden, die den Zugang zu ansonsten für die meisten Nutzer*innen nicht zugänglichen komplexen handschriftlichen Materialien erst ermöglichen. Andererseits soll verstärkt der Vergleich mit anderen Prozessen, in denen KI eine Rolle spielt, angestellt werden, um mögliche systematische Biases von KI und eine angemessene Reaktion darauf zu eruieren. Mit beiden Zielen soll die Bevölkerung unmittelbar von den Fähigkeiten von KI profitieren.

Die zweite Projektphase enthält drei Schwerpunkte. Der erste Schwerpunkt liegt in der (Weiter-)Entwicklung von Stenographie-Modellen, mit denen Steno-Dokumente des Deutschen Tagebucharchivs und auch anderer Provenienz transkribiert werden sollen, so dass die Projektergebnisse direkt der Öffentlichkeit zugutekommen. Zudem sollen in Kooperation mit weiteren Partnereinrichtungen Dokumente in hebräischem Alphabet transkribiert werden, wofür in der zweiten Phase HTR-Modelle erstellt und trainiert werden. Diese Dokumente werden den Nachkommen der betroffenen Personen sowie der Öffentlichkeit zur Verfügung gestellt, wodurch die Bevölkerung in Baden-Württemberg und darüber hinaus unmittelbar profitieren kann. Die dritte Komponente ist das Ukrainische. Hierzu soll ebenfalls ein HTR-Modell erstellt werden, was eine effizientere Erschließung ukrainischssprachiger Archivbestände ermöglichen wird. Zusätzlich zu den drei Schwerpunkten sollen auch die Osmanisch-Türkisch- und Russisch-Modelle weiterentwicklet werden.

Projektlaufzeit (Phase 1): 01.06.2020 - 31.05.2022

Das Vorhaben möchte die jüngsten Fortschritte im Bereich der Handschriftenerkennung (Handwritten Text Recognition, HTR, basierend auf KI, Neuronalen Netzen) systematisch weiterentwickeln, die zugrundeliegenden Technologien und damit einhergehende Probleme kritisch reflektieren und diese zum Wohle der Bevölkerung einsetzen.

Konkret geht es um die Entwicklung von Handschriftenerkennungsmodellen, bezogen auf das Deutsche und auch auf für Deutschland/Baden-Württemberg relevante Migrationssprachen wie Russisch, Serbisch (bzw. Bosnisch, Kroatisch, Montenegrinisch), (Osmanisch-)Türkisch oder Arabisch. Diese Handschriftenmodelle sollen mithilfe von KI trainiert werden und zur automatischen Entschlüsselung von Archivmaterialien, Egodokumenten oder Korrespondenz eingesetzt werden. Die so automatisch entschlüsselten Texte werden einerseits als Datenbasis für die geisteswissenschaftliche Grundlagenforschung genutzt – bspw. für Analysen mikrohistorischer, diskursanalytischer oder soziolinguistischer Fragestellungen –, andererseits kommen die Ergebnisse direkt der Bevölkerung zugute. Denn diese werden damit in die Position versetzt, komplexe, mehrsprachige, biographisch oder identitätsbezogen relevante Dokumente ohne paläographische Kenntnisse zu rezipieren. Während des Modelltrainings und der Transkription durch die Modelle werden permanent typische biases des Trainings Neuronaler Netze wie im konkreten Fall v.a. hyperkorrekte, also falsche Lesarten von Nonstandard-Schreibungen reflektiert, dokumentiert und ggfs. korrigiert. Hierfür ist die geisteswissenschaftliche Perspektive, insbesondere diejenige kleiner Fächer, dringend erforderlich. Die Kenntnis und Darstellung solcher biases stellen über den konkreten Einzelfall hinaus wichtiges Orientierungswissen zum verantwortlichen Umgang mit KI auch in anderen Anwendungsbereichen dar.

Das Projekt wird gefördert vom Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg aus Mitteln der Landesdigitalisierungsstrategie digital@bw.