MultiHTR - Multilinguale Handschriftenerkennung

Sie sind hier:   Projektbeschreibung

Projektbeschreibung

Projektlaufzeit: 01.06.2020 - 31.05.2022

Das Vorhaben möchte die jüngsten Fortschritte im Bereich der Handschriftenerkennung (Handwritten Text Recognition, HTR, basierend auf KI, Neuronalen Netzen) systematisch weiterentwickeln, die zugrundeliegenden Technologien und damit einhergehende Probleme kritisch reflektieren und diese zum Wohle der Bevölkerung einsetzen. Konkret geht es um die Entwicklung von Handschriftenerkennungsmodellen, bezogen auf das Deutsche und auch auf für Deutschland/Baden-Württemberg relevante Migrationssprachen wie Russisch, Serbisch (bzw. Bosnisch, Kroatisch, Montenegrinisch), (Osmanisch-)Türkisch oder Arabisch. Diese Handschriftenmodelle sollen mithilfe von KI trainiert werden und zur automatischen Entschlüsselung von Archivmaterialien, Egodokumenten oder Korrespondenz eingesetzt werden. Die so automatisch entschlüsselten Texte werden einerseits als Datenbasis für die geisteswissenschaftliche Grundlagenforschung genutzt – bspw. für Analysen mikrohistorischer, diskursanalytischer oder soziolinguistischer Fragestellungen –, andererseits kommen die Ergebnisse direkt der Bevölkerung zugute. Denn diese werden damit in die Position versetzt, komplexe, mehrsprachige, biographisch oder identitätsbezogen relevante Dokumente ohne paläographische Kenntnisse zu rezipieren. Während des Modelltrainings und der Transkription durch die Modelle werden permanent typische biases des Trainings Neuronaler Netze wie im konkreten Fall v.a. hyperkorrekte, also falsche Lesarten von Nonstandard-Schreibungen reflektiert, dokumentiert und ggfs. korrigiert. Hierfür ist die geisteswissenschaftliche Perspektive, insbesondere diejenige kleiner Fächer, dringend erforderlich. Die Kenntnis und Darstellung solcher biases stellen über den konkreten Einzelfall hinaus wichtiges Orientierungswissen zum verantwortlichen Umgang mit KI auch in anderen Anwendungsbereichen dar.

Das Projekt wird gefördert vom Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg aus Mitteln der Landesdigitalisierungsstrategie digital@bw.

 

Powered by CMSimple| Template: ge-webdesign.de| Login