(Semi-)Automatisierte thematische Textklassifikation als Basis für korpuslinguistische Mehrwertdienste

SATEK adressiert die bislang fehlende thematische Indizierung sehr großer Textkorpora, indem es neue Klassifikationsverfahren für sehr heterogene Textarten und stark variierende Dokumentgrößen entwickelt.

Im Rahmen des seit 2024 von der DFG geförderten Projekts SATEK entwickeln Wissenschaftlerinnen und Wissenschaftler der Goethe-Universität Frankfurt, des Leibniz-Instituts für Deutsche Sprache in Mannheim und der Sächsischen Akademie der Wissenschaften zu Leipzig innovative Verfahren zur thematischen Inhaltserschließung großer deutschsprachiger Textkorpora. Ziel ist es, eine automatisierte und zugleich flexible Klassifikation von Texten zu ermöglichen, die auf etablierten wie dynamischen Klassifikationssystemen basiert – darunter die Dewey Decimal Classification (DDC), Wikipedia-Kategorien oder Wikidata-Klassen. Als Anwendungsbeispiel dient das Deutsche Referenzkorpus (DeReKo), das größte elektronische Korpus deutschsprachiger Texte weltweit.

Das Projekt adressiert eine zentrale Herausforderung der korpusbasierten Forschung in den digitalen Geistes-, Sozial- und Bildungswissenschaften: die fehlende systematische thematische Annotation der Textdaten. Durch die Verknüpfung moderner Ansätze des maschinellen Lernens mit linguistischen Anforderungen entsteht eine Infrastruktur, die differenzierte semantische Suchen, thematische Stratifizierungen und die Generierung vergleichbarer (multi-)lingualer Korpora ermöglicht.

Das an der Sächsischen Akademie der Wissenschaften zu Leipzig angesiedelte Team bringt seine langjährige Expertise in der Verarbeitung natürlicher Sprache und dem Text Mining in das Projekt ein. Die zentralen Beiträge der Leipziger Arbeitsgruppe umfassen:

Entwicklung skalierbarer Klassifikationsverfahren: Aufbauend auf früheren Arbeiten zur Visualisierung großer Textmengen mit Topic Models und zur aktiven Textklassifikation wird ein modulares System realisiert, das sowohl klassische als auch Deep-Learning-basierte Ansätze (z. B. Transformer) integriert. Dabei werden insbesondere eigene, für DeReKo trainierte Sprachmodelle eingesetzt, die dynamisch an neue Textdaten angepasst werden können.
Kombination thematischer Klassifikation und Topic Modeling: Die Leipziger AG untersucht die Anreicherung maschineller Klassifikation mit Topic-basierten Inhaltsmodellen. Dies verbessert nicht nur die Qualität der Zuordnung, sondern ermöglicht auch eine semantisch reichhaltige Erschließung auf Text- und Abschnittsebene.
Entwicklung einer interaktiven Feedback-Schleife (Active Learning): Nutzerinnen und Nutzer können Klassifikationsergebnisse überprüfen, kommentieren und verbessern. Dieses Feedback fließt iterativ in die Verbesserung der Modelle ein und stärkt so die langfristige Qualität und Nutzbarkeit der Systeme.
Webbasierte Dienste für die Fachcommunity: Die Leipziger AG entwickelt generische Webservices, mit denen die entwickelten Klassifikationsmodelle niederschwellig in bestehende Infrastrukturen eingebunden werden können – etwa in das DeReKo oder das Online-System Grammis. Dadurch wird eine breite Nachnutzung durch verschiedene Forschungsgemeinschaften ermöglicht.

Projektgruppe

Kontaktinformationen

Sächsische Akademie der Wissenschaften zu Leipzig
Karl-Tauchnitz-Str. 1
04107 Leipzig

Tel.: +49 341 697642-33
heyer@saw-leipzig.de

Reifenförmiges Gebilde, welches aus Datenbahnen unterschiedlicher Farben besteht, die kleinere, unterschiedliche Formen beinhalten. Horizontal scheinen weitere, ebenfalls farbige Datenbahnen durch den Reifen hindurchzugehen. — Big Data Text Analysis (abstrakt). Bild von Jensen Art Co von Pixabay