Sie sind hier: Startseite / Projekte / (Semi-)Automatisierte thematische Textklassifikation als Basis für korpuslinguistische Mehrwertdienste

(Semi-)Automatisierte thematische Textklassifikation als Basis für korpuslinguistische Mehrwertdienste

Sächsische Akademie der Wissenschaften zu Leipzig
Karl-Tauchnitz-Str. 1
04107 Leipzig

Tel.: +49 341 697642-33

Big Data Text Analysis (abstrakt). Bild von Jensen Art Co von Pixabay

Im Rahmen des seit 2024 von der DFG geförderten Projekts SATEK entwickeln Wissenschaftlerinnen und Wissenschaftler der Goethe-Universität Frankfurt, des Leibniz-Instituts für Deutsche Sprache in Mannheim und der Sächsischen Akademie der Wissenschaften zu Leipzig innovative Verfahren zur thematischen Inhaltserschließung großer deutschsprachiger Textkorpora. Ziel ist es, eine automatisierte und zugleich flexible Klassifikation von Texten zu ermöglichen, die auf etablierten wie dynamischen Klassifikationssystemen basiert – darunter die Dewey Decimal Classification (DDC), Wikipedia-Kategorien oder Wikidata-Klassen. Als Anwendungsbeispiel dient das Deutsche Referenzkorpus (DeReKo), das größte elektronische Korpus deutschsprachiger Texte weltweit.

Das Projekt adressiert eine zentrale Herausforderung der korpusbasierten Forschung in den digitalen Geistes-, Sozial- und Bildungswissenschaften: die fehlende systematische thematische Annotation der Textdaten. Durch die Verknüpfung moderner Ansätze des maschinellen Lernens mit linguistischen Anforderungen entsteht eine Infrastruktur, die differenzierte semantische Suchen, thematische Stratifizierungen und die Generierung vergleichbarer (multi-)lingualer Korpora ermöglicht.

Das an der Sächsischen Akademie der Wissenschaften zu Leipzig angesiedelte Team bringt seine langjährige Expertise in der Verarbeitung natürlicher Sprache und dem Text Mining in das Projekt ein. Die zentralen Beiträge der Leipziger Arbeitsgruppe umfassen:

  • Entwicklung skalierbarer Klassifikationsverfahren: Aufbauend auf früheren Arbeiten zur Visualisierung großer Textmengen mit Topic Models und zur aktiven Textklassifikation wird ein modulares System realisiert, das sowohl klassische als auch Deep-Learning-basierte Ansätze (z. B. Transformer) integriert. Dabei werden insbesondere eigene, für DeReKo trainierte Sprachmodelle eingesetzt, die dynamisch an neue Textdaten angepasst werden können.
  • Kombination thematischer Klassifikation und Topic Modeling: Die Leipziger AG untersucht die Anreicherung maschineller Klassifikation mit Topic-basierten Inhaltsmodellen. Dies verbessert nicht nur die Qualität der Zuordnung, sondern ermöglicht auch eine semantisch reichhaltige Erschließung auf Text- und Abschnittsebene.
  • Entwicklung einer interaktiven Feedback-Schleife (Active Learning): Nutzerinnen und Nutzer können Klassifikationsergebnisse überprüfen, kommentieren und verbessern. Dieses Feedback fließt iterativ in die Verbesserung der Modelle ein und stärkt so die langfristige Qualität und Nutzbarkeit der Systeme.
  • Webbasierte Dienste für die Fachcommunity: Die Leipziger AG entwickelt generische Webservices, mit denen die entwickelten Klassifikationsmodelle niederschwellig in bestehende Infrastrukturen eingebunden werden können – etwa in das DeReKo oder das Online-System Grammis. Dadurch wird eine breite Nachnutzung durch verschiedene Forschungsgemeinschaften ermöglicht.

Gefördert durch die Deutsche Forschungsgemeinschaft (DFG) - 531750631

Projektgruppe

  1. Gerhard Heyer, Prof. Dr. [Projektleiter]
  2. Uwe Kretschmer, Mag. art. [Projektleiter]
  3. Erik Körner, M.Sc. [Wissenschaftlicher Mitarbeiter]
Akademienprogramm Gesamt

Übersicht über alle laufenden Forschungsprojekte im Akademienprogramm:
www.akademienunion.de

Zum AGATE-Portal, Forschungsinformationssystem der Wissenschaftsakademien:
https://agate.academy/

Termine
Jacobi und Hegel – Internationale Tagung 16.06.2025 - 18.06.2025 — Ruhr-Universität Bochum, Universitätsstraße 150, 44801 Bochum, Veranstaltungszentrum, Saal 1 im Mensagebäude auf dem Campus der RUB
Avihai Shivtiel (Leeds): Jews and Muslims relations as reflected in the Cairo Genizah documents 17.06.2025 17:00 - 20:00 — Sächsische Akademie der Wissenschaften zu Leipzig, Karl-Tauchnitz-Straße 1, 04107 Leipzig
DIKUSA-Abschlusskonferenz 15.12.2025 - 16.12.2025 — Sächsische Akademie der Wissenschaften zu Leipzig, Karl-Tauchnitz-Straße 1, 04107 Leipzig
Denkströme

Denkströme IconDas Open Access (Online-)Journal der Sächsischen Akademie der Wissenschaften:

www.denkstroeme.de

Diffusion Fundamentals

Diffusion Fundamentals IconInterdisziplinäres Online Journal für Diffusionstheorie in Kooperation mit der Universität Leipzig:
diffusion.uni-leipzig.de

Internationale Konferenzreihe:
saw-leipzig.de/diffusion