Sie sind hier: Startseite / Projekte / (Semi-)Automatisierte thematische Textklassifikation als Basis für korpuslinguistische Mehrwertdienste

(Semi-)Automatisierte thematische Textklassifikation als Basis für korpuslinguistische Mehrwertdienste

Sächsische Akademie der Wissenschaften zu Leipzig
Karl-Tauchnitz-Str. 1
04107 Leipzig

Tel.: +49 341 697642-33

Big Data Text Analysis (abstrakt). Bild von Jensen Art Co von Pixabay

Im Rahmen des seit 2024 von der DFG geförderten Projekts SATEK entwickeln Wissenschaftlerinnen und Wissenschaftler der Goethe-Universität Frankfurt, des Leibniz-Instituts für Deutsche Sprache in Mannheim und der Sächsischen Akademie der Wissenschaften zu Leipzig innovative Verfahren zur thematischen Inhaltserschließung großer deutschsprachiger Textkorpora. Ziel ist es, eine automatisierte und zugleich flexible Klassifikation von Texten zu ermöglichen, die auf etablierten wie dynamischen Klassifikationssystemen basiert – darunter die Dewey Decimal Classification (DDC), Wikipedia-Kategorien oder Wikidata-Klassen. Als Anwendungsbeispiel dient das Deutsche Referenzkorpus (DeReKo), das größte elektronische Korpus deutschsprachiger Texte weltweit.

Das Projekt adressiert eine zentrale Herausforderung der korpusbasierten Forschung in den digitalen Geistes-, Sozial- und Bildungswissenschaften: die fehlende systematische thematische Annotation der Textdaten. Durch die Verknüpfung moderner Ansätze des maschinellen Lernens mit linguistischen Anforderungen entsteht eine Infrastruktur, die differenzierte semantische Suchen, thematische Stratifizierungen und die Generierung vergleichbarer (multi-)lingualer Korpora ermöglicht.

Das an der Sächsischen Akademie der Wissenschaften zu Leipzig angesiedelte Team bringt seine langjährige Expertise in der Verarbeitung natürlicher Sprache und dem Text Mining in das Projekt ein. Die zentralen Beiträge der Leipziger Arbeitsgruppe umfassen:

  • Entwicklung skalierbarer Klassifikationsverfahren: Aufbauend auf früheren Arbeiten zur Visualisierung großer Textmengen mit Topic Models und zur aktiven Textklassifikation wird ein modulares System realisiert, das sowohl klassische als auch Deep-Learning-basierte Ansätze (z. B. Transformer) integriert. Dabei werden insbesondere eigene, für DeReKo trainierte Sprachmodelle eingesetzt, die dynamisch an neue Textdaten angepasst werden können.
  • Kombination thematischer Klassifikation und Topic Modeling: Die Leipziger AG untersucht die Anreicherung maschineller Klassifikation mit Topic-basierten Inhaltsmodellen. Dies verbessert nicht nur die Qualität der Zuordnung, sondern ermöglicht auch eine semantisch reichhaltige Erschließung auf Text- und Abschnittsebene.
  • Entwicklung einer interaktiven Feedback-Schleife (Active Learning): Nutzerinnen und Nutzer können Klassifikationsergebnisse überprüfen, kommentieren und verbessern. Dieses Feedback fließt iterativ in die Verbesserung der Modelle ein und stärkt so die langfristige Qualität und Nutzbarkeit der Systeme.
  • Webbasierte Dienste für die Fachcommunity: Die Leipziger AG entwickelt generische Webservices, mit denen die entwickelten Klassifikationsmodelle niederschwellig in bestehende Infrastrukturen eingebunden werden können – etwa in das DeReKo oder das Online-System Grammis. Dadurch wird eine breite Nachnutzung durch verschiedene Forschungsgemeinschaften ermöglicht.

Gefördert durch die Deutsche Forschungsgemeinschaft (DFG) - 531750631

Projektgruppe

  1. Gerhard Heyer, Prof. Dr. [Projektleiter]
  2. Uwe Kretschmer, Mag. art. [Projektleiter]
  3. Erik Körner, M.Sc. [Wissenschaftlicher Mitarbeiter]
Akademienprogramm Gesamt

Übersicht über alle laufenden Forschungsprojekte im Akademienprogramm:
www.akademienunion.de

Zum AGATE-Portal, Forschungsinformationssystem der Wissenschaftsakademien:
https://agate.academy/

Termine
Common European Values for Assessment of Modern Technological Innovations in Medicine and Beyond 15.07.2025 - 16.07.2025 — Tschechische Akademie der Wissenschaften, Narodni 3, 110 00 Prague
Die Inschriften der Stadt Görlitz 10.10.2025 18:00 - 19:30 — Görlitzer Barockhaus, Neißstraße 30, Johannes-Wüsten-Saal, 02826 Görlitz
Festveranstaltung zum Projektauftakt: Sankt Marien zu Helfta. Ein Kloster in den Netzwerken seiner Zeit (13. bis 16. Jahrhundert) 14.10.2025 17:00 - 18:30 — Kulturhistorisches Museum Magdeburg. Kaiser-Otto-Saal, Otto-von-Guericke-Straße 68-73, 39104 Magdeburg
Ein Abend mit dem Bausoldaten-Projekt – Präsentation und Podiumsgespräch 15.10.2025 17:00 - 21:00 — Sächsische Akademie der Wissenschaften zu Leipzig, Karl-Tauchnitz-Straße 1, 04107 Leipzig
... darf man das? 23.10.2025 19:00 - 20:30 — Sächsische Akademie der Wissenschaften zu Leipzig, Karl-Tauchnitz-Straße 1, 04107 Leipzig
Kamingespräch zum Thema Wissenschaftsfreiheit mit Armin Willingmann 24.10.2025 19:30 - 21:00 — Sächsische Akademie der Wissenschaften zu Leipzig, Karl-Tauchnitz-Straße 1, 04107 Leipzig
Abwasserreinigung im Wandel der Zeit. Neue Herausforderungen und neue Wege 03.11.2025 10:00 - 16:30 — Sächsische Akademie der Wissenschaften zu Leipzig, Karl-Tauchnitz-Straße 1, 04107 Leipzig
Denkströme

Denkströme IconDas Open Access (Online-)Journal der Sächsischen Akademie der Wissenschaften:

www.denkstroeme.de

Diffusion Fundamentals

Diffusion Fundamentals IconInterdisziplinäres Online Journal für Diffusionstheorie in Kooperation mit der Universität Leipzig:
diffusion.uni-leipzig.de

Internationale Konferenzreihe:
saw-leipzig.de/diffusion