Was sind Sprachmodelle und wie funktionieren sie?

Sprachmodelle sind in den letzten Jahren zu einer grundlegenden Infrastruktur der Wissensproduktion geworden – in Agenturen, privaten Forschungsinstituten oder in der Hochschule. Sie schreiben Texte, beantworten Fragen und sind längst fester Bestandteil wissenschaftlicher und anderweitig wissensproduzierender Arbeit. Gerade bei Studierenden und Doktorand:innen wird das Schreiben zusammen mit KI immer beliebter, und auch manche Profs sind inzwischen nicht abgeneigt und offen für Experimente mit KI, sofern sie kritisch reflektiert werden.

Doch was genau sind Sprachmodelle – und wie funktionieren sie? Eine differenzierte Antwort ist wichtig, um Chancen und Grenzen ihres Einsatzes für Forschungsaufgaben realistisch einzuschätzen.

Sprachmodelle sind rechenintensive Generalisten

Die gängigen großen Sprachmodelle (Large Language Models, LLMs), die wie GPT-5 oder Mistral Texte produzieren, sind Generalisten. Sie wurden auf riesigen Datenmengen trainiert – Bücher, Webseiten, wissenschaftliche Paper oder verschriftlichten Videos. Gekonnt eingesetzt, verfügen sie dadurch über eine erstaunliche sprachliche Bandbreite.

Technisch beruhen sie auf sogenannten Transformern, einer seit 2017 dominierenden KI-Architektur. Das Kernprinzip ist die sogenannte „Self-Attention“: Das Modell berechnet, welche Wörter in einem Textabschnitt in welchem Verhältnis zueinander stehen. So lassen sich auch über längere Passagen Abhängigkeiten zwischen Wörtern berücksichtigen, die frühere Verfahren wie n-Gramme oder einfache neuronale Netze kaum erfassen konnten. Durch das Prinzip der “Self-Attention” benötigen Sprachmodelle, die so leistungsfähig sind, dass sie wissenschaftlich tragfähige Texte produzieren können, sehr viel Rechenpower. Diese kann im Moment oft nur von großen Rechenzentren bereitgestellt werden.

Das Ergebnis ist jedoch solide: Sprachmodelle können Texte verfassen, die kohärent und sprachlich flüssig wirken. Allerdings stoßen diese Generalisten Grenzen, wenn sie eine komplexe Aufgabe wie das Anfertigen einer Interpretation nach der Grounded Theory oder der dokumentarischen Methode bekommen, aber nicht genügend Informationen dazu, wie sie diese Aufgabe ganz konkret lösen sollen.

Sprachmodelle sind Wahrscheinlichkeitsmaschinen

Trotz ihrer scheinbaren Intelligenz „verstehen“ Sprachmodelle nämlich nicht im menschlichen Sinne. Sie berechnen Wahrscheinlichkeiten: Welches Wort folgt mit der größten Wahrscheinlichkeit auf das vorherige? Grundlage ist das Training, bei dem Milliarden von Parametern innerhalb des Modells so angepasst werden, dass sie die Muster der Trainingsdaten reproduzieren.

Das bedeutet: Ein Satz wie „Das ist …“ wird mit hoher Wahrscheinlichkeit mit einem generischen Wort wie „gut“ oder „interessant“ fortgeführt, weil diese Wortfolgen in den Trainingsdaten besonders häufig vorkommen. Diese Arbeitsweise erklärt, warum Sprachmodelle oft „oberflächlich“ wirken: Sie reproduzieren erlernte Sprachmuster. Bender et al. (2021) haben sie daher als „stochastic parrots“ bezeichnet – stochastische Papageien, die scheinbar Sinnvolles sagen, aber letztlich nur Wahrscheinlichkeiten neu kombinieren. Das bedeutet, dass präzisere, kontextspezifische Texte  nur entstehen, wenn das Modell genau diese Muster bereits gelernt hat und diese beim Prompting auch “angezapft” werden.

Sozialforschungs-Generalisten mit Lücken

Inzwischen enthalten die Trainingsdaten großer Sprachmodelle viele sozialwissenschaftliche Texte. Das bedeutet, dass die Modelle mittlerweile Sprachmuster, die in sozialwissenschaftlichen Texten vorkommen, erlernt haben. Sie sind innerhalb weniger Jahre zu Sozialforschungs-Generalisten geworden.

Dennoch bleiben gerade für die qualitative Forschung Lücken bestehen. Ob eine spezifische eine Methode, Theorie oder eine lokale Diskurstradition Eingang in die Trainingsdaten gefunden hat, hängt von mehreren Faktoren ab:

  • Ökonomisch-politische Interessen: KI-Unternehmen oder öffentliche KI-Entwicklungsakteure entscheiden nach strategischen Zielen, welche Daten sie als Trainingsmaterial verwenden, nicht nach den speziellen Bedarfen der Sozialforschung.
  • Aufbereitungskosten: Nicht jedes digital verfügbare Textmaterial lässt sich mit vertretbarem Aufwand zu Trainingsdaten verarbeiten.
  • Digitalisierung: Mittlerweile wurden zwar enorm viele Texte digitalisiert. Doch es gibt immer noch Lücken – manche Texte könnten schlicht deswegen im Trainingsmaterial fehlen, weil sie noch gar nicht digital vorliegen. Dies könnte vor allem ältere Grundlagentexte betreffen.

Für Forschende heißt das: Je spezialisierter eine Methode ist und je weniger eine Denktradition im digitalen Forschungsdiskurs vertreten ist, desto unwahrscheinlicher ist es, dass textgenerative KIs Sprachmuster verinnerlicht haben, durch die sie dazu passende Texte produzieren können. Das betrifft auch aktuelle Entwicklungen, die man als Vorlage für das eigene Vorgehen nutzen möchte – etwa neue Studien, in denen Methoden innovativ eingesetzt oder weiterentwickelt werden, und die gerade erst in den Diskurs eingeflossen sind.

Der Grund: Sprachmodelle können zwischen zwei Trainingszyklen nicht selbstständig weiterlernen. Ihre Texte sind daher stets vergangenheitsbezogen. Deshalb „halluzinieren“ sie häufig, wenn sie zu ganz aktuellen Ereignissen befragt werden – es sei denn, man stellt ihnen während der Nutzung zusätzliche Informationen bereit.

Die gute Nachricht ist: Forschende sind diesen Grenzen nicht einfach ausgeliefert. Wer Sprachmodelle präzise anleitet, kann sie gezielt zu wertvollen Werkzeugen machen. Diese Fähigkeit nennt man Kontextvermittlung – und sie wird zum Schlüssel für den produktiven Einsatz in der qualitativen Forschung.