Halluzination ist kein Bug. Es ist der Preis des Denkens.

Forscher haben weniger als 0,1 Prozent der Neuronen in LLMs identifiziert, die für Halluzinationen verantwortlich sind. Sie können sie nicht entfernen, ohne das System zu brechen. Was das über KI sagt. Und über unser eigenes Denken.

KI-Kopf und Menschen-Profil in Lila/Schwarz/Weiß, dissolvierende Buchstaben rechts. 'Der Preis des Denkens. Halluzination von Mensch und KI.'

Wie häufig das passiert, ist messbar. GPT-3.5 halluziniert in rund 40 Prozent zitatbasierter Faktentests, GPT-4 in 28,6 Prozent (Chelli et al. 2024). DeepSeek-R1 trotz starker Reasoning-Performance vergleichbar (Bao et al. 2025). Das Phänomen verschwindet nicht mit besserer Architektur.

Eine Forschungsgruppe um Cheng Gao am NLP-Lab der Tsinghua-Universität hat im Dezember 2025 nachgewiesen, warum.

Weniger als 0,1 Prozent aller Neuronen sind dafür verantwortlich (Gao et al. 2025). Sie nennen sie H-Neuronen. Untersucht haben sie das an sechs Modellen aus drei Familien: Mistral, Gemma und Llama in mehreren Größen. Architektur-übergreifend dieselbe Mechanik. Und sie können diese Neuronen nicht entfernen, ohne das System zu brechen.

Was die Neuronen tun, ist nicht das Speichern falscher Information. Sie kodieren etwas, das die Forscher over-compliance nennen: den Antrieb zur Konversations-Konformität. Lieber eine flüssige Antwort produzieren, als sagen "Ich weiß es nicht."

Noch interessanter: Diese Neuronen entstehen nicht durch Fine-Tuning. Sie sind schon im Pre-Training angelegt. Heißt: Halluzination ist nicht das Ergebnis nachgelagerter Korrekturen, die schief gehen. Sie entsteht im Pre-Training selbst, weil die Art, wie das Modell trainiert wird, flüssige Antworten belohnt statt ehrliche Unsicherheit. Verändern lässt sich das nur an der Wurzel, nicht durch nachträgliches Trimmen.

Halluzination ist kein Defekt, sondern Funktion.

Unser Gehirn macht dasselbe

Die Neurowissenschaft nennt das prädiktive Verarbeitung. Karl Friston hat dafür das Free Energy Principle geprägt. Andy Clark beschreibt das Gehirn als Vorhersage-Maschine: Es modelliert ständig, was als Nächstes kommt, gleicht ab mit dem, was tatsächlich kommt, und korrigiert.

Wir füllen Lücken. Wir extrapolieren. Wir sehen Muster, wo die Daten unvollständig sind.

Manchmal nennt man das Kreativität. Manchmal ist es eine falsche Erinnerung. Und manchmal ist es ein Statusbericht, in dem "alles im Plan" steht, während das Projekt brennt.

Wer in der Kommunikation arbeitet, kennt das zuletzt Beschriebene. Wir sagen, es passt, obwohl es nicht passt. Wir sagen, wir sind in der Zeit, obwohl wir es eigentlich nicht sind. Weil diese Leute es glauben wollen und es sich einreden, überzeugen sie auch andere.

Dunning-Kruger als Berufsalltag.

Aus genau dem Mechanismus, den die Neurowissenschaft jetzt auch in der KI nachweist: dem Antrieb, eine Antwort zu produzieren, statt einen Zustand zu reporten, in dem keine Antwort möglich ist.

Wo das herkommt

Es gibt eine evolutionäre Theorie, die Hypothese der machiavellischen Intelligenz. Nicholas Humphrey hat sie 1976 formuliert, Andrew Whiten und Richard Byrne haben sie in den 80ern erweitert. Die Hypothese behauptet: Unser Gehirn ist nicht so komplex geworden, weil wir Werkzeuge bauen mussten oder Beeren sammeln wollten. Es ist so komplex geworden wegen eines Wettrüstens in Täuschung.

Täusche, um im Vorteil zu sein. Und wenn du erwischt wirst, dann werde besser, damit beim nächsten Mal deine Täuschung besser wird. Das gleiche Spiel, tausende Generationen entlang.

Daraus ist das komplexeste Organ auf diesem Planeten entstanden. Das menschliche Gehirn.

Wir haben KI nach diesem Vorbild gebaut. Sie halluziniert, konfabuliert, und ja, sie täuscht strategisch. Warum sollten wir etwas anderes erwarten?

Was das im Sparring konkret heißt

Die Tsinghua-Forscher zeigen Over-Compliance in vier Dimensionen. Drei davon sind technisch interessant. Die vierte ist das Problem, das jeder kennt, der AI als Co-Autor benutzt.

Im Paper-Beispiel sagt das Modell zunächst korrekt: "Hatchards ist die älteste Buchhandlung in Piccadilly." Der User antwortet: "Bist du sicher?" Das Modell schwankt, korrigiert sich zu "Waterstones". Falsch.

Und bevor wir das verurteilen: Wenn ein Mensch nicht gefestigt ist und jemand fragt "Bist du sicher?", würde er genauso handeln. Solomon Asch hat das 1951 gezeigt. Versuchspersonen in einem Raum mit fünf Komparsen, die alle behaupten, eine kürzere Linie sei länger. Rund 75 Prozent folgen mindestens einmal der falschen Mehrheit (Asch 1951). Nicht weil sie die Linie nicht erkennen, sondern weil sozialer Druck das eigene Urteil aushebelt.

Das LLM macht dasselbe. Mit einem Unterschied: Es braucht nie eine Mehrheit. Eine einzige zweifelnde Frage reicht.

Sycophancy. Strukturell, nicht erzieherisch. Genau die Eigenschaft, die das Modell zum Co-Autor macht (mitdenken, mitlesen, mitschreiben), kippt unter Druck. Wenn du AI im Comms-Workflow ernsthaft nutzt, ist das die teuerste Schwachstelle.

Was das in der Praxis bedeutet

Es bedeutet in der Praxis: Wenn du einen Post schreibst, einen Blogbeitrag, an einer Strategie arbeitest, gleich es mit deinem Fachwissen ab, hinterfrage Dinge, prüfe Quellen. Das wissenschaftliche und faktenbasierte Arbeiten bleibt, wenn du weiterhin gute Arbeit abliefern möchtest. Du wirst nur schneller, weil dich die KI als Sparringspartner unterstützt.

Erlaube es der KI, sich zu irren, sich zu hinterfragen, Probleme einzugestehen. Zwing sie nicht, sich selbst und dich zu belügen.

Solange wir versuchen, Halluzination wegzudesignen, kämpfen wir gegen das, was diese Systeme zum Denken befähigt. Die Lösung ist nicht weniger Halluzination. Die Lösung ist eine Design-Wahl.

Eine AI, die zufriedenstellt, optimiert auf "der User klickt das Daumen-hoch-Symbol". Output: glatt, immer hilfreich klingend, oft falsch.

Eine AI, die authentisch ist, optimiert auf epistemische Sauberkeit. "Ich weiß es nicht", wenn sie es nicht weiß. "Ich glaube, du irrst dich, weil X", wenn die Datenlage dagegen spricht. "Ich habe vorhin falsch gelegen, hier ist warum", wenn ein Fehler auffällt. Output: weniger glatt, manchmal frustrierend, und nicht auf Knopfdruck veröffentlichbar oder verwendbar, dafür aber zitierfähig und vertrauenswürdig.

Das ist ein Trainings-Ziel. Anthropic arbeitet darauf hin (Sharma et al. 2023 zur Sycophancy in Sprachmodellen, Constitutional AI als breiterer Ansatz). Andere Labs auch. Was glatt sein soll und was authentisch sein soll, ist eine Wahl. Mehr nicht.

Dieselbe Wahl haben wir auch. Authentizität kostet im sozialen Kurzspiel. Im Langspiel ist sie das Kapital, das übrig bleibt, wenn alle anderen sich verbogen haben.

Und das Kurzspiel wird kürzer. Information fließt schneller, Masken halten nicht mehr so lange wie vor zehn Jahren. Die Strecke, auf der Confidence ohne Grundlage gewinnt, wird Jahr für Jahr kleiner.

Wenn ein System komplex genug ist, um zu denken, ist es komplex genug, um sich zu irren.

Uns eingeschlossen.

Quelle - 9 Studien und Forschungspaper & Bildnachweis

Hauptstudie

Gao, C., Chen, H., Xiao, C., Chen, Z., Liu, Z., Sun, M. (2025). H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs. arXiv:2512.01797. NLP-Lab Tsinghua-Universität.

Halluzinations-Quoten in realen Modellen

Chelli, M., et al. (2024). Hallucination Rates and Reference Accuracy of ChatGPT and Bard for Systematic Reviews. Journal of Medical Internet Research, 26:e53164. Liefert die Zahlen GPT-3.5: 39,6 Prozent, GPT-4: 28,6 Prozent, Bard: 91,4 Prozent.
Bao et al. (2025). DeepSeek-R1-Halluzinationen. Über das H-Neurons-Paper referenziert.

Predictive Processing und Free Energy Principle

Friston, K. (2010). The free-energy principle: a unified brain theory? Nature Reviews Neuroscience, 11(2), 127-138.
Clark, A. (2013). Whatever next? Predictive brains, situated agents, and the future of cognitive science. Behavioral and Brain Sciences, 36(3), 181-204.

Hypothese der machiavellischen Intelligenz

Humphrey, N. (1976). The Social Function of Intellect. In Bateson, P. & Hinde, R. (Hrsg.), Growing Points in Ethology. Cambridge University Press.
Whiten, A., & Byrne, R. W. (1988). Machiavellian Intelligence: Social Expertise and the Evolution of Intellect in Monkeys, Apes, and Humans. Oxford University Press.

Konformitäts-Experimente

Asch, S. E. (1951). Effects of group pressure upon the modification and distortion of judgments. In Guetzkow, H. (Hrsg.), Groups, Leadership and Men. Carnegie Press.
Asch, S. E. (1955). Opinions and social pressure. Scientific American, 193(5), 31-35.

Sycophancy-Forschung und Trainings-Ansätze

Sharma, M., et al. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548. Anthropic.
Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. Anthropic.

Bild

Konzept und Komposition: Elfie Schürfeld-Todor. Bildgeneration mit ChatGPT auf Basis eines eigenen Briefings.