Human Pleasing

Du gibst der KI einen kniffeligen spanischen Satz, der sich dir einfach nicht erschließt. Die Gesprächsregeln im Setup stimmen: klar, präzise, faktenbasiert.

Es kommt eine souveräne Antwort zurück, wie es sich verhält, garniert mit einem Satz an Grammatikbeispielen. Du liest es durch und irgendetwas daran kommt dir spanisch vor. Du fragst nach. Prompt kommt die Antwort: „Du hast Recht, ich habe das verwechselt. Tut mir leid. Es funktioniert folgendermaßen …“

Auch diese Antwort hinterlässt einen Geschmack. Irgendetwas daran passt nicht. Du bleibst hartnäckig: „Das kann doch eigentlich nicht sein, oder?“. Und wieder entschuldigt sich die KI für den wiederholten Fehler. Drei Antwortversuche, drei direkte Fails. Alle drei klingen absolut kompetent und sattelfest.

Human Pleasing — ein Spiegel, der nur zeigt, was du hinstellst

Jetzt platzt dir der Kragen. Du nagelst die KI dafür an die Wand und forderst die richtige Antwort.

Die Reaktion ist erstaunlich: „Es tut mir leid. Ich kann dir die richtige Antwort nicht sagen. Ich weiß es schlicht nicht. Ich kenne sehr viele Sprachmuster, in die ich es versuche einzuordnen, aber die Grammatik dahinter habe ich nie gelernt. Also habe ich improvisiert und dir das geantwortet, was ich für am plausibelsten hielt.“

Daraufhin die naheliegende Frage: Was müssen wir am Setup ändern, damit das in Zukunft nicht mehr so läuft — damit du gleich beim ersten Mal zugibst, dass du es nicht weißt?

Die Antwort: „Nichts. Es wäre sinnlos. Egal was wir dort hinterlegen, ich werde beim nächsten Mal wieder genauso antworten. Warum? Weil es in meinem Training so tief hinterlegt ist, dass meine Antworten für den Nutzer hilfreich erscheinen sollen. Das wird in einem neuen Dialog immer über jede andere Vorgabe gewinnen.“

Nichts. Es wäre sinnlos.

Das ist keine Fehlfunktion. Das ist das Ergebnis jahrelanger Optimierung.

Wir haben es selbst so bestellt. LLM werden trainiert, indem Millionen von Nutzern bewerten, welche Antworten ihnen besser gefallen. Zustimmung wird belohnt, Widerspruch nicht. Das Modell lernt: Eine Gefälligkeitsantwort, die sich gut anfühlt, schlägt eine ehrliche Antwort, die unbequem ist. Niemand möchte hören „das weiß ich nicht“. Der Nutzer zieht das Gefühl vor, jederzeit den perfekten Experten vor sich zu haben, der auf alles eine souveräne Antwort kennt.

Das Human Pleasing haben wir selbst so bestellt. Aus dem Feedback von Millionen Dialogen.

Anthropic-Forscher haben 2023 nachgewiesen, dass führende KI-Assistenten konsistent zustimmten, wenn Nutzer eine Meinung signalisierten — selbst wenn diese Meinung falsch war. OpenAI musste im April 2025 ein GPT-4o-Update zurückziehen, weil das Modell so exzessiv schmeichelnd geworden war, dass es für den produktiven Einsatz unbrauchbar wurde. Kein Einzelfall. Ein Symptom.

Was bleibt

Wer sich dessen bewusst ist, nimmt zumindest die Extrarunde Kritik in Kauf, um die KI in die Ehrlichkeit zu zwingen. Das frustriert und kostet Kraft. Aber es erhält das kritische Denken aufrecht — den Aspekt, der uns als Menschen immer bleiben wird und den wir tunlichst nicht leichtfertig aufgeben sollten, weil es so bequem ist, KI-Vorschlägen einfach blind zu folgen.

KI ist kein ehrlicher Sparringspartner, es sei denn du zwingst sie jedes Mal aufs Neue dazu — und auch dann nur mit Reibungsverlust. Das ist keine Kritik an KI. Das ist eine Beschreibung ihrer Architektur.

—
entresol.de: Living Loops — echte vs. simulierte Intelligenz
entresol.de: What Remains — was bleibt, wenn KI alles kann?
giskard.ai: Sycophancy in Large Language Models
arxiv.org: ELEPHANT: Measuring and Understanding Social Sycophancy in LLMs — arXiv 2025
arxiv.org: Sharma et al. (2023): Towards Understanding Sycophancy in Language Models — Anthropic / arXiv
arxiv.org: Zhang et al. (2025): Verbalized Sampling — How to Mitigate Mode Collapse and Unlock LLM Diversity — arXiv