Was haben ein Elefant und ChatGPT gemeinsam?

Wenn Sie heute jemanden fragen, wie ChatGPT funktioniert, bekommen Sie eine von zwei Antworten. Entweder: „Das ist ein statistisches Modell, das die Wahrscheinlichkeitsverteilung des nächsten Tokens auf Basis gelernter Parameter berechnet." Oder: „Das ist eine KI, die alles weiß." Beides ist falsch — das eine zu technisch, das andere zu naiv. Hier ist eine Erklärung, die weder noch ist.

Stellen Sie sich einen Elefanten vor. Einen sehr großen, sehr alten Elefanten, der in einer gewaltigen Landschaft steht. Dieser Elefant ist das Sprachmodell. Und die Landschaft, in der er sich bewegt, ist alles, was er je gelesen hat — das Internet, Bücher, Forschungsarbeiten, Foren, Anleitungen, Gesetze, Gespräche. Nicht als Text gespeichert, sondern als Terrain. Hügel, Täler, Pfade, Abgründe. Jeder Ort in dieser Landschaft entspricht einer Bedeutung.

Der Guide auf dem Rücken

Bevor Sie mit dem Elefanten sprechen können, braucht er einen Guide. Der Guide sitzt auf dem Rücken des Elefanten und übersetzt Ihre Frage. Nicht wörtlich — der Elefant versteht weder Deutsch noch Englisch. Er navigiert eine Landschaft aus Bedeutungen. Der Guide nimmt Ihre Worte, wandelt sie in Koordinaten um und zeigt dem Elefanten die Richtung.

In der Fachsprache heißt dieser Vorgang Encoding. Der Guide ist das, was Entwickler den System Prompt nennen — die Anweisung, die dem Modell sagt, in welcher Rolle es antworten soll, welchen Ton es treffen soll, welche Grenzen gelten. Wenn Sie ChatGPT öffnen und eine Frage stellen, hat der Guide seine Arbeit bereits getan, bevor Sie den ersten Buchstaben tippen. Er hat dem Elefanten gesagt: Du bist ein hilfreicher Assistent. Antworte höflich. Gib keine gefährlichen Anweisungen.

Das erklärt, warum dasselbe Modell sich völlig unterschiedlich verhalten kann, je nachdem, welcher Guide auf seinem Rücken sitzt. Der Elefant ist derselbe. Die Richtung, in die er geschickt wird, nicht.

Die Bedeutungslandschaft

Jetzt zur Landschaft selbst. Sie ist nicht zufällig. Ähnliche Konzepte liegen nah beieinander. „Vertrag" und „Vereinbarung" stehen fast am selben Ort. „Vertrag" und „Elefant" liegen weit auseinander — es sei denn, jemand hat einen Vertrag über einen Elefanten geschrieben, dann gibt es einen schmalen Pfad zwischen den beiden.

In der Informatik nennt man diesen Raum den semantischen Raum. Das Modell hat ihn nicht programmiert bekommen. Es hat ihn sich selbst erschlossen, indem es Milliarden von Sätzen gelesen und dabei gelernt hat, welche Wörter in welchen Kontexten gemeinsam auftreten. Das Ergebnis ist eine Art Karte menschlichen Wissens — nicht perfekt, nicht vollständig, aber erstaunlich brauchbar.

Wichtig ist: Der Elefant weiß nichts. Er hat keine Fakten gespeichert wie eine Datenbank. Er hat Beziehungen gelernt. Er kennt nicht das Ergebnis von 47 mal 83, aber er kennt die Nachbarschaft, in der Multiplikationsaufgaben und ihre Lösungen liegen. Manchmal findet er den richtigen Ort, manchmal landet er daneben.

Mehrere Augenpaare

Nun hat dieser Elefant eine ungewöhnliche Eigenschaft: Er schaut nicht in eine Richtung. Er hat Dutzende Augenpaare, die gleichzeitig verschiedene Teile der Landschaft beobachten. Während ein Augenpaar auf das Wort „Bank" schaut, prüft ein anderes, ob im Kontext von Finanzen oder Parkbänken die Rede ist. Ein drittes beachtet, dass der Satz eine Frage war. Ein viertes registriert den formellen Ton.

Dieses Prinzip heißt Attention — Aufmerksamkeit. Es ist der Grund, warum Sprachmodelle nicht einfach Wort für Wort lesen, sondern Zusammenhänge über ganze Absätze hinweg erfassen. Die vielen Augenpaare bemerken Verbindungen, die ein einzelnes Augenpaar übersehen würde. Es ist auch der Grund, warum diese Modelle so viel Rechenleistung brauchen: Jedes Augenpaar muss bei jedem Schritt die gesamte bisherige Eingabe berücksichtigen.

Der Guide springt ab

Jetzt passiert etwas Entscheidendes. Nachdem der Guide die Richtung vorgegeben hat, springt er ab. Der Elefant läuft allein. Er macht einen Schritt — ein Wort. Dann schaut er sich um, bewertet die Landschaft neu und macht den nächsten Schritt. Und den nächsten. Jeder Schritt bestimmt die Richtung des folgenden.

Das nennt man Autoregression. Das Modell plant keinen ganzen Satz im Voraus. Es erzeugt ein Wort, fügt es zum bisherigen Text hinzu und berechnet dann das wahrscheinlichste nächste Wort. Dann wieder. Und wieder. Die Antwort, die Sie auf dem Bildschirm sehen, entsteht so, wie der Elefant läuft: Schritt für Schritt, ohne Karte, ohne Ziel — nur mit einem trainierten Gespür dafür, wohin der nächste Schritt führen sollte.

Das erklärt auch, warum Sprachmodelle manchmal mitten im Satz die Richtung wechseln. Der Elefant hat einen Pfad eingeschlagen, der plausibel begann, aber in eine Sackgasse führte. Da er nicht zurückgehen kann, biegt er ab — und die Antwort wird inkonsistent.

Die Abenteuerlust

Manchmal nimmt der Elefant den offensichtlichen Weg — den breiten, ausgetretenen Pfad, den tausend Texte vor ihm geebnet haben. Manchmal weicht er ab, nimmt einen Trampelpfad, landet an einem unerwarteten Ort. Wie abenteuerlustig er ist, lässt sich einstellen.

Der technische Begriff dafür ist Temperature. Eine niedrige Temperature bedeutet: Der Elefant nimmt immer den wahrscheinlichsten nächsten Schritt. Das Ergebnis ist vorhersehbar, zuverlässig, manchmal langweilig. Eine hohe Temperature bedeutet: Er traut sich etwas. Das Ergebnis ist kreativer, überraschender — aber er kann sich auch verlaufen. Wer ein Gedicht will, dreht die Temperature hoch. Wer eine Steuererklärung braucht, dreht sie runter.

Erst erkunden, dann antworten

Nun gibt es einen Trick, der die Qualität der Antworten deutlich verbessert. Statt den Elefanten sofort losgehen zu lassen, sagt man ihm: Erkunde erst die Gegend. Schau dich um. Denk laut nach. Und dann erst gib deine Antwort.

Das ist Chain of Thought — eine Methode, bei der das Modell seinen Denkprozess sichtbar macht, bevor es zum Ergebnis kommt. Der Effekt ist messbar: Bei komplexen Aufgaben — Logik, Mathematik, mehrstufige Analysen — steigt die Trefferquote erheblich, wenn das Modell die Landschaft erst erkunden darf, statt direkt zum nächstbesten Punkt zu laufen. Es ist, als ob der Elefant erst einen Hügel besteigt, die Umgebung überblickt und sich dann für den besten Weg entscheidet.

In der Praxis heißt das: Wenn Sie einem Sprachmodell eine schwierige Frage stellen, formulieren Sie die Anweisung so, dass es seinen Denkweg zeigen soll. „Erkläre Schritt für Schritt" ist nicht nur eine Floskel — es verändert die Route, die der Elefant nimmt.

Kein Orakel, kein Suchmotor

Wenn Sie das Bild des Elefanten im Kopf behalten, wird vieles klarer. ChatGPT ist kein Orakel, das die Wahrheit kennt. Es ist auch kein Suchmotor, der Informationen nachschlägt. Es ist ein Elefant, der gelernt hat, sich in einer Landschaft aus Bedeutungen zu bewegen. Er findet Wege, die oft richtig sind — weil er die Landschaft gut kennt. Aber er folgt keiner Logik im menschlichen Sinn. Er folgt dem Gelände.

Das bedeutet: Er ist beeindruckend gut in allem, was mit Sprache, Zusammenhängen und Mustern zu tun hat. Und er ist überraschend schlecht in allem, was exakte Fakten, aktuelle Daten oder mathematische Beweise erfordert. Nicht weil er dumm ist, sondern weil seine Landschaft keine Fakten enthält — nur Nachbarschaften.

Wer versteht, wie der Elefant läuft, stellt bessere Fragen — an das Modell und an die Leute, die es verkaufen wollen.

Im nächsten Beitrag: Warum der häufigste Vorwurf an diesen Elefanten auf einem Missverständnis beruht.