Sind Sprachmodelle nur ein besseres T9? Ein nicht-technischer Blick auf die Belege

Hier eine Meinung, die ich schon mehr als einmal laut ausgesprochen habe, meist recht selbstsicher: Die Chatbots, über die alle staunen, sind im Grunde ein besseres T9. Du erinnerst dich an T9, die Worterkennung auf alten Handys, bei der du die Zifferntasten gedrückt hast und es das Wort erraten hat. Das Argument geht so: Ein Sprachmodell ist derselbe Trick, nur riesig. Es hat einen gewaltigen Berg Text gelesen, und im Kern tut es nichts anderes, als immer wieder das nächste Wort zu erraten, sehr überzeugend. Kein Verstehen, kein Denken, nur eine sehr teure Autovervollständigung.

Es ist eine befriedigende Überzeugung. Sie stutzt eine überhypte Technik auf ein erträgliches Maß zurecht, und sie hat einen wahren Kern. Aber "befriedigend" und "wahr" sind nicht dasselbe Wort, und ich wollte keine Behauptung weiterverbreiten, die ich nie wirklich überprüft hatte. Also habe ich die Forschung gelesen, gezielt auf der Suche nach den Belegen, die mich widerlegen würden, denn das ist die einzige ehrliche Art, eine liebgewonnene Meinung zu testen. Das hier habe ich gefunden.

Zuerst, was T9 tatsächlich war, denn der Vergleich bedeutet nur etwas, wenn wir beiden Seiten gerecht werden. T9 wurde in den 1990ern von einer Firma namens Tegic patentiert. Mechanisch ist es einfach: Du drückst eine Tastenfolge, und die Software schlägt diese Folge in einem festen, mitgelieferten Wörterbuch nach und zeigt dir die Treffer in der Reihenfolge ihrer Häufigkeit. Das ist die ganze Idee. Es lernt die Sprache nicht. Es weiß nicht, was ein Satz bedeutet. Es ist eine Nachschlagetabelle mit angeschraubtem Häufigkeitszähler. Das Patent selbst beschreibt "ein vollständiges Wörterbuch mit der Schreibweise aller Wörter, die ein Nutzer vernünftigerweise eingeben könnte", dargestellt "in der Reihenfolge abnehmender Verwendungshäufigkeit". [1]

Animation einer Telefontastatur: Die Tastenfolge 4-6-6-3 wird gedrückt, und das Wörterbuch bietet die Wörter good, home, gone und hood an und entscheidet sich für good als das häufigste. — So funktionierte T9: Dieselbe Tastenfolge (4-6-6-3) passt auf mehrere Wörter, und das Wörterbuch bietet sie nach Häufigkeit sortiert an. Kein Verstehen, nur Nachschlagen. Animation von Ramazan Yavuz.

Wenn also jemand sagt, ein Sprachmodell sei "nur T9", dann lautet die strenge Fassung dieser Behauptung: Es sei eine Nachschlagetabelle, die gespeicherte Wörter wiederkäut. Und genau dieser Teil beschreibt nicht, wie ein Sprachmodell funktioniert. Es gibt kein Wörterbuch aus Sätzen darin, in dem man etwas nachschlagen könnte. Aber es gibt eine abgeschwächte, interessantere Version der Behauptung, und die sollte man ernst nehmen.

Die stärkste faire Version meiner eigenen Meinung lautet so. Ein Sprachmodell wird tatsächlich darauf trainiert, genau eine eng umrissene Aufgabe zu erfüllen: das nächste Stück Text vorherzusagen. Ingenieure füttern es mit riesigen Textmengen und belohnen es immer wieder dafür, das verdeckte nächste Wort zu erraten. Das ist das gesamte Trainingsziel. Die berühmte GPT-2-Arbeit von 2019 legt die Mathematik schlicht offen: Das Modell lernt die Wahrscheinlichkeit jedes nächsten Textstücks, gegeben alles davor. [2] Auf der Ebene "Was soll es tun?" ist der Autovervollständigungs-Vergleich also keine Beleidigung. Es ist die wörtliche Stellenbeschreibung.

Und es gibt auch eine angesehene akademische Fassung meiner Skepsis. 2021 veröffentlichte eine Gruppe bekannter Forscherinnen und Forscher, angeführt von Emily Bender und Timnit Gebru, eine Arbeit, die der Idee ihren Spitznamen gab: der stochastische Papagei. Ihre Definition ist ein Zitat wert, denn sie ist fast genau mein T9-Satz, nur wissenschaftlicher formuliert. Ein Sprachmodell, schrieben sie, sei "ein System, das Folgen sprachlicher Formen, die es in seinen riesigen Trainingsdaten beobachtet hat, willkürlich zusammenfügt, gemäß probabilistischer Information darüber, wie sie sich kombinieren, aber ohne jeden Bezug zur Bedeutung". [3] Sie argumentieren, der Text sei "nicht verankert in kommunikativer Absicht, in irgendeinem Modell der Welt oder in irgendeinem Modell des Geisteszustands der lesenden Person", und der Sinn, den er ergibt, sei etwas, das der menschliche Leser beisteuert, nicht die Maschine. Das ist eine ernsthafte, vielzitierte Position, und sie steht klar auf meiner Seite.

xkcd 1838: Eine Strichfigur beschreibt ein Machine-Learning-System als einen großen Haufen lineare Algebra, in den man Daten kippt und auf der anderen Seite Antworten herausholt; wenn die Antworten falsch sind, rührt man den Haufen einfach um, bis sie richtig aussehen. — Die Intuition "es ist doch nur Statistik", als Witz gezeichnet. Der Witz funktioniert, weil ein echter Wahrheitskern darin steckt. Die Frage ist, ob es die ganze Wahrheit ist.Comic: xkcd 1838, „Machine Learning“ von Randall Munroe (CC BY-NC 2.5).

Das Argument wird noch stärker, denn Sprachmodelle tun, was T9 nie tat: Sie produzieren selbstbewusst Text, der flüssig, plausibel und vollständig falsch ist. Forscher nennen das Konfabulation, und 2024 veröffentlichte ein Team eine Nachweismethode dafür in der Zeitschrift Nature. Ihre Beschreibung ist fast komisch: Wenn eines dieser Modelle konfabuliert, "erfindet es etwas ohne Grund", und man kann es ertappen, weil es oft eine andere erfundene Antwort liefert, wenn man dieselbe Frage mit anderer Zufallsauswahl noch einmal stellt. [4] Das ist keine seltene Laborkuriosität. Auf einem reproduzierbaren Branchen-Benchmark, der prüft, ob ein Modell bei den Fakten eines ihm vorgelegten Dokuments bleibt, erfinden die besseren Modelle in unter vier Prozent der Fälle nicht gestützte Aussagen, während einige schwächere das in über zwanzig Prozent der Fälle tun. [5] (Das sind vom Anbieter gemessene Momentaufnahmen aus dem Mai 2026, von Software statt von Menschen beurteilt, also als grober Anhaltspunkt zu verstehen, nicht als Heilige Schrift.)

Und reale Menschen haben die Folgen zu spüren bekommen. In einem Gerichtsverfahren in New York 2023 reichten zwei Anwälte einen Schriftsatz voller Gerichtsentscheidungen ein, die es nicht gab. Sie hatten ChatGPT um stützende Fälle gebeten, und es lieferte sie: überzeugende Namen, plausible Zitate, das ganze Programm. Das einzige Problem war, dass die Fälle erfunden waren. Der Richter verhängte ein Bußgeld gegen die Anwälte und merkte an, dass sie die erfundenen Entscheidungen sogar noch verteidigt hatten, nachdem ihre Existenz in Frage gestellt worden war. [6] Ein Werkzeug, das einer Fachkraft mit ernster Miene sieben fiktive Gerichtsfälle reichen kann, verhält sich in diesem Moment genau wie ein Papagei, der gelernt hat, wie ein Anwalt zu klingen. Bis hierher hält meine Meinung gut stand.

Jetzt der Teil, der mich auf die Bremse treten ließ. Der Satz "nur T9" setzt stillschweigend voraus, dass das Ergebnis einfach sein muss, weil die Trainingsaufgabe einfach ist. An dieser Voraussetzung zerbricht er, und der klarste Beleg ist ein Experiment ausgerechnet über das Brettspiel Othello.

Eine Forschergruppe trainierte ein Modell auf nichts als Folgen legaler Othello-Züge. Es bekam die Regeln nie gesagt. Es sah nie ein Brett. Es sagte immer nur den nächsten Zug voraus, die reinste denkbare Version von "besserer Autovervollständigung". Dann schauten sie hinein und fanden, dass es ganz von selbst ein inneres Bild des Bretts aufgebaut hatte: wo die Steine standen und wer am Zug war. Sie konnten sogar hineingreifen, dieses innere Bild verändern und beobachten, wie sich die Vorhersagen des Modells entsprechend mitänderten. Ihre Arbeit trägt passenderweise den Titel "Emergent World Representations" und berichtet von "Belegen für eine emergente nichtlineare interne Repräsentation des Brettzustands". [7] Ein System, das nur den nächsten Zug vorhersagen sollte, baute ein Modell der Welt, um besser vorherzusagen. T9 brauchte nie ein Modell von irgendetwas, denn ein Wort im Wörterbuch nachzuschlagen erfordert kein Verstehen. Bei diesem Modell war das anders.

Dieselbe Überraschung zeigt sich im normalen Gebrauch. Je größer diese Modelle wurden, desto mehr begannen sie, Aufgaben zu erledigen, für die niemand sie trainiert hatte. Von GPT-3, dem Modell aus dem Jahr 2020, aus dessen Entwicklungslinie später das erste ChatGPT hervorging, wurde gezeigt, dass es brandneue Aufgaben allein aus ein paar Beispielen erledigt, die man in die Eingabe tippt, ganz ohne Neutraining. [8] Du kannst ihm eine nie gesehene Aufgabe geben, ihm zwei Beispiele zeigen, und es folgt dem Muster. Die Worterkennung deines Handys kann keine neue Aufgabe aus zwei Beispielen im Chatfeld lernen. Sie tut für immer dasselbe. Was auch immer in den größeren Modellen vor sich geht, eine "feste Nachschlagetabelle" ist es nicht.

Hier muss die ehrliche Antwort auch zugeben, dass die Wissenschaft noch mit sich selbst streitet, denn ich will nicht eine allzu saubere Geschichte durch die nächste ersetzen. Es gibt eine wirklich offene Debatte über diese überraschenden neuen Fähigkeiten, oft emergente Fähigkeiten genannt. Eine einflussreiche Arbeit von 2022 argumentierte, sie tauchten bei wachsender Größe plötzlich auf und ließen sich aus kleineren Modellen nicht vorhersagen. [9] Eine Arbeit von 2023 widersprach deutlich und argumentierte, ein großer Teil dieser scheinbaren Plötzlichkeit sei eine Illusion, erzeugt durch die Art, wie wir die Tests bewerten: Misst man dieselbe Fähigkeit auf einer feiner abgestuften Skala, glättet sich der Sprung zu einem stetigen, vorhersagbaren Anstieg. [10] Beide Arbeiten stammen von ernstzunehmenden Forschern, und die Sache ist nicht entschieden. Wenn dir also jemand, in welche Richtung auch immer, erzählt, die Frage nach maschinellem "Verstehen" sei geklärt, dann geht er über die Belege hinaus.

Balkendiagramm in logarithmischer Skala, das das Wachstum der Sprachmodellgröße von 340 Millionen Parametern (BERT, 2019) auf 1,57 Billionen (Switch-C, 2021) zeigt, eine etwa 4.600-fache Zunahme in rund drei Jahren. — Die Größe ist der Teil, den niemand bestreitet. Die Modelle wurden in wenigen Jahren tausendfach größer, und ihr Verhalten änderte sich mit ihnen. Die Daten wurden unverändert aus Tabelle 1 von Bender et al., der "Stochastic Parrots"-Arbeit, übernommen [3]; Diagramm von Ramazan Yavuz.

Was heißt das nun für meinen Lieblingssatz? Teils bestätigt, teils in Rente geschickt. Hier ist das Urteil, das ich nun vertreten würde, und es ist ein gemischtes.

Mein Instinkt hatte recht beim Ziel. Diese Systeme werden tatsächlich darauf trainiert, das nächste Stück Text vorherzusagen, und sie produzieren tatsächlich selbstbewussten Unsinn, wenn diese Vorhersage danebengeht, auf eine Weise, die ein nachdenklicher Mensch nicht täte. Wer über KI redet, als wüsste sie Dinge so, wie eine menschliche Fachperson es tut, übersieht etwas Reales, und die Fraktion der stochastischen Papageien hat recht damit, immer wieder darauf hinzuweisen.

Aber mein Instinkt hatte unrecht beim Mechanismus und den Folgen. "Besseres T9" schmuggelt die Vorstellung einer Nachschlagetabelle herein, und so funktionieren diese Systeme nicht. Ein System, das nur auf Vorhersage trainiert ist, kann bei ausreichender Größe innere Strukturen aufbauen, die stark nach einem Modell seiner kleinen Welt aussehen, und kann sich Aufgaben erschließen, die ihm nie gezeigt wurden. Das ist kategorisch mehr, als T9 je tat, und etwas anderes zu behaupten ist eine eigene Art von Unehrlichkeit. Der wahrhaftige Satz ist länger und weniger zitierfähig als mein alter: Es sind Nächstes-Wort-Vorhersager, die beim Vorhersagen genug lernen, um im Inneren überraschende Mechanismen aufzubauen, und wir streiten noch darüber, was diese Mechanismen genau bedeuten.

Und das ist, denke ich, der Punkt, an dem man sinnvollerweise landen kann. Nicht "es ist doch nur Autovervollständigung, entspann dich", und nicht "es versteht, staune". Etwas Sorgfältigeres und Interessanteres: ein Werkzeug, das in den Punkten, die seine Kritiker beschreiben, wirklich flach ist, und in den Punkten, die seine Kritiker übersehen, wirklich überraschend, und gerade deshalb wert, verstanden zu werden, weil beides zugleich zutrifft. Ich behalte den Witz. Ich höre nur auf, so zu tun, als wäre er die ganze Geschichte.

Quellen