Ein Blick auf die „Illusion des Denkens“

Gábor Bíró 6. September 2025
4 Min. Lesezeit

Im unaufhaltsamen Hype um künstliche Intelligenz wird uns oft gesagt, dass wir auf dem besten Weg zu echter Künstlicher Allgemeiner Intelligenz (AGI) sind. Aber was, wenn die Triebkräfte, die uns dorthin bringen, gar nicht so leistungsstark sind, wie sie scheinen? In einer faszinierenden Wendung haben Forscher von Apple zwei Studien veröffentlicht, die als wichtiger Realitätscheck zum aktuellen Stand der KI dienen.

Ein Blick auf die „Illusion des Denkens“

Diese Studien haben eine intensive Debatte ausgelöst, da sie nahelegen, dass die beeindruckenden Fähigkeiten unserer Modelle eher eine raffinierte Illusion als echte Intelligenz sein könnten. Schauen wir uns genauer an, was sie herausgefunden haben und warum das wichtig ist.

GSM-Symbolic: Wenn KI an einfacher Mathematik scheitert

Die erste große Herausforderung wurde in einer Studie von 2024 mit dem Titel „GSM-Symbolic“ vorgestellt. Unter der Leitung der Forscher Iman Mirzadeh und Mehrdad Farajtabar erstellte das Team einen neuen Benchmark, um zu testen, wie gut Große Sprachmodelle (LLMs) mit mathematischem logischen Denken umgehen. Anstatt nur zu testen, ob ein Modell die richtige Antwort finden konnte, prüften sie, wie robust seine Schlussfolgerungen waren.

Die Ergebnisse waren aufschlussreich:

  • Anfällige Logik: Die Leistung der Modelle brach erheblich ein, als die Forscher nur die Zahlen in einer Textaufgabe änderten, während die zugrunde liegende mathematische Logik identisch blieb. Ein Modell, das „2+3“ lösen konnte, scheiterte möglicherweise bei der Aufgabe, „4+5“ im gleichen Story-Kontext zu lösen.
  • Leicht ablenkbar: Als eine einzelne, scheinbar relevante, aber letztlich nutzlose Information zu einem Problem hinzugefügt wurde, stürzte die Leistung aller führenden KI-Modelle ab – in einigen Fällen um bis zu 65 %.
  • Die zentrale Schlussfolgerung: Die Studie legte stark nahe, dass diese Modelle kein echtes logisches Denken durchführen. Stattdessen betreiben sie hochentwickelte Mustererkennung und suchen im Wesentlichen nach bekannten Problemstrukturen aus ihren Trainingsdaten, um eine Lösung zu finden.

Das war der erste Hinweis darauf, dass unter der Haube etwas nicht stimmte. Aber es war die Folgestudie, die die Diskussion wirklich erschütterte.

„Die Illusion des Denkens“: KI stößt an eine Grenze

Im Juni 2025 ging eine Studie mit dem Titel „The Illusion of Thinking“, angeführt von Parshin Shojaee und Iman Mirzadeh, noch einen Schritt weiter. Das Team testete sogenannte „Large Reasoning Models“ (LRMs) – Modelle, die speziell für komplexe Problemlösungen entwickelt wurden – anhand einer Reihe klassischer Logikrätsel mit anpassbarem Schwierigkeitsgrad, darunter:

  • Türme von Hanoi
  • Das Flussüberquerungs-Problem
  • Dame-Springen
  • Blockwelt

Die Ergebnisse waren schlichtweg verblüffend.

  1. Die „Genauigkeits-Klippe“: Bei einfacheren Versionen der Rätsel schnitten die Modelle gut ab. Doch als die Komplexität erhöht wurde, nahm ihre Leistung nicht allmählich ab, sondern stürzte wie von einer Klippe und fiel dramatisch auf null Genauigkeit.
  2. Paradoxe Skalierung: Noch bizarrer war, dass die Modelle bei schwierigeren Problemen oft weniger Rechenschritte (oder „Thinking Tokens“) verwendeten. Es war, als ob die KI einfach „aufgab“, anstatt sich mehr anzustrengen, sobald sie eine Herausforderung erkannte, die ihre Fähigkeiten überstieg.
  3. Drei Leistungsbereiche: Die Forscher identifizierten drei unterschiedliche Zonen. Bei geringer Komplexität schnitten Standard-LLMs manchmal besser ab. Bei mittlerer Komplexität waren die spezialisierten LRMs im Vorteil. Aber bei hoher Komplexität versagte jedes einzelne Modell vollständig.

Die Schlussfolgerung der Forscher war unverblümt und eindringlich: Diese Modelle erzeugen „die Illusion des formalen Denkens“, führen aber in Wirklichkeit eine anfällige Form der Mustererkennung durch, die durch etwas so Einfaches wie das Ändern eines Namens in einem Rätsel durchbrochen werden kann.

Die Debatte und Apples Motivation

Natürlich blieben diese Ergebnisse nicht unwidersprochen. Die wissenschaftliche Gemeinschaft führte eine rege Debatte. Einige Kritiker, wie Alex Lawsen in einer Antwort mit dem Titel „The Illusion of the Illusion of Thinking“, argumentierten, dass Fehler im experimentellen Aufbau – wie die Verwendung unlösbarer Versionen des Flussüberquerungs-Problems oder Token-Limits, die die Modelle zum Aufgeben zwangen – schuld seien, nicht ein grundlegender Fehler in den Modellen selbst.

Dieses wissenschaftliche Hin und Her ist gesund und notwendig. Aber es lohnt sich auch, den Kontext zu betrachten. Apple hatte im KI-Wettlauf Nachholbedarf. Während die Konkurrenz durch den KI-Boom einen Höhenflug erlebte, ist Apple vorsichtiger vorgegangen. Die Veröffentlichung von Forschung, die die grundlegenden Schwächen des derzeit dominanten Ansatzes hervorhebt, könnte ein strategischer Schachzug sein, um das Narrativ neu zu gestalten und zu argumentieren, dass ein langsamerer, überlegterer Weg klüger ist als die aktuelle „Scale is all you need“-Philosophie.

Was das für die Zukunft der KI bedeutet

Die Implikationen von Apples Forschung sind tiefgreifend und zwingen uns, uns unangenehmen Fragen zu stellen:

  • Ist echtes logisches Denken möglich? Sind die aktuellen LLM-Architekturen grundsätzlich unfähig, echtes, verallgemeinertes logisches Denken zu erreichen, egal wie groß sie werden?
  • Das Ende der Skalierungsgesetze? Diese Forschung sät Zweifel am vorherrschenden „Skalierungsgesetz“ – der Idee, dass das Hinzufügen von mehr Daten und mehr Rechenleistung zwangsläufig zu größerer Intelligenz führt.
  • Ein Ruf nach Innovation: Wenn die aktuellen Methoden eine feste Obergrenze haben, könnte das Erreichen von AGI völlig neue architektonische Innovationen erfordern, die über die Transformer-Modelle hinausgehen, die die heutige KI antreiben.

Apples Forschung behauptet nicht, dass KI nutzlos ist; ihre Macht als Werkzeug ist unbestreitbar. Sie liefert jedoch ein ernüchterndes und faktenbasiertes Gegennarrativ zum unaufhaltsamen Hype. Sie legt nahe, dass der Weg zu wirklich intelligenten Maschinen möglicherweise keine gerade Linie nach oben ist, sondern von uns verlangen könnte, noch einmal von vorne anzufangen.

Gábor Bíró 6. September 2025