Az Apple kijózanító véleménye az MI-ről: Pillantás a „gondolkodás illúziójára”
A mesterséges intelligenciát övező felhajtás közepette szinte naponta halljuk, hogy már csak egy karnyújtásnyira vagyunk az általános mesterséges intelligenciától (AGI). De mi van, ha a mai modellek valójában nem is gondolkodnak, csak rendkívül ügyesen utánozzák azt?

Az Apple két friss, nagy port kavart tanulmánya éppen ezt a kényelmetlen kérdést veti fel, komolyan megkérdőjelezve a jelenlegi MI-fejlesztések alapjait. Kutatásaik arra utalnak, hogy a lenyűgöző teljesítmény mögött valójában a „gondolkodás illúziója” rejtőzhet. Nézzük meg, mire jutottak, és miért fontos ez mindannyiunk számára.
Ezek a 2024-ben és 2025-ben közzétett tanulmányok heves vitát váltottak ki, mivel azt sugallják, hogy a mesterséges intelligencia lenyűgöző képességei talán inkább egy kifinomult illúziónak, mint valódi intelligenciának tekinthetők. Nézzük meg, mire jutottak.
GSM-Symbolic: Amikor az MI megbukik az alapvető matematikából
Az első komoly kihívás egy 2024-es, „GSM-Symbolic” című tanulmányban érkezett. Iman Mirzadeh és Mehrdad Farajtabar kutatók vezetésével a csapat egy új teljesítménymérési módszert (benchmarkot) hozott létre, hogy teszteljék, a nagy nyelvi modellek (LLM-ek) mennyire jól kezelik a matematikai érvelést. Ahelyett, hogy csak azt vizsgálták volna, hogy egy modell képes-e a helyes választ adni, azt tesztelték, mennyire robusztus az érvelése.
Az eredmények sokatmondóak voltak:
- Törékeny logika: A modellek teljesítménye jelentősen visszaesett, amikor a kutatók csupán a számokat változtatták meg egy szöveges feladatban, miközben a mögöttes matematikai logikát érintetlenül hagyták. Egy modell, amely meg tudta oldani a „2+3” feladatot, elbukhatott, ha ugyanabban a szövegkörnyezetben a „4+5” megoldását kérték tőle.
- Könnyen megzavarható: Amikor egyetlen, látszólag releváns, de valójában haszontalan információt adtak a problémához, az összes vezető MI-modell teljesítménye zuhanórepülésbe kezdett – egyes esetekben akár 65%-kal is csökkent.
- A legfőbb következtetés: A tanulmány erősen arra utalt, hogy ezek a modellek nem végeznek valódi logikai érvelést. Ehelyett rendkívül fejlett mintafelismerést folytatnak, lényegében a tanítási adataikból ismert problémastruktúrákat keresik a megoldás megtalálásához.
Ez volt az első jele annak, hogy valami nincs rendben a motorháztető alatt. De az igazi vitát a következő tanulmány robbantotta ki.
„A gondolkodás illúziója”: Amikor az MI falba ütközik
2025 júniusában egy „The Illusion of Thinking” (A gondolkodás illúziója) című tanulmány, Parshin Shojaee és Iman Mirzadeh vezetésével, még egy lépéssel tovább vitte ezt a vizsgálatot. A csapat úgynevezett „nagy érvelési modelleket” (LRM-eket) tesztelt – amelyeket kifejezetten komplex problémamegoldásra terveztek – egy sor klasszikus, állítható nehézségű logikai fejtörővel, többek között:
- Hanoi tornyai
- Folyóátkeléses probléma
- Dámajáték-ugrások
- Kockavilág (Blocks World)
Az eredmények megdöbbentőek voltak.
- A „pontossági szakadék”: A modellek jól teljesítettek a rejtvények egyszerűbb változataiban. Ahogy azonban növelték a komplexitást, a teljesítményük nem fokozatosan romlott, hanem mintha egy szikláról zuhant volna le: drámaian, nullára esett a pontosságuk.
- Paradox skálázódás: Ami még furcsább, hogy a nehezebb problémákkal szembesülve a modellek gyakran kevesebb számítási lépést (vagy „gondolkodási” tokent) használtak. Mintha az MI, felismerve, hogy egy feladat meghaladja a képességeit, egyszerűen „feladta” volna, ahelyett, hogy jobban próbálkozott volna.
- Három teljesítmény-rezsim: A kutatók három különböző zónát azonosítottak. Alacsony komplexitásnál néha a standard LLM-ek teljesítettek jobban. Közepes komplexitásnál a specializált LRM-ek voltak előnyben. De magas komplexitásnál minden egyes modell teljesen megbukott.
A kutatók következtetése nyers és erőteljes volt: ezek a modellek a „formális érvelés illúzióját” keltik, de valójában a mintafelismerés egy törékeny formáját végzik, amelyet akár egy név megváltoztatása is tönkretehet egy feladványban.
A vita és az Apple motivációja
Természetesen ezek az eredmények nem maradtak kritika nélkül. A tudományos közösségben élénk vita bontakozott ki. Egyes kritikusok, mint például Alex Lawsen egy „A gondolkodás illúziójának illúziója” című válaszában, azzal érveltek, hogy a kísérleti elrendezés hibái – például a folyóátkeléses probléma megoldhatatlan verzióinak használata vagy a modelleket feladásra kényszerítő token-korlátok – okozták a kudarcot, nem pedig a modellek alapvető hiányosságai.
Ez a tudományos adok-kapok egészséges és szükséges. De érdemes a kontextust is figyelembe venni. Az Apple lemaradásban van az MI-versenyben. Míg versenytársai szárnyaltak az MI-boomnak köszönhetően, az Apple óvatosabban haladt előre. Olyan kutatások publikálása, amelyek a jelenlegi uralkodó megközelítés alapvető gyengeségeire világítanak rá, stratégiai lépés lehet a narratíva átformálására, azzal érvelve, hogy egy lassabb, megfontoltabb út bölcsebb, mint a jelenlegi „a méret a lényeg” filozófia.
Mit jelent ez az MI jövőjére nézve?
Az Apple kutatásainak következményei mélyrehatóak, és kényelmetlen kérdésekkel szembesítenek minket:
- Lehetséges a valódi érvelés? A jelenlegi LLM-architektúrák alapvetően képtelenek a valódi, általánosított érvelésre, függetlenül attól, mekkorára nőnek?
- A skálázási törvények vége? Ez a kutatás megkérdőjelezi az uralkodó „skálázási törvényt” – azt az elképzelést, hogy pusztán több adat és nagyobb számítási kapacitás hozzáadása elkerülhetetlenül nagyobb intelligenciához vezet.
- Innovációra van szükség: Ha a jelenlegi módszereknek kemény korlátjaik vannak, akkor az AGI eléréséhez teljesen új architekturális újításokra lehet szükség a mai MI-ket működtető transzformer modelleken túl.
Az Apple kutatása nem állítja, hogy az MI haszontalan; eszközként való ereje vitathatatlan. Ugyanakkor egy kijózanító és bizonyítékokon alapuló ellen-narratívát kínál a szüntelen felhajtással szemben. Azt sugallja, hogy a valóban intelligens gépekhez vezető út talán nem egy egyenesen felfelé ívelő pálya, hanem lehet, hogy vissza kell térnünk a tervezőasztalhoz.