Agyunk 86 milliárd neuronja: Felülmúlhatják az LLM-ek?

Bíró Gábor 2024. December 22.
17 perc olvasási idő

Az emberi agy, ez a komplex biológiai rendszer, évmilliók evolúciója során tökéletesedett, míg a nagyméretű nyelvi modellek (LLM-ek) a mesterséges intelligencia legújabb vívmányai. Bár az LLM-ek lenyűgöző képességeket mutatnak a nyelvfeldolgozás terén, vajon felülmúlhatják-e valaha az emberi agy komplexitását és képességeit? Megvizsgálom az agy és az LLM-ek működésének alapvető aspektusait, összehasonlítom a két rendszert, és megpróbálok rávílágítani a hasonlóságokra és a fundamentális különbségekre.

Agyunk 86 milliárd neuronja: Felülmúlhatják az LLM-ek?
Forrás: Saját szerkesztés

Az emberi agyat gyakran tartják az emlősök legkognitívabb képességekkel rendelkező agyának, és mérete is jóval nagyobbnak tűnik annál, amit testméretünk alapján várnánk. A neuronok száma általánosan elfogadottan kulcsszerepet játszik az agy számítási kapacitásában, ám a közkeletű állítás, miszerint az emberi agy 100 milliárd neuront és tízszer annyi gliasejtet tartalmaz, tudományosan soha nem lett megerősítve. Valójában az emberi agy neuron- és gliasejtjeinek pontos száma eddig ismeretlen volt.

A legújabb eredmények szerint egy átlagos felnőtt férfi agyában 86,1 ± 8,1 milliárd neuron található, míg az úgynevezett nem-neuronális sejtek száma 84,6 ± 9,8 milliárd. Érdekes módon a neuronok mindössze 19%-a található az agykéregben, annak ellenére, hogy az agykéreg az emberi agy tömegének 82%-át teszi ki. Ez azt jelenti, hogy az emberi agy megnövekedett kéregmérete nem jár együtt az agykérgi neuronok arányának növekedésével.

A gliasejtek és neuronok aránya az emberi agy különböző régióiban hasonló a más főemlősökben megfigyelt értékekhez, és a sejtek száma megfelel egy emberméretű főemlősre számított értékeknek. Ezek az eredmények megkérdőjelezik azt a széles körben elterjedt nézetet, hogy az emberi agy különleges összetételű lenne más főemlősökéhez képest. Inkább arra utalnak, hogy az emberi agy az átlagos főemlős agy egy izometrikusan megnagyobbodott változata, tehát alapvetően az ember méretéhez igazított főemlősagy.

Ez a felismerés új nézőpontot ad, és arra késztet, hogy újragondoljuk, mi is teszi az emberi gondolkodást és kognitív képességeket valóban különlegessé. Ma azonban egy másik oldalról közelítem meg a kérdést: vajon összehasonlítható-e az agyunk a nagyméretű nyelvi modellekkel (LLM-ekkel), például a paraméterszám tekintetében? Vagy annak ellenére, hogy a mesterséges intelligencia kutatók és fejlesztők folyamatosan vizsgálják az agyunkat, és próbálják működését átültetni a mesterséges intelligencia rendszerekbe, mégis értelmetlen bármilyen összehasonlítás, már csak azért is, mert az egyik egy kémiai, a másik pedig egy elektronikai rendszer? Előtte viszont még néhány kapcsolódó ismeret.

Hogyan számolják meg a neuronokat?

A neuronok számának becslése igen trükkös feladat, hiszen az agy nem egységes felépítésű. Az egyik megoldás az, hogy egy adott agyterületen megszámolják a neuronokat, majd ezt az értéket extrapolálják az egész agyra. Ez azonban több problémát is felvet:

  1. Nem egyenletes eloszlás
    Az agy egyes részein a neuronok sűrűsége nagyon eltérő. Például a kisagyban (cerebellum), amely az agy alsó, hátsó részén helyezkedik el, található az összes neuron körülbelül fele, miközben térfogata jelentősen kisebb az agy többi részéhez képest. Ez azért van, mert a kisagy apró neuronjai a mozgáskoordináció és egyéb automatizált folyamatok finomhangolásáért felelősek. A már korábban említett agykéreg (cortex) - ami a magasabb rendű gondolkodásért felelős - nagyobb neuronokat tartalmaz, amelyek komplexebb hálózatokat alkotnak. Itt egy köbmilliméternyi térfogatban körülbelül 50,000 neuron található.

  2. A neuronok láthatósága
    A neuronok olyan sűrűn helyezkednek el és olyan bonyolultan összefonódnak, hogy nehéz őket külön-külön megszámolni. Egy klasszikus megoldás a Golgi-festés, amelyet Camillo Golgi fejlesztett ki. Ez a technika csak a neuronok egy kis részét (általában néhány százalékát) festi meg, így a többi sejt láthatatlan marad. Bár ez segít egy részletesebb mintát kapni, az eredmények extrapolációja továbbra is bizonytalanságokat hordoz magában.

A legújabb, pontosabb becslés egy innovatív technikán alapul. A kutatók feloldják az agysejtek membránjait, így egy homogén keveréket hoznak létre, amelyben az agysejtek magjai megkülönböztethetők. A sejtmagok különböző jelzőanyagokkal történő megfestése lehetővé teszi, hogy a neuronokat elkülönítsék az egyéb agysejtektől, például a gliasejtektől. Ez a módszer kiküszöböli az agyterületek közötti sűrűségi különbségekből adódó hibákat, és pontosabb eredményt ad az egész agyra vonatkozóan.

Bár az új technológia jelentősen csökkenti az eddigi becslések bizonytalanságát, a módszer még mindig extrapoláción alapul.

Hogyan működik az emberi agy?

Az agy alapvető építőelemei a neuronok, amiről mostmár tudjuk, hogy körülbelül 86 milliárd található egy felnőtt agyban. Ezek azonban nem egyformák - számos különböző típusú neuron létezik, amelyek más-más funkciókat látnak el. A neuronok mellett körülbelül ugyanennyi gliasejt is található az agyban, amelyek támogató funkciókat látnak el, például tápanyagellátást biztosítanak és részt vesznek az immunvédelemben.

A neuronok között található kapcsolatok, a szinapszisok teszik igazán különlegessé az agyat. Egy átlagos neuron körülbelül 7000 szinapszist létesít más neuronokkal, így összesen mintegy 600-1000 billió szinaptikus kapcsolat található az agyban. Ezek a kapcsolatok nem statikusak - folyamatosan változnak, erősödnek vagy gyengülnek a tanulási folyamatok során. Ezt nevezzük szinaptikus plaszticitásnak.

Neuron
Forrás: Wikipédia

Az agy különböző régiói specializálódtak bizonyos funkciókra (ahogy ezt már fentebb is érintettem). A nagyagy (cerebrum) a tudatos gondolkodás, érzékelés és mozgástervezés központja. A kisagy (cerebellum) a mozgáskoordináció és a procedurális tanulás fő területe. Az agytörzs az alapvető életfunkciókat szabályozza, míg a limbikus rendszer az érzelmi feldolgozásért és a memóriáért felelős.

Az információfeldolgozás az agyban párhuzamosan történik - különböző régiók egyidejűleg dolgoznak különböző feladatokon. Az információ továbbítása elektromos és kémiai jelek kombinációjával történik. Amikor egy neuron aktiválódik, elektromos impulzust (akciós potenciált) küld végig az axonján, ami a szinapszisokban neurotranszmitterek felszabadulását váltja ki. Ezek a kémiai anyagok aztán befolyásolják a következő neuron működését.

Az agy energiafelhasználása rendkívül hatékony - mindössze körülbelül 20 wattot fogyaszt, ami egy energiatakarékos izzó teljesítményének felel meg. Ennek ellenére az agy a test teljes energiafogyasztásának mintegy 20%-át használja fel (pedig testtömegünknek csak 2%-át teszi ki), ami mutatja, mennyire energiaigényes az információfeldolgozás.

Az agyi aktivitás nem csak neuronális szinten szerveződik. Különböző frekvenciájú agyhullámok (alfa, béta, théta, delta) figyelhetők meg, amelyek nagyobb neuroncsoportok összehangolt működését tükrözik. Ezek a ritmusok fontos szerepet játszanak például a memória konszolidációjában és a figyelmi folyamatokban.

Az agy egyik legfontosabb tulajdonsága a plaszticitása - képes átszervezni magát az élet során. Ez nem csak a tanulás alapja, hanem lehetővé teszi a sérülések utáni részleges regenerációt is. A neuroplaszticitás különböző mechanizmusokon keresztül valósul meg, például új szinapszisok képződésével, meglévő kapcsolatok erősödésével vagy gyengülésével, és bizonyos esetekben még új neuronok képződésével is (neurogenezis).

A modern kutatások azt mutatják, hogy az agy nem csak a központi idegrendszerrel áll kapcsolatban, hanem szoros kölcsönhatásban van a bélrendszerrel is (bél-agy tengely), és jelentős befolyással van rá az immunrendszer működése is. Ez az összetett kölcsönhatás-rendszer magyarázza, hogy miért van olyan nagy hatása például a táplálkozásnak vagy a stressznek a kognitív funkciókra.

A tudomány még mindig sok kérdéssel szembesül az agy működésével kapcsolatban. Például még nem értjük, hogyan alakul ki a tudat, vagy pontosan hogyan tárolódnak és hívódnak elő az emlékek. A folyamatban lévő nagy agykutatási projektek, mint például a Human Brain Project vagy a BRAIN Initiative, további új felfedezéseket ígérnek a közeljövőben.

Hogyan működnek a nyelvi modellek?

Míg az emberi agyak alapvető architektúrája hasonló és bár egyéni variációk figyelhetők meg a struktúrában és a működésben (például a neurodiverzitás vagy az egyéni tapasztalatok hatásai), addig a mesterséges intelligencia nyelvi modelljei széles spektrumot mutatnak a struktúra és a paraméterek tekintetében. Ezen modellek eltérései abból is adódhatnak, hogy különböző architektúrákat használnak (például a transzformer és a rekurrens hálók), vagy más-más adathalmazokon képzik ki őket. Ugyanakkor van néhány olyan terület, ahol többé-kevésbé megegyeznek. Megpróbálom ezeket bemutatni.

A transzformer alapú nyelvi modellek (mint a GPT vagy LLAMA modellek) alapvetően transzformer blokkokból (rétegekből, layerekből) épülnek fel, amelyek kódoló és dekódoló részeket tartalmaznak. Minden blokkban több komponens található, amelyek különböző feladatokat látnak el. A legfontosabb ezek közül a több-fejű önfigyelmi mechanizmus (multi-head self-attention) és a feed-forward neurális hálózati réteg. Ezek a komponensek mellett fontos szerepet játszik még a rétegnormalizáció (layer normalization), a dropout és a pozíciókódolás is. A self-attention mechanizmus lényege, hogy dinamikusan tanulja meg a bemeneti szavak közötti kapcsolatokat, míg a feed-forward hálózat nemlineáris transzformációt végez.

Amikor a paraméterszámról beszélünk (ami az egyik legfontosabb meghatározója a nyelvi modelleknek, olyannyira, hogy gyakran még a modell nevében is szerepeltetik), akkor valójában a modell tanulható súlyainak és előfeszítéseinek (bias) összegét értjük alatta. Ezek a paraméterek határozzák meg, hogy a modell hogyan dolgozza fel az információt, és ezek optimalizálódnak az edzés (tanulási folyamat) során. A paraméterek száma több tényezőtől függ:

  • A transzformer blokkok száma: A nagyobb modellek általában több transzformer blokkot tartalmaznak. Például a GPT-3 175 milliárd paramétere [^1] 96 blokkot (réteget, szintet) használ, míg a LLAMA 2 70 milliárd paraméteres verziója 80 blokkot. A blokkok mélysége is jelentős hatással van a paraméterszámra.

  • A rejtett állapot mérete (hidden state size): Ez egy vektor, ami az információt reprezentálja egy adott blokkban, és meghatározza, hogy mennyi információt képes a modell egyidejűleg feldolgozni. Minél nagyobb ez a szám, annál több paraméter szükséges a transzformer blokkokban.

  • A figyelmi fejek száma: A több-fejű figyelem lehetővé teszi, hogy a modell különböző szempontok szerint elemezze ugyanazt a bemenetet. Minden figyelmi fej további paramétereket igényel.

Ha konkrét számokat nézünk: egy tipikus transzformer blokkban a paraméterek a következőképpen oszlanak meg:

  • A figyelmi mechanizmus súlymátrixai (Query, Key, Value mátrixok)

  • A feed-forward hálózat súlyai és előfeszítései

  • A rétegnormalizáció skálázási és eltolási paraméterei

  • A pozíciókódolás paraméterei (mind a tanult, mind a szinuszos verziók esetén)

Egy érdekes szempont a számítási komplexitás: a self-attention mechanizmus számítási igénye négyzetesen nő a szekvencia hosszával. Ez azt jelenti, hogy bár a modellnek sok paramétere van, a tényleges feldolgozás során nem minden paraméter aktív egyidejűleg. Ezt a problémát a sparse attention technikák igyekeznek kezelni.

A paraméterszám tehát önmagában nem feltétlenül jó mérőszáma a modell képességeinek. Egy kisebb, de jobb architektúrával rendelkező modell gyakran felülmúlhat egy nagyobb, de kevésbé hatékony modellt. A modellek teljesítményét olyan mérőszámokkal is értékelik, mint a pontosság, F1-score, BLEU score vagy a PERPLEXITY. Ez hasonló ahhoz, ahogy az emberi agyban sem csak a neuronok vagy szinapszisok száma számít, hanem azok szerveződése és a közöttük lévő kapcsolatok minősége is.

Összehasonlítható-e az agy egy nyelvi modellel konkrét értékek alapján?

Bár csábító lehet a jelenlegi mesterséges intelligencia szintjét felmérni azzal, hogy teljesítménye, tudása hol helyezkedik el az agyunkhoz képest. A fent bemutatott leírások alapján már érezhetjük, hogy bár a mesterséges rendszerek fejlesztésének a legfőbb forrása az agyunk felépítésének, működésének tanulmányozása (hiszen létező példa rá, hogy működik - bármilyen triviálisnak hangzik, ez egy nagyon fontos tény) az összehasonlítás egyáltalán nem egyértelmű. Az LLM-ek paramétereinek közvetlen összehasonlítása sem a neuronok, sem a szinapszisok számával nem lehetséges, mivel a két rendszer fundamentálisan eltérő működési elveken és architektúrán alapul. Azonban az alapvető különbségek ellenére néhány analógia vonható a két rendszer között.

Neuronok vs. LLM rétegek

  • Az LLM-ek rétegei, blokkjai némileg hasonlítanak az agy hierarchikus szerkezetére, ahol az információ feldolgozása több szinten történik. Azonban az agyban a hierarchia funkcionálisabb és speciálisabb régiókra oszlik, míg az LLM-ekben a rétegek inkább absztrakciós szinteket képviselnek.

  • A neuronok lokálisan független egységek, de globálisan hálózatba szerveződnek, míg az LLM-ek rétegei globálisan függnek egymástól a figyelem mechanizmus révén. A self-attention mechanizmus lehetővé teszi a globális információáramlást egy rétegen belül.

Szinapszisok vs. LLM paraméterek

  • Az LLM-ek paraméterei hasonlóak a szinapszisokhoz abban az értelemben, hogy mindkettő az információáramlás erősségét befolyásolja, csak más mechanizmusok útján.

  • A szinapszisok dinamikusan változnak és adaptálódnak, míg az LLM-ek paraméterei a betanítás után statikusak. A finomhangolással (fine-tuning) a paraméterek ismét változtathatók, de ez még mindig nem éri el a szinapszisok dinamikus jellegét. A szinapszisok erőssége hosszú távú potenciáció (LTP) vagy hosszú távú depresszió (LTD) révén változik, ami egy dinamikus bioelektrokémiai folyamat.

Mi reprezentálja jobban az LLM-ek paramétereit?

  • Az LLM-ek paramétereit egyik sem reprezentálja pontosan, de a legközelebbi analógia a szinapszisokhoz áll, mivel a szinapszisok is a kapcsolatokat és az információáramlás erősségét szabályozzák. Ha már ezt a megközelítést használjuk úgy érdekes adat, hogy a szinapszisok száma nagyságrendekkel nagyobb az agyban (100-1000 billió szinapszis szemben a 70-1000 milliárd paraméterrel)

  • Azonban a szinapszisok sokkal komplexebbek és dinamikusabbak, mint az LLM-ek paraméterei. A szinapszisok nem csak egyszerű súlyokat jelentenek, hanem komplex bioelektrokémiai folyamatokkal szabályozzák a kapcsolatokat, amelyek dinamikusan változnak a tevékenység és a tapasztalatok hatására.

Miért nem pontos az analógia?

  • Működési eltérések:

    • Az agy biológiai párhuzamosságot mutat, és folytonos jeleket dolgoz fel, míg az LLM-ek diszkrét és digitális számításokon alapulnak, amelyeket numerikus processzorok (GPU/TPU) végeznek. Az agyban a számításokat biokémiai folyamatok és elektromos jelek végzik.

  • Tanulási mechanizmus:

    • Az agy tanulása dinamikus és kevés adatból is hatékony. A tanulás során az agyban a mintafelismerés és a megerősítés szerepe kiemelkedő. Az emberi tanulás gyakran egy- vagy kevés lövetű (one-shot/few-shot) tanulás, ahol kevés példa alapján is képesek vagyunk általánosítani. A megerősítéses tanulás is fontos szerepet játszik az agyban.

    • Az LLM-ek tanulásához hatalmas adatmennyiségre és számítási erőforrásokra van szükség. Az LLM-ek kevésbé képesek az általánosításra kevés példa alapján.

  • Energiahatékonyság:

    • Az agy rendkívül energiahatékony. Az LLM-ek edzése és működtetése hatalmas energiaigényű, amely nagyságrendekkel nagyobb, mint az emberi agy energiafelhasználása.

  • Reprezentáció:

    • Az agyban a reprezentációk elosztottak és dinamikusak, míg az LLM-ekben a reprezentációk inkább statikus vektorok.

    • Az agyhoz kapcsolódik a tudatosság és a szubjektív élmény, amivel az LLM-ek jelenleg nem rendelkeznek.

  • Architektúra:

    • Az agyban a hierarchikus szerveződés sokkal komplexebb, moduláris felépítésű, ahol különböző régiók különböző funkciókat látnak el. Az LLM-ekben ez a modularitás kevésbé hangsúlyos.

    • Az agyban a visszacsatolási hurkok fontos szerepet játszanak, míg az LLM-ekben ez kevésbé jellemző.

  • Adaptáció és rugalmasság:

    • Az agy rendkívül adaptív és rugalmas a neuroplaszticitás révén, míg az LLM-ek kevésbé képesek a változásokhoz alkalmazkodni.

    • Az agy képes a környezethez való alkalmazkodásra, míg az LLM-ek ezt a képességet kevésbé mutatják.

  • Érzelmek és motiváció:

    • Az agyban az érzelmek fontos szerepet játszanak a döntéshozatalban és a tanulásban, míg az LLM-ekben ez a dimenzió hiányzik.

    • Az agyban a motiváció fontos szerepet játszik a viselkedésben, míg az LLM-ekben ez a dimenzió szintén hiányzik.

Összefoglalás

Ahogyan láthattuk bár bizonyos analógiák vonhatók az LLM-ek rétegei és az agy hierarchikus szerkezete, vagy az LLM-ek paraméterei és a szinapszisok között, ezek az analógiák korlátozottak. Így a cikk címében feltett kérdésre miszerint "Agyunk 86 milliárd neuronja: Felülmúlhatják az LLM-ek?" nincs egyértelmű válasz.

A két rendszer fundamentálisan eltérő működési elveken és architektúrán alapul. Az LLM-ek nem rendelkeznek tudatossággal, szubjektív élménnyel, és nem képesek az agyhoz hasonló általánosításra kevés példa alapján.

A jövőben a mesterséges intelligencia kutatása valószínűleg arra fog irányulni, hogy az LLM-ek képességeit továbbfejlesszék, és közelebb hozzák az emberi agy működéséhez. Ez magában foglalhatja a dinamikusabb tanulási mechanizmusok, a hatékonyabb energiafelhasználás, a jobb általánosítási képesség és a tudatosság valamilyen formájának megvalósítását. Az agy működésének mélyebb megértése segíthet a hatékonyabb és intelligensebb mesterséges intelligencia rendszerek kifejlesztésében.

Ugyanakkor fontos szem előtt tartani, hogy az LLM-ek nem az emberi agy másolatai, hanem egy másik út az intelligencia megvalósításához. A két rendszer közötti különbségek megértése elengedhetetlen ahhoz, hogy felelősségteljesen és hatékonyan használjuk a mesterséges intelligencia nyújtotta lehetőségeket. A jövőben a két terület – az idegtudomány és a mesterséges intelligencia – közötti szinergia új távlatokat nyithat meg mindkét tudományág számára.

Források:

https://pubmed.ncbi.nlm.nih.gov/19226510/

https://www.nature.com/scitable/blog/brain-metrics/are_there_really_as_many/

https://www.sciencealert.com/scientists-quantified-the-speed-of-human-thought-and-its-a-big-surprise

https://www.ndtv.com/science/human-brains-are-not-as-fast-as-we-previously-thought-study-reveals-7323078

https://www.sciencealert.com/physics-study-overturns-a-100-year-old-assumption-on-how-brains-work

Bíró Gábor 2024. December 22.
© 2025 Birow.com