Google Gemini: A Google erőteljes, többmodális MI-jének megértése

Gábor Bíró 2024. január 24.
3 perc olvasási idő

A Gemini a Google eddigi legfejlettebb és legrugalmasabb MI modellcsaládját képviseli, amelyet arra terveztek, hogy hatékonyan működjön különféle platformokon, a nagy adatközpontoktól a mobil eszközökig. A Gemini alapjaitól kezdve többmodálisnak épült, így zökkenőmentesen képes megérteni, kezelni és kombinálni a különböző típusú információkat, beleértve a szöveget, kódot, hangot, képeket és videót, jelentősen javítva ezzel a fejlesztők és vállalati ügyfelek számára az MI alkalmazások integrálásának és skálázásának módját.

Google Gemini: A Google erőteljes, többmodális MI-jének megértése
Forrás: Saját szerkesztés

Bemutatásakor a zászlóshajó modell, a Gemini Ultra számos akadémiai benchmarkon csúcsteljesítményt nyújtott. Figyelemre méltó, hogy az MMLU (Massive Multitask Language Understanding) benchmarkon elért 90,0%-os eredménye az egyik első modellé tette, amely állítólag felülmúlta az emberi szakértők teljesítményét ezen a konkrét teszten.

Az MMLU egy átfogó benchmark, amelyet az MI modellek tudásának és problémamegoldó képességeinek értékelésére használnak 57 különböző témakörben, mint például matematika, fizika, történelem, jog, orvostudomány és etika. A magas pontszám elérése a modell széleskörű általános megértését és következtetési képességeit jelzi, amelyek elengedhetetlenek az összetett valós nyelvi kihívások kezeléséhez.

A Gemini modellcsaládot három különböző méretben mutatták be, amelyeket különböző felhasználási esetekre optimalizáltak:

  • Gemini Ultra: A legnagyobb és legképesebb modell, amelyet mélyreható következtetést és kreativitást igénylő, rendkívül összetett feladatokra terveztek. Elsősorban a Gemini Advanced előfizetési szolgáltatáson keresztül érhető el.
  • Gemini Pro: Egy sokoldalú modell, amely erős egyensúlyt kínál a teljesítmény és a skálázhatóság között, és sokféle feladatra alkalmas. Ez működteti a standard Gemini chatbot élményt, és API-n keresztül is elérhető a fejlesztők számára.
  • Gemini Nano: A leghatékonyabb modell, amelyet közvetlenül végfelhasználói eszközökön, például okostelefonokon való futtatásra optimalizáltak (pl. a Google Pixel telefonok és a Gboard funkcióinak működtetésére), lehetővé téve az eszközön belüli MI képességeket offline állapotban is.

Minden Gemini modell egy csak dekóderes transzformátor architektúrán alapul, hasonlóan más vezető LLM-ekhez, kihasználva a Google mélyreható szakértelmét ezen a területen. 32 768 tokenes kontextusablakkal jelentették be őket, amely lehetővé teszi számukra, hogy egyszerre jelentős mennyiségű információt dolgozzanak fel. Kulcsfontosságú megkülönböztető tényező a natív többmodalitásuk, ami azt jelenti, hogy kezdettől fogva különféle adattípusokon képezték ki őket, lehetővé téve egy kifinomultabb, integráltabb megértést azokhoz a modellekhez képest, ahol a modalitásokat később adhatják hozzá.

A Gemini első verziója fejlett képességeket mutatott be a népszerű programozási nyelveken írt kiváló minőségű kód megértésében és generálásában. A Gemini Ultra számos kódolási benchmarkon kiemelkedően teljesített. Továbbá az AlphaCode 2, egy Gemini által működtetett speciális rendszer figyelemre méltó teljesítményt nyújtott a versenyszerű programozásban, képes komplex problémák megoldására is, amelyek túlmutatnak a szokásos kódolási feladatokon.

A Gemini 1.0-t nagy léptékben képezték ki a Google MI-optimalizált infrastruktúráján, a saját fejlesztésű Tensor Processing Units (TPU-k) felhasználásával. A TPU-k egyedi tervezésű hardveres gyorsítók, amelyeket kifejezetten a gépi tanulási feladatokhoz fejlesztettek ki, jelentős hatékonysági előnyöket biztosítva mind a nagy modellek, például a Gemini képzéséhez, mind pedig az inferencia (válaszok generálása) futtatásához.

A Google Gemini 1.0 bevezetése fokozta a versenyt, különösen a Microsoft pozícióját megkérdőjelezve, amely jelentős összegeket fektetett az OpenAI GPT modelljeibe. Bár a Gemini olyan különálló funkciókat kínált, mint a natív többmodalitás és a változatos modellméretek, a kezdeti bevezetés kihívásokkal szembesült, beleértve a bemutató videókkal kapcsolatos kritikákat és a csevegési funkciókkal vagy a biztonsági korlátokkal kapcsolatos jelentett problémákat bizonyos nyelveken vagy kontextusokban (például a képgenerálás terén később), amelyek befolyásolhatták a korai elfogadást vagy az észlelést.

A generatív MI eszközök piaca a termelési környezetben még mindig fejlődik, teret engedve a versenynek. A Microsoft jelentős előnyt élvez a bejáratott fejlesztői ökoszisztémáján keresztül, mélyen integrálva az MI-t a GitHub Copilot-on keresztül a Visual Studio Code-ban, és kihasználva az Azure felhőplatformját. A Google-nak nincs hasonlóan domináns fejlesztői platformja vagy IDE-je, ami azt jelenti, hogy még ha a Gemini bizonyos kódolási segéd feladatokban felül is múlja a Microsoftot, a Microsoft integrált megközelítése zökkenőmentesebb munkafolyamatot kínálhat sok fejlesztő számára, ami kulcsfontosságú kihívást jelent a Google piaci penetrációs erőfeszítései számára.

Forrás:

  • https://deepmind.google
  • https://arxiv.org/pdf/2009.03300
Gábor Bíró 2024. január 24.