Gemma: A Google Gemini technológián alapuló nyílt modelljei

Gábor Bíró 2024. február 26.
4 perc olvasási idő

A Google bemutatta a Gemmát, a mesterséges intelligencia nyílt modelljeinek új családját. A Gemma modellek ugyanazon kutatásokra és technológiára épülnek, amelyek a Google zászlóshajó Gemini modelljeit is létrehozták, korszerű, hozzáférhető alternatívát kínálva kifejezetten azoknak a fejlesztőknek és kutatóknak, akik közvetlenül szeretnének MI modellekkel dolgozni.

Gemma: A Google Gemini technológián alapuló nyílt modelljei
Forrás: Saját szerkesztés

A Gemma modellek főbb jellemzői

  • Modellváltozatok: A Gemma modellek két méretben érhetők el: Gemma 2B és Gemma 7B, mindkettő előképzett és utasításra hangolt verzióban. Ezeket a modelleket úgy tervezték, hogy elég könnyűek legyenek ahhoz, hogy akár egy fejlesztő laptopján vagy asztali számítógépén is futtathatók legyenek, így széles körű alkalmazásokhoz hozzáférhetővé válnak, és jelentősen csökkentik a belépési korlátot a nagyobb modellekhez képest.

A „2B” és „7B” kifejezések a modell méretét jelzik, pontosabban a benne lévő paraméterek számát. A „B” a milliárdot jelenti, tehát egy „7B” modell körülbelül 7 milliárd paraméterrel rendelkezik, míg egy „2B” modell körülbelül 2 milliárddal. Ezek a paraméterek a modellen belüli súlyok, amelyeket a betanítási folyamat során optimalizálnak, és amelyek meghatározzák, hogy a modell hogyan teljesít olyan feladatokat, mint a nyelvfeldolgozás vagy a képgenerálás. Általánosságban elmondható, hogy a paraméterek magasabb száma jobb teljesítménnyel korrelál különféle feladatok esetén, de több számítási erőforrást is igényel.

  • Platform- és keretrendszer-kompatibilitás: A Gemma modellek támogatják a többkeretrendszerű eszközöket (például JAX, PyTorch, TensorFlow a Keras 3.0-n keresztül), és kompatibilisek különféle eszközökkel, beleértve a laptopokat, asztali számítógépeket, IoT-eszközöket, mobiltelefonokat és felhőplatformákat. NVIDIA GPU-kon és Google Cloud TPU-kon való teljesítményre optimalizálták őket, biztosítva a széles körű hozzáférhetőséget és az iparágvezető teljesítményt a méretkategóriájukban.
  • Felelős MI eszközkészlet: A Gemma modellek mellett a Google kiadott egy Felelős Generatív MI Eszközkészletet is. Ez az eszközkészlet útmutatást és eszközöket biztosít a fejlesztők számára a biztonságosabb MI alkalmazások létrehozásához, segítve a káros bemenetek/kimenetek szűrését, valamint a felelős felhasználást és innovációt ösztönözve, összhangban a Google MI alapelveivel.
  • Nyílt modell filozófia: Néhány hagyományos nyílt forráskódú modellel ellentétben a Gemma modellek használati feltételekkel érkeznek, amelyek lehetővé teszik a felelős kereskedelmi felhasználást és terjesztést. Bár széles körű hozzáférést kínál, ez a megközelítés egyedi licencet használ a szabványos, OSI által jóváhagyott licenc (például Apache 2.0) helyett. A Google célja, hogy egyensúlyt teremtsen a nyílt hozzáférés előnyei és a visszaélés kockázatának mérséklése között, elősegítve a felelős innovációt az MI közösségen belül.

A „korszerű” kifejezés az adott területen jelenleg elérhető legfejlettebb technológiát, módszert vagy terméket jelenti, amely a mai napig elért legmagasabb fejlettségi szintet képviseli.

Alkalmazások és hozzáférhetőség

A Gemma modelleket különféle nyelvi alapú feladatokra tervezték, mint például szöveggenerálás, összefoglalás, kérdés megválaszolása és chatbotok működtetése. Különösen alkalmasak azoknak a fejlesztőknek, akik nagy teljesítményt keresnek kisebb, költséghatékonyabb modellekben, amelyek finomhangolhatók az egyedi igényekhez. A Google azt állítja, hogy a Gemma modellek, viszonylag kis méretük ellenére, jelentősen felülmúlnak néhány nagyobb modellt a kulcsfontosságú benchmarkokon, miközben kevesebb erőforrást igényelnek.

A fejlesztők és kutatók a Gemma modellekhez olyan platformokon keresztül férhetnek hozzá, mint a Kaggle, a Hugging Face, az NVIDIA NeMo és a Google Vertex AI. A Google ingyenes hozzáférést biztosít a Gemmához a Kaggle-en, ingyenes szintet a Colab notebookokhoz, 300 dollár kreditet az első Google Cloud felhasználók számára, és a kutatók akár 500 000 dollár Google Cloud kreditre is jogosultak lehetnek.

A Gemma és a Gemini modellek összehasonlítása

  1. Hozzáférhetőség és felhasználás:

    • Gemini: Elsősorban végfelhasználók férnek hozzá webes/mobilalkalmazásokon, API-kon és a Google Vertex AI-on keresztül zárt modellként. Használatra optimalizálva, közvetlen modellmanipuláció nélkül.
    • Gemma: Fejlesztőknek, kutatóknak és vállalkozásoknak tervezték kísérletezésre, finomhangolásra és alkalmazásokba való integrálásra; nyíltan hozzáférhető letöltésre és módosításra meghatározott feltételek mellett.
  2. Modellméret és képességek:

    • Gemini: Nagyobb, rendkívül képességes zárt MI modellek családja (Ultra, Pro, Flash), amelyek alkalmasak összetett, általános célú feladatokra, közvetlenül versenyezve olyan modellekkel, mint a GPT-4.
    • Gemma: Könnyűsúlyú nyílt modellek (2B és 7B paraméterrel), amelyek specifikus feladatokra, például chatbotokra, összefoglalásra vagy RAG-ra vannak optimalizálva, erős teljesítményt nyújtva a méretükhöz képest a kulcsfontosságú benchmarkokon.
  3. Telepítés és kompatibilitás:

    • Gemini: Általában API-n keresztül érhető el, nem igényel helyi telepítést a végfelhasználó részéről; a háttérrendszer a Google speciális adatközponti hardverén fut.
    • Gemma: Potenciálisan futtatható laptopokon, munkaállomásokon, vagy könnyen telepíthető a Google Cloudba (pl. Vertex AI, Google Kubernetes Engine); különféle hardverekre optimalizálva, beleértve az NVIDIA GPU-kat és a Google Cloud TPU-kat.
  4. Licencelés és filozófia:

    • Gemini: Zárt modellek korlátozott hozzáféréssel API-kon és Google termékeken keresztül.
    • Gemma: „Nyílt modellek” használati feltételekkel, amelyek lehetővé teszik a felelős kereskedelmi felhasználást és terjesztést, hangsúlyozva az egyensúlyt a nyílt hozzáférés és a kockázatcsökkentés között, nem pedig egy teljesen engedélyező nyílt forráskódú licencet.
  5. Felhasználási esetek:

    • Gemini: Legjobb a legmagasabb képességű igényekhez, API-n keresztüli egyszerű használathoz, összetett következtetéshez, többszörös fordulós beszélgetéshez, általános tudásfeladatokhoz egyedi infrastruktúra nélkül.
    • Gemma: Ideális modelltestreszabást/finomhangolást, alacsonyabb költséget, alacsonyabb késleltetést, eszközön vagy helyi telepítést igénylő feladatokhoz (adatvédelmi vagy offline követelmények miatt), kutatáshoz és oktatáshoz.

A Google stratégiai fordulata

A Gemma kiadása jelentős stratégiai fordulatot jelent a Google számára az MI nyílt modelljeinek elfogadása felé. Ezt a lépést széles körben válaszként értelmezik a fejlesztői és kutatói közösségekben a hozzáférhető, kiváló minőségű MI modellek iránti növekvő keresletre, amelyet részben az olyan versenytársak nyílt modelljeinek sikere táplál, mint a Meta (Llama) és a Mistral AI. Ez egy módja annak, hogy a Google elősegítse az innovációt, az együttműködést, és megragadja a fejlesztők figyelmét a szélesebb MI ökoszisztémán belül. Azzal, hogy a Gemmát nyílt modellekként kínálja, a Google célja, hogy felhatalmazza a fejlesztőket és kutatókat arra, hogy technológiájára építsenek, miközben fenntartja elkötelezettségét a felelős MI fejlesztés iránt.

Gábor Bíró 2024. február 26.