Gemma: Googles offene Modelle basierend auf Gemini-Technologie

Gábor Bíró 26. Februar 2024
4 Min. Lesezeit

Google hat Gemma vorgestellt, eine neue Familie offener Modelle für künstliche Intelligenz. Die Gemma-Modelle basieren auf derselben Forschung und Technologie, die zur Entwicklung von Googles Flaggschiff-Modellen Gemini verwendet wurde. Sie bieten eine hochmoderne, zugängliche Alternative, die sich speziell an Entwickler und Forscher richtet, die direkt mit KI-Modellen arbeiten möchten.

Gemma: Googles offene Modelle basierend auf Gemini-Technologie
Quelle: Selbst erstellt

Hauptmerkmale der Gemma-Modelle

  • Modellvarianten: Gemma-Modelle sind in zwei Größen erhältlich: Gemma 2B und Gemma 7B, beide in vortrainierten und anweisungsspezifisch trainierten Versionen. Diese Modelle sind so konzipiert, dass sie leichtgewichtig genug sind, um potenziell auf dem Laptop oder Desktop-Computer eines Entwicklers zu laufen. Dies macht sie für eine breite Palette von Anwendungen zugänglich und senkt die Einstiegshürde im Vergleich zu größeren Modellen erheblich.

Die Bezeichnungen „2B“ und „7B“ geben die Größe des Modells an, insbesondere die Anzahl der Parameter, die es enthält. „B“ steht für Billionen. Ein „7B“-Modell hat also etwa 7 Milliarden Parameter, während ein „2B“-Modell etwa 2 Milliarden hat. Diese Parameter sind die Gewichtungen innerhalb des Modells, die während des Trainingsprozesses optimiert werden und bestimmen, wie das Modell Aufgaben wie Sprachverarbeitung oder Bildgenerierung ausführt. Im Allgemeinen korreliert eine höhere Anzahl von Parametern mit einer besseren Leistung bei verschiedenen Aufgaben, erfordert aber auch mehr Rechenressourcen.

  • Plattform- und Framework-Kompatibilität: Gemma-Modelle unterstützen Multi-Framework-Tools (wie JAX, PyTorch, TensorFlow über Keras 3.0) und sind mit verschiedenen Geräten kompatibel, darunter Laptops, Desktops, IoT-Geräte, Mobiltelefone und Cloud-Plattformen. Sie sind für die Leistung auf NVIDIA-GPUs und Google Cloud-TPUs optimiert und gewährleisten so eine breite Zugänglichkeit und branchenführende Leistung für ihre Größenklasse.
  • Toolkit für verantwortungsvolle KI: Zusammen mit den Gemma-Modellen hat Google ein Toolkit für verantwortungsvolle generative KI veröffentlicht. Dieses Toolkit bietet Anleitungen und Werkzeuge für Entwickler, um sicherere KI-Anwendungen zu erstellen. Es hilft, schädliche Eingaben/Ausgaben zu filtern und fördert einen verantwortungsvollen Einsatz und Innovationen, im Einklang mit Googles KI-Grundsätzen.
  • Philosophie der offenen Modelle: Im Gegensatz zu einigen traditionellen Open-Source-Modellen werden Gemma-Modelle mit Nutzungsbedingungen geliefert, die eine verantwortungsvolle kommerzielle Nutzung und Verbreitung gestatten. Obwohl sie einen breiten Zugang bieten, verwendet dieser Ansatz eine benutzerdefinierte Lizenz anstelle einer standardmäßigen OSI-genehmigten Lizenz (wie Apache 2.0). Google zielt darauf ab, ein Gleichgewicht zwischen den Vorteilen des offenen Zugangs und der Notwendigkeit zu finden, die Risiken des Missbrauchs zu mindern und verantwortungsvolle Innovationen innerhalb der KI-Community zu fördern.

Der Begriff „hochmodern“ (state-of-the-art) bezeichnet die fortschrittlichste Technologie, Methode oder das Produkt, das derzeit in einem bestimmten Bereich verfügbar ist und den höchsten Entwicklungsstand bis heute darstellt.

Anwendungen und Zugänglichkeit

Gemma-Modelle sind für verschiedene sprachbasierte Aufgaben wie Textgenerierung, Zusammenfassung, Fragenbeantwortung und den Betrieb von Chatbots konzipiert. Sie eignen sich besonders für Entwickler, die eine hohe Leistung in kleineren, kostengünstigeren Modellen suchen, die für spezifische Bedürfnisse feinabgestimmt werden können. Google behauptet, dass Gemma-Modelle trotz ihrer relativ geringen Größe einige größere Modelle in wichtigen Benchmarks deutlich übertreffen und gleichzeitig weniger Ressourcen benötigen.

Entwickler und Forscher können auf Gemma-Modelle über Plattformen wie Kaggle, Hugging Face, NVIDIA NeMo und Googles Vertex AI zugreifen. Google bietet kostenlosen Zugriff auf Gemma auf Kaggle, eine kostenlose Stufe für Colab-Notebooks, 300 US-Dollar Guthaben für erstmalige Google Cloud-Nutzer und Forscher können bis zu 500.000 US-Dollar Google Cloud-Guthaben erhalten.

Vergleich von Gemma- und Gemini-Modellen

  1. Zugänglichkeit und Nutzung:

    • Gemini: Hauptsächlich für Endnutzer über Web-/Mobil-Apps, APIs und Google Vertex AI für die Nutzung geschlossener Modelle zugänglich. Optimiert für Benutzerfreundlichkeit ohne direkte Modellmanipulation.
    • Gemma: Konzipiert für Entwickler, Forscher und Unternehmen zum Experimentieren, zur Feinabstimmung und zur Integration in Anwendungen; offen zugänglich zum Herunterladen und zur Modifizierung unter bestimmten Bedingungen.
  2. Modellgröße und -fähigkeiten:

    • Gemini: Eine Familie größerer, hochleistungsfähiger, geschlossener KI-Modelle (Ultra, Pro, Flash), die für komplexe, allgemeine Aufgaben geeignet sind und direkt mit Modellen wie GPT-4 konkurrieren.
    • Gemma: Leichtgewichtige offene Modelle (2B und 7B Parameter), optimiert für spezifische Aufgaben wie Chatbots, Zusammenfassung oder RAG, die eine starke Leistung für ihre Größe in wichtigen Benchmarks liefern.
  3. Bereitstellung und Kompatibilität:

    • Gemini: Typischerweise über API zugänglich, erfordert keine lokale Bereitstellung durch den Endnutzer; Backend läuft auf Googles spezialisierter Rechenzentrumshardware.
    • Gemma: Kann potenziell auf Laptops, Workstations laufen oder einfach in Google Cloud bereitgestellt werden (z. B. Vertex AI, Google Kubernetes Engine); optimiert für verschiedene Hardware, einschließlich NVIDIA-GPUs und Google Cloud-TPUs.
  4. Lizenzierung und Philosophie:

    • Gemini: Geschlossene Modelle mit eingeschränktem Zugriff über APIs und Google-Produkte.
    • Gemma: „Offene Modelle“ mit Nutzungsbedingungen, die eine verantwortungsvolle kommerzielle Nutzung und Verbreitung ermöglichen, wobei ein Gleichgewicht zwischen offenem Zugang und Risikominimierung und nicht eine vollständig freizügige Open-Source-Lizenz betont wird.
  5. Anwendungsfälle:

    • Gemini: Am besten geeignet für höchste Leistungsanforderungen, Benutzerfreundlichkeit über API, komplexes Schlussfolgern, mehrfache Gesprächsrunden, allgemeine Wissensaufgaben, ohne dass eine benutzerdefinierte Infrastruktur erforderlich ist.
    • Gemma: Ideal für Aufgaben, die eine Modellanpassung/Feinabstimmung, geringere Kosten, geringere Latenz, On-Device- oder lokale Bereitstellungsanforderungen (aufgrund von Datenschutz- oder Offline-Anforderungen), Forschung und Bildung erfordern.

Googles strategische Neuausrichtung

Die Veröffentlichung von Gemma markiert eine bedeutende strategische Neuausrichtung von Google hin zur Akzeptanz offener Modelle für KI. Dieser Schritt wird weithin als Reaktion auf die wachsende Nachfrage in den Entwickler- und Forschungsgemeinschaften nach zugänglichen, hochwertigen KI-Modellen gesehen, die zum Teil durch den Erfolg offener Modelle von Wettbewerbern wie Meta (Llama) und Mistral AI befeuert wird. Es ist für Google eine Möglichkeit, Innovation, Zusammenarbeit zu fördern und die Aufmerksamkeit der Entwickler innerhalb des breiteren KI-Ökosystems zu gewinnen. Indem Google Gemma als offene Modelle anbietet, zielt es darauf ab, Entwickler und Forscher in die Lage zu versetzen, auf seiner Technologie aufzubauen und gleichzeitig sein Engagement für eine verantwortungsvolle KI-Entwicklung aufrechtzuerhalten.

Gábor Bíró 26. Februar 2024