Google Gemma 4: KI-Tool Test & Bewertung
Gemma 4 ist Googles neue Open-Source-Modellfamilie, basierend auf der gleichen Forschung wie Gemini 3. Sie umfasst zwei große Varianten: das 26B MoE-Modell mit nur 3,8B aktiven Parametern für maximale Geschwindigkeit und das 31B Dense-Modell für maximale Reasoning-Power. Beide sind nativ multimodal, unterstützen 256K Tokens Kontext und stehen unter Apache 2.0 Lizenz.
Zuletzt aktualisiert: 2. April 2026
Gemma 4 ist Googles bisher stärkstes offenes Modell und bringt zwei Varianten mit, die unterschiedliche Stärken abdecken: Das 26B MoE-Modell antwortet schnell und läuft auf Consumer-Hardware, das 31B Dense-Modell liefert maximale Qualität für anspruchsvolle Aufgaben. Beide basieren auf der gleichen Technologie wie Gemini 3 und stehen erstmals unter Apache 2.0 Lizenz.
Die zwei Varianten im Vergleich
| 26B MoE | 31B Dense | |
|---|---|---|
| Parameter gesamt | 26 Milliarden | 31 Milliarden |
| Aktive Parameter | 3,8 Milliarden | 31 Milliarden (alle) |
| Context Window | 256K Tokens | 256K Tokens |
| Stärke | Geschwindigkeit | Reasoning-Qualität |
| Hardware-Bedarf | MacBook Pro M4 Max, RTX 4090 | 64+ GB RAM oder A100 GPU |
| Fine-Tuning | Möglich, aber MoE-Tuning ist komplexer | Ideal, reagiert gut auf Fine-Tuning |
| Arena Leaderboard | Platz 6 | Platz 3 |
Faustregel: Das 26B MoE ist die richtige Wahl für interaktive Anwendungen, bei denen Antwortzeit zählt. Das 31B Dense ist besser für komplexe Analysen, Code-Reviews und Aufgaben, bei denen Qualität vor Geschwindigkeit geht.
Wichtigste Funktionen
- Nativ multimodal: Text, Bilder und Videos werden in einem einzigen Modell verarbeitet. Ein verbesserter Image Encoder unterstützt variable Bildauflösungen und Seitenverhältnisse. Keine separate Vision-Pipeline nötig.
- 256K Context Window: Doppelt so viel Kontext wie Gemma 3. Ganze Codebasen, umfangreiche Dokumentensammlungen oder lange Gesprächsverläufe passen in eine einzige Anfrage.
- Konfigurierbare Thinking-Modi: Ein integrierter Reasoning-Modus für mehrstufiges Planen und komplexe Aufgaben. Lässt sich je nach Bedarf ein- oder ausschalten.
- Function Calling und JSON-Output: Natives Tool-Calling für agentenbasierte Workflows. Die Modelle generieren strukturierte Funktionsaufrufe, ohne dass ein spezielles Prompting-Framework nötig ist.
- Über 140 Sprachen: Breite Mehrsprachigkeit, einschließlich guter deutscher Sprachqualität.
Preise und Verfügbarkeit
Beide Varianten sind vollständig kostenlos unter Apache 2.0 Lizenz verfügbar. Das ist ein großer Fortschritt gegenüber früheren Gemma-Versionen, die eine restriktivere eigene Lizenz nutzten. Kommerzielle Nutzung ist ohne Einschränkungen erlaubt. Die Modelle sind ab Tag 1 verfügbar über Hugging Face, Ollama, Google AI Studio, Google Cloud, Kaggle und zahlreiche weitere Plattformen. Framework-Support gibt es für Hugging Face Transformers, vLLM, llama.cpp, MLX, LM Studio, Ollama, NVIDIA NIM, Unsloth, SGLang und weitere.
Für wen ist Gemma 4 geeignet?
- Entwickler und kleine Teams: Das 26B MoE-Modell läuft auf handelsüblicher Hardware und liefert Antworten in Echtzeit. Ideal als lokaler KI-Assistent ohne monatliche API-Kosten.
- Unternehmen mit Datenschutzanforderungen: Lokal betrieben verlassen keine Daten das Unternehmen. Apache 2.0 bedeutet keine Lizenz-Sorgen, auch nicht bei kommerziellem Einsatz.
- Fine-Tuning-Projekte: Das 31B Dense-Modell reagiert gut auf Fine-Tuning und eignet sich als Basis für spezialisierte Anwendungen in bestimmten Branchen oder Fachgebieten.
- Agentenbasierte Workflows: Das native Function Calling macht beide Varianten zu guten Bausteinen für KI-Agenten, die externe Tools und APIs aufrufen müssen.
DSGVO und Datenschutz
Gemma 4 läuft vollständig auf eigener Hardware. Es werden keine Daten an externe Server gesendet, keine Telemetrie erhoben. Die Apache 2.0 Lizenz erlaubt die uneingeschränkte kommerzielle Nutzung. Google DeepMind stellt die Modellgewichte bereit, der Betrieb erfolgt ausschließlich in der eigenen Infrastruktur.
Alternativen zu Gemma 4
- Qwen 3.5: Alibabas offene Modellfamilie mit 27B Dense, 35B-A3B und 122B-A10B. Nativ multimodal, 262K Context, Apache 2.0 Lizenz.
Vorteile
- 26B MoE mit nur 3,8B aktiven Parametern, extrem schnell auf Consumer-Hardware
- 31B Dense auf Platz 3 im Arena AI Text Leaderboard, schlägt 20x größere Modelle
- Nativ multimodal: Text, Bilder und Videos in einem Modell
- 256K Context Window, doppelt so viel wie Gemma 3
- Apache 2.0 Lizenz, volle kommerzielle Freiheit ohne Einschränkungen
Nachteile
- 31B Dense braucht mindestens 64 GB RAM oder 24+ GB VRAM
- 26B MoE benötigt trotz weniger aktiver Parameter den vollen Speicher für alle 26B
- Kein natives Audio-Processing in den großen Varianten (nur in E2B/E4B)
- Deutsche Ausgaben gut, aber nicht auf Muttersprachler-Niveau