Gemma 4 im Unternehmenstest: Googles neue offene KI-Modelle im Vergleich zu Qwen 3.5, Nemotron und GLM-5.1

Am 2. April 2026 hat Google Gemma 4 veröffentlicht, gleich in vier Varianten und erstmals unter Apache-2.0-Lizenz. Wir setzen die Modelle inzwischen selbst in Kundenprojekten ein und sind überzeugt. Das 31B Dense steht aktuell auf Platz 3 des Arena-Leaderboards für offene Modelle, das kleinere 26B MoE auf Platz 6. Die beiden Edge-Varianten decken mobile und Embedded-Szenarien ab.

Dass ein solches Paket aus einem US-Konzern kommt, ist eine kleine Überraschung. Die starken offenen Modelle der vergangenen Monate kamen fast alle aus China, etwa Qwen 3.5 von Alibaba, GLM-5.1 von Z.ai oder DeepSeek-V3. Mit Gemma 4 schiebt sich Google wieder ganz vorne in die Open-Source-Liga, dieses Mal mit einer Lizenz, die Unternehmen den kommerziellen Einsatz wirklich einfach macht.

Vier Varianten für vier unterschiedliche Einsatzgebiete

Gemma 4 ist keine einzelne Modellgröße, sondern eine Familie. Google hat bewusst vier Varianten veröffentlicht, die unterschiedliche Szenarien abdecken. Zwei kleine Modelle für Geräte am Rand des Netzwerks, zwei große für Arbeitsplätze und Server im Unternehmen.

E2B (Edge 2 Milliarden)

Die kleinste Variante. Läuft auf Tablets, Industriepanels und Embedded-Geräten. Versteht Text, Bilder und gesprochene Sprache. Quantisiert belegt sie rund 1,3 GB Speicher.

E4B (Edge 4 Milliarden)

Die größere Edge-Variante mit doppelt so vielen Parametern. Deutlich stärker bei komplexen visuellen Aufgaben und Funktionsaufrufen, braucht rund 2,5 GB Speicher. Für Service-Geräte, Kassensysteme und mobile Erfassung.

26B MoE (A4B)

Mixture of Experts mit 26 Milliarden Parametern, aber nur 3,8 Milliarden aktiv pro Anfrage. Das Resultat ist ein Modell, das sich in der Antwortgeschwindigkeit wie ein kleines anfühlt, aber die Qualität eines großen liefert.

31B Dense

Das Flaggschiff mit der höchsten Reasoning-Qualität. Läuft auf einer einzigen H100 mit 80 GB VRAM oder auf einer entsprechend ausgestatteten Workstation. Die erste Wahl für Fine-Tuning und anspruchsvolle Analysen.

Das 26B MoE ist in unseren Tests die Variante mit dem besten Verhältnis aus Qualität und Antwortzeit. Sie fühlt sich im interaktiven Einsatz flüssig an und eignet sich gut für Assistenz-Szenarien mit vielen kurzen Anfragen. Das 31B Dense liefert die höhere Qualität bei komplexen Analysen und ist dort die Wahl, wo Tiefe wichtiger ist als Schnelligkeit.

Was Gemma 4 technisch von den Vorgängern unterscheidet

Drei Punkte stechen bei Gemma 4 heraus. Alle vier Varianten sind nativ multimodal. Sie verarbeiten Text, Bilder und Videos in einem einzigen Modell, ohne dass ein separates Vision-System angeflanscht werden muss. Die Edge-Modelle E2B und E4B verstehen zusätzlich gesprochene Sprache, was sie für Assistenten in Kundenhotlines oder mobile Dokumentation interessant macht.

Der Kontextumfang liegt bei 256.000 Tokens, doppelt so viel wie bei Gemma 3. Das reicht für mehrere hundert Seiten Dokumentation in einer einzigen Anfrage. Und die Modelle haben einen integrierten Thinking-Modus, der sich pro Aufgabe zuschalten lässt. Kurze Antworten bleiben schnell, komplexe Probleme bekommen mehr interne Denkschritte.

Die wichtigste Neuerung betrifft nicht die Technik, sondern die Lizenz. Frühere Gemma-Versionen liefen unter einer eigenen Google-Lizenz mit Nutzungsbeschränkungen, die Google jederzeit ändern konnte. Gemma 4 steht unter Apache-2.0, einer Lizenz, die jede Rechtsabteilung kennt und die kommerziellen Einsatz ohne Rückfragen erlaubt. Das ist für Unternehmen in regulierten Branchen ein wesentlicher Unterschied.

Gemma 4 gegen Qwen 3.5: der eigentliche Zweikampf

Die naheliegendste Vergleichsfamilie ist Qwen 3.5 von Alibaba. Beide Modellreihen stehen unter Apache-2.0, beide sind multimodal, beide bieten Varianten für Workstation und Server. Die Unterschiede zeigen sich erst, wenn man genauer hinsieht.

Kriterium	Gemma 4 (31B Dense)	Qwen 3.5 (27B Dense)
Arena-ELO	1452 (Platz 3)	nahe dran
Coding (LiveCodeBench)	80,0 %	80,7 %
Mathematik (AIME 2026)	89,2 %	vergleichbar
Kontextfenster	256.000 Tokens	262.000 Tokens
Sprachen	140	201
Schwerpunkt	Reasoning, Agenten, Tool-Use	Coding, Mehrsprachigkeit

Der wichtigste Unterschied zeigt sich aber nicht in den Benchmarks, sondern in der deutschen Sprache. Nach zwei Wochen Parallelbetrieb haben wir einen klaren Favoriten. Gemma 4 formuliert auf Deutsch spürbar natürlicher und flüssiger als Qwen 3.5. Sätze wirken weniger übersetzt, die Wortwahl ist feiner, der Tonfall passt besser zu geschäftlicher Kommunikation. Für Texte, E-Mails, Berichte und alles, was in gutem Deutsch beim Kunden oder Kollegen ankommen soll, ist Gemma 4 unsere klare Empfehlung.

Qwen 3.5 bleibt der stärkere Coding-Assistent, vor allem das 27B Dense. Und wenn ein Unternehmen viele Sprachen abdecken muss, spielt Qwen mit 201 unterstützten Sprachen seine Stärke aus. Die Praxis-Faustregel, die wir Kunden mitgeben: Für deutsche Textarbeit Gemma 4, für internationale Dokumente und Entwickler-Teams Qwen 3.5.

Gemma 4 gegen Nemotron 3 Super: unterschiedliche Ligen

Nemotron 3 Super von NVIDIA ist ein anderes Kaliber. 120 Milliarden Parameter insgesamt, davon 12 Milliarden aktiv, ein Millionen-Token-Kontextfenster und eine hybride Architektur aus Mamba-2, Transformer und Mixture of Experts. Das ist kein Workstation-Modell mehr, sondern eines für Server-Infrastruktur im Rechenzentrum.

Nemotron ist gezielt auf Agentic AI ausgelegt und erreicht auf dem PinchBench 85,6 Punkte, mehr als jedes andere offene Modell. Wer komplexe mehrstufige Agenten bauen will, die autonom Tools aufrufen, Datenbanken abfragen und Zwischenergebnisse verketten, bekommt mit Nemotron das stärkste offene Werkzeug. Der Preis dafür ist der Ressourcenbedarf und eine etwas weniger freie Lizenz. Die NVIDIA Open Model License erlaubt kommerzielle Nutzung, ist aber kein Apache-2.0.

Für die große Mehrheit der Unternehmen reicht Gemma 4 vollkommen aus. Nemotron ist für Organisationen interessant, die eine eigene GPU-Infrastruktur betreiben und Agenten über hunderttausende Tokens hinweg koordinieren wollen. Unterhalb dieser Anforderungen läuft Gemma 4 günstiger, einfacher und auf deutlich weniger Hardware.

Gemma 4 gegen GLM-5.1: zwei sehr unterschiedliche Stärken

GLM-5.1 von Z.ai ist Anfang April 2026 erschienen und im Coding aktuell das stärkste offene Modell. Auf dem SWE-Bench Pro erreicht es 58,4 Punkte und schlägt damit sogar GPT-5.4 und Claude Opus 4.6. Umgerechnet auf reale Software-Aufgaben sind das etwa 94,6 % der Leistung von Claude Opus. Beachtlich für ein offenes Modell.

Allerdings ist GLM-5.1 ein Server-Modell. 744 Milliarden Parameter insgesamt, 40 Milliarden aktiv, 200.000 Tokens Kontextumfang. Für den lokalen Betrieb braucht es mindestens acht leistungsstarke GPUs. Das ist eine Investition, die sich erst ab einer gewissen Nutzungsintensität rechnet.

Unser Eindruck aus der Praxis

Gemma 4 und GLM-5.1 ergänzen sich gut. GLM-5.1 ist der Spezialist für Entwicklungsteams, die große Codeprojekte bearbeiten und die Infrastruktur dafür haben. Gemma 4 ist der Allrounder für alles andere, also Texte, Analysen, Bildauswertung, Agenten, Kundenanfragen. Ein Unternehmen mit eigener IT-Entwicklung kann beide parallel betreiben und je nach Anwendungsfall das passende Modell einsetzen.

Wofür Sie Gemma 4 im Unternehmen einsetzen können

Die vier Varianten decken sehr unterschiedliche Anwendungsfälle ab. In unseren Projekten setzen wir Gemma 4 derzeit für diese Szenarien ein.

1. Interner KI-Assistent für Büroarbeit und Kommunikation

Das 26B MoE betreiben wir auf einer Unternehmens-Workstation oder einem kleinen Inferenz-Server und binden es über ein internes Chat-Frontend an. Mitarbeiter formulieren damit E-Mails, lassen Dokumente zusammenfassen oder erstellen Entwürfe für Berichte. Dank der guten deutschen Sprachqualität landen Ergebnisse direkt in der Kundenkommunikation.

2. Dokumentenverarbeitung mit Bildverständnis

Da Gemma 4 Bilder nativ versteht, eignet es sich für die Auswertung gescannter Dokumente, Formulare, Baustellenfotos oder Prüfprotokolle. Kombiniert mit einem Retrieval-System lassen sich ganze Aktenbestände durchsuchbar und auswertbar machen.

3. Agentenbasierte Workflows

Das native Function Calling macht beide großen Varianten zu guten Bausteinen für KI-Agenten. Ein Agent, der Anfragen kategorisiert, Informationen aus CRM und ERP abruft und dem Mitarbeiter einen fertigen Antwortentwurf vorlegt, läuft mit Gemma 4 produktiv und liefert die Antwort in sauberem Deutsch.

4. Fine-Tuning auf Unternehmensdaten

Das 31B Dense reagiert sehr gut auf Fine-Tuning. Unternehmen mit spezifischem Fachvokabular in Medizin, Recht oder Bauwesen können ein auf ihre Domäne spezialisiertes Modell trainieren und produktiv einsetzen.

5. Edge-Anwendungen und mobile Assistenz

E2B und E4B laufen offline auf Tablets, Service-Geräten oder Industrie-Panels. Für Außendienst, Wartung oder Kundensupport ohne Netzabdeckung eine praktische Option. Dass sie Audio verstehen, macht sie zusätzlich für gesprochene Bedienung interessant.

Das Signal hinter Apache-2.0

Dass Gemma 4 unter Apache-2.0 erscheint, ist mehr als ein juristisches Detail. Es verändert die Lage für Unternehmen, die KI intern einsetzen wollen. Frühere Gemma-Versionen liefen unter einer eigenen Google-Lizenz, die sich jederzeit ändern konnte. Viele Rechtsabteilungen haben das zum Anlass genommen, gleich auf Alternativen wie Qwen oder Mistral umzuschwenken. Mit Apache-2.0 fällt diese Hürde weg.

Gleichzeitig steht hinter Gemma 4 ein US-Konzern mit dem Forschungsapparat von DeepMind. Die meisten starken offenen Modelle der vergangenen zwölf Monate kamen aus China. Dass jetzt wieder ein westliches Unternehmen eine Modellfamilie dieser Qualität veröffentlicht, und das unter einer permissiven Lizenz, erweitert die Auswahl spürbar. Gerade für Organisationen, die aus Compliance-Gründen europäische oder amerikanische Herkunft bevorzugen, ist das eine gute Nachricht.

Technisch sind chinesische Modelle oft auf Augenhöhe, manche sogar voraus. Aber in Ausschreibungen von Behörden, bei Verträgen mit Versicherern oder bei Audits großer Konzerne ist die Herkunft des Modells zunehmend ein Kriterium. Gemma 4 ist für solche Szenarien eine gute Karte in der Hand.

Wie Sie Gemma 4 ausprobieren können

Beide großen Varianten sind ab Tag 1 über Ollama verfügbar. Der Einstieg ist ein einziger Befehl.

Terminal

# 26B MoE herunterladen und starten
$ ollama run gemma4:26b
# Edge-Variante für Tablets oder Embedded-Geräte
$ ollama run gemma4:e4b

Für Teams, die eine grafische Oberfläche bevorzugen, sind LM Studio und Open WebUI gute Einstiege. Beide unterstützen Gemma 4 seit der Veröffentlichung. Wer sich erst einmal einen Eindruck verschaffen möchte, kann das 31B auch über Google AI Studio kostenlos testen, bevor eine eigene Installation aufgesetzt wird.

Was das für Unternehmen bedeutet

Gemma 4 schließt eine Lücke, die bisher vor allem chinesische Modelle gefüllt haben. Ein offenes Modell aus westlicher Produktion, unter permissiver Lizenz, multimodal und mit einer sehr guten deutschen Sprachqualität. Für Unternehmen, die lokale KI ernsthaft einsetzen wollen, ist die Auswahl damit deutlich besser geworden.

Unsere Empfehlung für die meisten Kunden. Wenn Sie heute einen internen KI-Assistenten aufbauen, der primär deutsche Texte erzeugen soll, nehmen Sie Gemma 4 (26B MoE) als Ausgangspunkt. Qwen 3.5 bleibt die Alternative für Entwickler-Teams und mehrsprachige Szenarien. Für Agenten in größerem Maßstab und Coding auf Cloud-Niveau gibt es mit Nemotron 3 Super und GLM-5.1 zwei starke Spezialisten für Server-Infrastruktur.

Sie wollen Gemma 4 im eigenen Unternehmen einsetzen?

Wir schauen uns gemeinsam an, welche Variante zu Ihrer Infrastruktur passt, wo Gemma 4 im Alltag echten Mehrwert bringt und wie der Weg vom ersten Test bis zum produktiven Einsatz aussehen kann. Kein Verkaufsgespräch, sondern eine ehrliche Einschätzung.

Schreiben Sie uns

Unsere KI-Plattform für Unternehmen. Modular, lokal, DSGVO-konform.

Workshops und Vorträge, die Teams KI im Alltag sicher machen.

Strategie, Readiness und Daten, bevor wir Technik bauen.