Zum Inhalt springen
G

GLM-4.7 Flash: KI-Tool Test & Bewertung

4.5
Sprachmodelle Kostenlos Kostenlos (Open Source, MIT-Lizenz) / Z.ai API ab ca. $0,80/M Input-Tokens Self-Hosted DSGVO-konform Open Source

GLM-4.7 Flash von Z.ai ist ein leichtgewichtiges MoE-Modell, das speziell für lokales Coding und Agentic Tasks gebaut wurde. Mit 30 Milliarden Gesamtparametern und nur 3 Milliarden aktiven Parametern pro Anfrage läuft es quantisiert auf Consumer-Hardware. Auf SWE-bench Verified erreicht es 59,2 % und ist damit das stärkste Open-Source-Coding-Modell seiner Größenklasse.

Zuletzt aktualisiert: 27. März 2026

Wer einen leistungsstarken Coding-Assistenten lokal betreiben will, ohne Daten an Cloud-Dienste zu senden, findet in GLM-4.7 Flash eine der besten Optionen. Das Modell von Z.ai nutzen eine MoE-Architektur (Mixture of Experts), bei der pro Anfrage nur 3 von 30 Milliarden Parametern aktiv sind. Das hält den Speicherbedarf niedrig genug für eine einzelne Consumer-GPU.

Wichtigste Funktionen

  • Lokaler Betrieb auf Consumer-Hardware: Mit 4-bit-Quantisierung braucht GLM-4.7 Flash rund 18 GB RAM. Eine RTX 4090 oder RTX 3090 reicht aus. Auf einer RTX 4090 erreicht es 120 bis 220 Tokens pro Sekunde.
  • Starke Coding-Performance für seine Größe: 59,2 % auf SWE-bench Verified bedeutet, dass das Modell echte Software-Bugs aus GitHub-Repositories löst. In seiner Größenklasse (unter 30B aktive Parameter) ist das der beste Wert unter Open-Source-Modellen.
  • Mathematisches Reasoning: 91,6 % auf AIME 2025 und 75,2 % auf GPQA zeigen, dass GLM-4.7 Flash auch bei komplexen analytischen Aufgaben zuverlässig arbeitet.
  • Breite Tool-Unterstützung: Das Modell läuft über Ollama, LM Studio, llama.cpp, vLLM und SGLang. 71 quantisierte Varianten stehen auf Hugging Face bereit. Die Integration in lokale Entwicklungsumgebungen ist damit unkompliziert.
  • Native Tool-Nutzung: GLM-4.7 Flash kann eigenständig Tools aufrufen und mehrstufige Aufgaben abarbeiten. Es eignet sich damit nicht nur als Code-Completion-Tool, sondern auch als lokaler Agent für komplexere Workflows.

Benchmarks im Überblick

BenchmarkGLM-4.7 FlashZum Vergleich
SWE-bench Verified59,2 %Qwen3-30B: 22 %, GPT-OSS-20B: 34 %
AIME 202591,6 %
GPQA75,2 %
LiveCodeBench v664,0 %
τ²-Bench79,5 %
BrowseComp42,8 %

Preise und Tarife

GLM-4.7 Flash steht unter der MIT-Lizenz und ist komplett kostenlos. Es gibt keine laufenden Kosten, keine API-Gebühren, keine Nutzungsbeschränkungen. Wer die Hardware bereits hat, zahlt nichts. Über die Z.ai API ist das Modell ab ungefähr $0,80 pro Million Input-Tokens verfügbar, falls man keinen lokalen Betrieb einrichten möchte.

Für wen ist GLM-4.7 Flash geeignet?

  • Entwickler, die einen lokalen Coding-Assistenten suchen: Das Modell läuft auf einer einzigen GPU und liefert Code-Qualität, die über kleine Modelle wie Phi oder Gemma deutlich hinausgeht. Ideal als Copilot-Alternative ohne Cloud-Anbindung.
  • Unternehmen mit Datenschutzanforderungen: Komplett lokaler Betrieb bedeutet: Keine Daten verlassen das eigene Netzwerk. Für DSGVO-sensible Umgebungen die sauberste Lösung.
  • KI-Einsteiger mit Gaming-Hardware: Wer eine RTX 3090 oder 4090 hat, kann GLM-4.7 Flash über Ollama oder LM Studio in wenigen Minuten einrichten und sofort nutzen.

DSGVO und Datenschutz

GLM-4.7 Flash läuft komplett lokal. Keine Daten verlassen Ihr Gerät. Das ist die DSGVO-konforme Variante für den Unternehmenseinsatz. Über die Z.ai API werden Daten auf Servern in China verarbeitet, was für EU-Unternehmen mit personenbezogenen Daten problematisch sein kann. Für solche Fälle ist der lokale Betrieb die empfohlene Option.

Alternativen zu GLM-4.7 Flash

  • GLM-5.1 – Der große Bruder mit massiv besserer Coding-Leistung (Score 45,3 vs. Opus 4.6), aber nur auf Server-Hardware oder über den Coding Plan nutzbar.
  • Codestral – Mistrals Code-Spezialist mit starker IDE-Integration, besonders gut bei Code-Completion in bekannten Sprachen.
  • GPT-OSS-120B – OpenAIs Open-Weight-Modell mit starkem Reasoning, braucht aber deutlich mehr Hardware als GLM-4.7 Flash.

Vorteile

  • Läuft auf Consumer-Hardware: ca. 18 GB RAM mit 4-bit-Quantisierung (RTX 4090, RTX 3090)
  • SWE-bench Verified 59,2 %, stärkstes Open-Source-Modell seiner Größenklasse
  • MIT-Lizenz, kommerziell ohne Einschränkungen nutzbar
  • Breite Tool-Unterstützung: Ollama, LM Studio, llama.cpp, vLLM, SGLang
  • AIME 2025: 91,6 %, starkes mathematisches Reasoning

Nachteile

  • Deutlich schwächer als das große GLM-5.1 (Coding-Score 45,3 vs. geschätzt ~25 bei Flash)
  • Dokumentation teilweise nur auf Chinesisch verfügbar
  • Kleinere Community als bei Llama oder Qwen
  • Kontextfenster bei Coding-Tasks auf 16K Tokens begrenzt (allgemein 128K)

Anwendungsgebiete

Lokaler Coding-AssistentCode-Generierung und DebuggingAgentic TasksTool-NutzungMathematik und Reasoning