Nemotron-Cascade 2: KI-Tool Test & Bewertung
Nemotron-Cascade 2 ist NVIDIAs neues Open-Weight-Sprachmodell mit 30 Milliarden Parametern, von denen pro Anfrage nur 3 Milliarden aktiv sind (Mixture-of-Experts). Es erreicht Goldmedaillen-Niveau bei der Internationalen Mathematik-Olympiade 2025, der IOI und den ICPC World Finals, und übertrifft damit deutlich größere Modelle wie Nemotron 3 Super (120B) und Qwen 3.5-35B.
Zuletzt aktualisiert: 22. März 2026
Die meisten kleinen Sprachmodelle scheitern an Aufgaben, die echtes mathematisches oder algorithmisches Denken erfordern. Nemotron-Cascade 2 zeigt, dass das nicht an der Modellgröße liegen muss: Mit nur 3 Milliarden aktiven Parametern löst es Probleme auf dem Niveau internationaler Mathematik- und Informatik-Olympiaden. Es ist erst das zweite Open-Weight-Modell überhaupt (nach DeepSeek-V3.2 Speciale mit 671B Parametern), das in allen drei großen Wettbewerben Goldmedaillen erreicht.
Wichtigste Funktionen
- Thinking- und Instruct-Modus: Sie können zwischen zwei Modi wählen. Im Thinking-Modus zeigt das Modell seinen Denkprozess in
<think>-Tags und eignet sich für komplexe Reasoning-Aufgaben. Im Instruct-Modus antwortet es direkt ohne Zwischenschritte, schneller und kompakter. - Cascade Reinforcement Learning: Das Training nutzen einen mehrstufigen RL-Ansatz, bei dem jede Domäne (Mathematik, Code, Alignment) separat optimiert wird. Dadurch verbessert sich die Leistung in einem Bereich, ohne dass andere Bereiche darunter leiden.
- 1-Million-Token-Kontextfenster: Das Modell verarbeitet bis zu einer Million Tokens pro Anfrage mit einem NIAH-Score (Needle-in-a-Haystack) von 99,0. Lange Dokumente, Codebases oder umfangreiche Konversationen sind damit kein Problem.
- Tool-Use und Agentic AI: Nemotron-Cascade 2 unterstützt strukturierte Tool-Aufrufe, zum Beispiel für Python-Code-Ausführung. Das macht es geeignet für autonome Agenten-Workflows, die mehrere Schritte mit externen Tools kombinieren.
- Effiziente MoE-Architektur: Von den 30 Milliarden Parametern sind pro Token nur 3 Milliarden aktiv. NVIDIA spricht von einer 20-fach höheren “Intelligenz-Dichte” im Vergleich zu DeepSeek-V3.2. Auf Consumer-Hardware lassen sich das Modell in quantisierter Form betreiben.
Preise und Tarife
Nemotron-Cascade 2 ist als Open-Weights-Modell kostenlos verfügbar. Sie können es über Ollama, LM Studio, llama.cpp oder vLLM lokal betreiben, ohne laufende Kosten. Auf Hugging Face stehen über 22 quantisierte Varianten bereit, die den Betrieb auf unterschiedlicher Hardware ermöglichen. Für den API-Zugang bietet NVIDIA einen kostenlosen Testzugang über build.nvidia.com an. Weitere Cloud-Anbieter werden das Modell voraussichtlich in ihre Plattformen integrieren.
Für wen ist Nemotron-Cascade 2 geeignet?
- Entwickler, die Reasoning-Aufgaben lokal lösen wollen: Mit nur 3B aktiven Parametern läuft das Modell in quantisierter Form auch auf Consumer-GPUs. Die Reasoning-Qualität ist dabei auf dem Niveau von Modellen, die ein Vielfaches an Rechenleistung benötigen.
- KI-Agenten-Entwickler: Die eingebaute Tool-Use-Fähigkeit und der Thinking-Modus machen das Modell interessant für mehrstufige Agenten-Workflows. Wer bereits Nemotron 3 Super nutzen, bekommt hier eine kompaktere Alternative mit stärkerem Reasoning.
- Forschende und Studierende im Bereich Mathematik und Informatik: Das Modell generiert vollständige mathematische Beweise in natürlicher Sprache und löst Wettbewerbsprogrammieraufgaben auf Goldmedaillen-Niveau. Für Lernzwecke ist der Thinking-Modus besonders aufschlussreich.
DSGVO und Datenschutz
Nemotron-Cascade 2 ist ein Open-Weights-Modell und kann vollständig lokal betrieben werden. Bei lokaler Nutzung über Ollama, LM Studio oder vLLM verlassen keine Daten Ihren Rechner. Die NVIDIA Cloud-API (build.nvidia.com) läuft auf US-Servern und ist für den Einsatz mit personenbezogenen Daten in den meisten Fällen nicht DSGVO-konform. Für datenschutzsensible Anwendungen ist der lokale Betrieb der empfohlene Weg. Quantisierte Varianten ermöglichen den Betrieb auch auf Hardware ohne High-End-GPU.
Alternativen zu Nemotron-Cascade 2
- Nemotron 3 Super: NVIDIAs größeres Schwestermodell mit 120B Parametern (12B aktiv). Stärker bei Agentic AI (PinchBench 85,6 %), aber deutlich höhere Hardware-Anforderungen. Nemotron-Cascade 2 übertrifft es bei Mathematik und Code-Reasoning.
- Qwen 3.5: Alibabas Open-Source-Modell in verschiedenen Größen. Die 35B-A3B-Variante ist direkt vergleichbar, wird aber von Nemotron-Cascade 2 auf den meisten Benchmarks übertroffen.
- Google Gemma 4: Googles offene Modellfamilie mit 26B MoE (3,8B aktiv) und 31B Dense. Apache 2.0 Lizenz, 256K Context, nativ multimodal.
Vorteile
- Goldmedaillen bei IMO 2025, IOI 2025 und ICPC World Finals
- Extrem effizient: 30B Parameter, nur 3B aktiv (MoE)
- 1-Million-Token-Kontextfenster (NIAH-Score: 99,0)
- Thinking- und Instruct-Modus frei wählbar
- Lokal betreibbar über Ollama, LM Studio, llama.cpp
Nachteile
- Cloud-API nicht DSGVO-konform (US-Server)
- NVIDIA Open Model License, nicht so permissiv wie MIT oder Apache 2.0
- Noch sehr neues Modell, Community-Ökosystem im Aufbau
- Braucht externe LLM-APIs für bestimmte Tool-Use-Szenarien