Ollama in Unternehmen: Lokale KI ohne Datenabfluss

Wer Cloud-KI-Dienste wie ChatGPT oder Claude nutzt, schickt Daten auf Server in den USA. Für viele Betriebe ist das keine Option: Kanzleien mit Mandantendaten, Praxen mit Patientenakten, Produktionsbetriebe mit Fertigungsgeheimnissen. Ollama löst dieses Problem, indem die KI komplett auf Ihrer eigenen Hardware läuft. Keine Verbindung nach außen, keine Abos, keine Abhängigkeit von einem Anbieter.

Was ist Ollama eigentlich?

KI-Modelle bestehen aus zwei Teilen: dem Modell selbst (eine große Datei mit mathematischen Gewichten) und einer Software, die dieses Modell ausführt. Lange war es technisch aufwendig, beides auf einem normalen Firmenrechner zum Laufen zu bringen.

Ollama übernimmt genau diesen Teil. Es ist eine Laufzeitumgebung für Sprachmodelle: einmal installieren, Modell herunterladen, loslegen. Der Vergleich, der am besten passt, ist ein lokaler Webserver. Sie installieren ihn einmal, er läuft im Hintergrund, und Sie können ihn mit verschiedenen Anwendungen verbinden.

Technisch stellt Ollama eine API bereit, über die sich jede Anwendung mit dem Modell verbinden kann. Ihr Browser, ein Chat-Frontend wie Open WebUI, ein automatisierter Workflow in Dify. Das Modell selbst liegt auf Ihrer Festplatte und verlässt sie nie.

In der Praxis sieht das so aus:

Terminal

# Modell herunterladen und direkt starten
$ ollama run qwen3.5
# Ollama als Server starten (für Open WebUI, Dify etc.)
$ ollama serve
# Alle heruntergeladenen Modelle anzeigen
$ ollama list

Welche Modelle können Sie nutzen?

Ollama unterstützt alle gängigen Open-Source-Modelle. Hier sind vier, die sich aktuell für den Unternehmenseinsatz bewähren:

Qwen3.5-35B-A3B (von Alibaba): Der effiziente Allrounder. Durch die MoE-Architektur sind trotz 35 Milliarden Parametern nur 3 Milliarden pro Anfrage aktiv. Das Modell läuft auf einem Mac mini mit 24 GB RAM, versteht nativ auch Bilder und deckt 201 Sprachen ab. Apache-2.0-Lizenz, also frei für den kommerziellen Einsatz.
Nemotron 3 Super (von NVIDIA): Der Spezialist für autonome Workflows. 120 Milliarden Parameter gesamt, aber nur 12 Milliarden aktiv pro Anfrage. Damit erreicht es auf dem Agentic-AI-Benchmark PinchBench den besten Wert unter allen offenen Modellen (85,6 %). Gedacht für KI-Agenten, die mehrstufige Aufgaben selbst planen und ausführen. Läuft lokal via Ollama, braucht aber mehr Hardware als kleinere Modelle.
Gemma 3 (von Google): Besonders kompakt und ressourcensparend. Gemma 3 27B ist multimodal, kann also auch Bilder analysieren. Gut geeignet, wenn Hardware begrenzt ist oder Dokumentanalysen mit Bildinhalten gefragt sind.
Mistral Small 3 (von Mistral AI): Das europäische Modell mit Apache-2.0-Lizenz. Effizient, klar in den Ausgaben, kommerziell unbeschränkt nutzbar. Eine gute Wahl, wenn europäische Herkunft ein Argument ist.

Modell	Min. RAM	Stärke	Lizenz	Herkunft
Qwen3.5-35B-A3B	24 GB	Allrounder, multimodal	Apache 2.0	Alibaba
Nemotron 3 Super	ab 64 GB	Agenten, Reasoning	NVIDIA OML	NVIDIA
Gemma 3 27B	20 GB	Kompakt, Bilder	Apache 2.0	Google
Mistral Small 3	12 GB	Effizient, europäisch	Apache 2.0	Mistral AI

Warum der Einsatz von Ollama in Unternehmen so sinnvoll ist

Totale Datensouveränität

Wenn Ollama bei Ihnen installiert ist, arbeitet die KI komplett offline. Sie können das Netzwerkkabel ziehen und die KI antwortet trotzdem. Bilanzen, Kundendaten und Strategien verlassen niemals das Gebäude.

Kostenkontrolle

Bei Cloud-Anbietern zahlen Sie oft pro Anfrage oder monatlich je Nutzer. Ollama ist Open Source und kostenlos. Sie investieren einmal in Hardware, nicht in endlose Abos.

Anpassbarkeit

Durch Verfahren wie RAG lässt sich Ollama mit Ihrem Firmenwissen verbinden, aus Handbüchern, Normen oder Verkaufsunterlagen. Das Modell kennt dann Ihren Betrieb.

Ein Blick in die Praxis: Firmenwissen per RAG nutzbar machen

Das häufigste Einsatzgebiet für Ollama in Unternehmen ist die strukturierte Nutzung von vorhandenem Firmenwissen. Viele Betriebe sitzen auf einem Schatz aus unstrukturierten Daten: Tausende PDFs, technische Zeichnungen, Wartungsprotokolle, E-Mail-Archive. Dieses Wissen ist vorhanden, aber im Arbeitsalltag kaum auffindbar. Herkömmliche Suche findet Schlagworte, keine Zusammenhänge.

Hier erlaubt Ollama den Aufbau einer sogenannten RAG-Architektur (Retrieval Augmented Generation), vollständig lokal. Wie RAG funktioniert und warum es für Unternehmen besonders interessant ist, erklärt der Artikel RAG AI: Wie Sie der KI Ihr Firmenwissen beibringen.

Wie funktioniert das technisch?

Das über Ollama laufende Modell wird mit Ihrer internen Dokumentenbasis gekoppelt. Es erhält Lesezugriff auf Ihr digitales Archiv, ohne dass diese Daten an einen externen Anbieter weitergegeben werden.

Schritt für Schritt: So läuft eine RAG-Anfrage ab

1. Frage stellen. Ein Mitarbeiter stellt eine fachliche Frage, zum Beispiel zur Fehlerbehebung einer Anlage oder zu internen Compliance-Richtlinien.
2. Suche. Das System durchsucht im Bruchteil einer Sekunde lokal Ihre Dokumente nach relevanten Textstellen.
3. Synthese. Das Sprachmodell fasst die Fundstellen sprachlich zusammen und formuliert eine Antwort.
4. Quellenangabe. Das System verweist direkt auf das entsprechende Dokument, zum Beispiel "Wartungshandbuch 2023, Seite 14".

Der entscheidende Vorteil ist nicht nur die Zeitersparnis, sondern die Sicherheit: Da der gesamte Prozess auf Ihrer eigenen Hardware stattfindet, verlassen sensible Betriebsgeheimnisse zu keinem Zeitpunkt Ihr Netzwerk. Wie so ein Setup konkret aussieht, beschreibt unser Praxisguide: RAG-System aufsetzen.

Ollama mit einer Oberfläche verbinden

Ollama allein ist ein Dienst, der im Hintergrund läuft. Damit Mitarbeiter damit arbeiten können, braucht es eine Benutzeroberfläche. Hier gibt es mehrere Optionen:

Für den Einstieg: Open WebUI

Open WebUI ist die einfachste Wahl. Es sieht aus wie ChatGPT, läuft aber lokal auf Ihrem Server. Mehrere Nutzer können gleichzeitig damit arbeiten, Chats werden gespeichert, Modelle lassen sich per Klick wechseln. Ideal für Teams, die sofort loslegen wollen, ohne viel Konfiguration.

Für Workflows: AnythingLLM oder Dify

AnythingLLM und Dify gehen einen Schritt weiter: Dokumente hochladen, eigene Wissensdatenbanken aufbauen, KI-gestützte Workflows einrichten. Wer Ollama nicht nur als Chatbot, sondern als Prozessbaustein nutzen will, ist hier besser aufgehoben.

Was braucht man dafür? Die Hardware-Frage

Das häufigste Missverständnis: Man brauche ein eigenes Rechenzentrum. Stimmt nicht. Moderne Hardware passt auf einen Schreibtisch und reicht für die meisten Unternehmensszenarien aus.

Für lokale KI hat sich eine Gerätekategorie besonders bewährt: Apple-Rechner mit Apple Silicon. Der Grund liegt in der Architektur. Der Arbeitsspeicher wird dort mit sehr hoher Bandbreite zwischen CPU und GPU geteilt. Für KI-Modelle, die viel Speicherzugriff brauchen, ist das ideal.

Der Einstieg: Mac mini M4 Pro

Mit 24 GB RAM (ab ca. 1.300 Euro) läuft Qwen3.5-35B-A3B oder Gemma 3 27B bereits flüssig. Mit 48 GB (ca. 1.900 bis 2.200 Euro) passen auch größere Modelle wie DeepSeek R1 32B. Leise, stromsparend, passt in jeden Serverraum.

Die Profi-Lösung: Mac Studio M4 Max

Wenn mehrere Abteilungen gleichzeitig zugreifen sollen oder mehrere Modelle parallel laufen müssen, ist der Mac Studio die nächste Stufe. Mit 128 GB RAM (ca. 3.700 Euro) lassen sich auch unquantisierte 70B-Modelle und komplexere RAG-Pipelines betreiben.

Diese Geräte stehen nicht am Arbeitsplatz jedes Mitarbeiters. Ein einziges Gerät fungiert als zentraler, interner KI-Server, auf den alle über das gesicherte Netzwerk zugreifen, genau wie auf einen Drucker oder ein Netzlaufwerk. Eine einmalige Investition, die laufende Cloud-Kosten ersetzt.

Wann macht Ollama Sinn, wann nicht?

Lokale KI ist nicht für jeden Betrieb die richtige erste Wahl. Hier eine ehrliche Einschätzung:

Typische Fehler beim Einstieg:

→ Zu kleines Modell wählen. Wer auf Hardware spart und ein 3B-Modell einsetzt, wo ein 14B-Modell gebraucht würde, ist danach enttäuscht. Die Qualität hängt direkt an der Modellgröße.
→ Kein Anwendungsfall definiert. Ollama ohne konkretes Ziel installieren führt zu nichts. Erst den Prozess identifizieren, dann das Werkzeug einrichten.
→ Mitarbeiter nicht einbinden. KI-Tools, die von oben eingeführt werden ohne Schulung und Eingewöhnung, werden nicht genutzt. Der Mensch muss wissen, wofür das Werkzeug gut ist.
→ Erwartungen an Cloud-KI-Niveau. Lokale Modelle sind gut, aber GPT-4o oder Claude ist in manchen Bereichen noch leistungsstärker. Wer maximale Qualität braucht und keine Datenschutzbedenken hat, fährt mit Cloud-Diensten schneller.

Tipp:

Sie möchten Ollama testen, bevor Sie in Hardware investieren? LM Studio ist eine Alternative mit grafischer Oberfläche, die auf dem eigenen Laptop läuft. So können Sie Modelle ausprobieren und einschätzen, ob die Qualität für Ihren Anwendungsfall ausreicht, ohne Serveraufbau.

Fazit: Der sichere Einstieg in lokale KI

Ollama ist kein Allheilmittel, aber ein solides Fundament für eine unabhängige KI-Strategie. Es erlaubt Ihnen, zu experimentieren und echten Mehrwert zu schaffen, ohne die Kontrolle über Ihre Daten abzugeben.

Neben Ollama gibt es weitere Plattformen für lokale KI. Einen umfassenden Überblick über Werkzeuge und Einsatzmöglichkeiten finden Sie auf unserer Seite zu lokalen KI-Modellen.

Wenn Sie und Ihr Team zuerst ein grundlegendes Verständnis für KI aufbauen möchten, ist unser KI-Grundlagen-Workshop ein guter Startpunkt.

Sie möchten wissen, ob lokale KI für Ihren Betrieb passt?

Kein Verkaufsgespräch, sondern eine ehrliche Einschätzung, ob und wie Ollama oder eine andere lokale Lösung in Ihrem Unternehmen Sinn macht.

Sprechen Sie uns an

Unsere KI-Plattform für Unternehmen. Modular, lokal, DSGVO-konform.

Workshops und Vorträge, die Teams KI im Alltag sicher machen.

Strategie, Readiness und Daten, bevor wir Technik bauen.