Eigenes KI-Modell trainieren: Was es wirklich kostet
Von Prompt Engineering bis Pre-Training: Die vier Stufen der KI-Anpassung und was sie 2026 kosten. Ein ehrlicher Überblick mit aktuellen Zahlen.
OpenAI hat für das Training von GPT-5 rund 460 Millionen Euro pro Trainingsdurchlauf ausgegeben. Insgesamt investiert das Unternehmen über 8 Milliarden Euro jährlich allein in Rechenleistung für Forschung und Entwicklung. Wenn ein Unternehmen dann fragt “Können wir nicht einfach eine eigene KI trainieren?”, ist die ehrliche Antwort: Kommt darauf an, was Sie damit meinen.
Denn das Problem ist nicht mangelnde Ambition. Das Problem ist ein weit verbreitetes Missverständnis darüber, was “KI trainieren” eigentlich bedeutet. Wenn die meisten Menschen davon sprechen, eine KI “zu trainieren”, meinen sie in Wirklichkeit etwas ganz anderes. Und genau das ist die gute Nachricht.
Erst einmal: Was bedeutet “KI trainieren” überhaupt?
Stellen Sie sich vor, Sie möchten einen neuen Mitarbeiter für Ihr Unternehmen. Sie haben grundsätzlich vier Möglichkeiten:
- Einweisung geben: Sie erklären einem fertigen Fachmann kurz, was Sie von ihm erwarten. Er bringt sein Wissen mit, Sie geben nur die Richtung vor.
- Nachschlagewerke bereitstellen: Sie geben ihm Zugriff auf Ihre internen Handbücher und Dokumente, damit er bei Bedarf nachschlagen kann.
- Weiterbildung: Sie schicken ihn auf ein Seminar, damit er sich einen bestimmten Stil oder Spezialwissen aneignet.
- Von Geburt an großziehen: Sie ziehen einen Menschen von klein auf selbst groß und bringen ihm alles bei, von der Sprache bis zum Fachwissen.
Die vierte Option klingt absurd? Genau das ist aber, was die meisten Menschen meinen, wenn sie von “eigene KI trainieren” sprechen. Und genau das ist auch das, was Hunderte Millionen kostet.
Die gute Nachricht: Für 99 % aller Unternehmensanwendungen reichen die ersten drei Optionen völlig aus, und die sind erschwinglich.
Stufe 1: Prompt Engineering (Kosten: 0 Euro)
Die einfachste und oft unterschätzte Methode: Sie sagen der KI einfach, was sie tun soll, und zwar richtig gut.
Prompt Engineering ist die Kunst, Anweisungen so zu formulieren, dass die KI genau das liefert, was Sie brauchen. Kein Training, keine Programmierung, keine Kosten.
Ein Beispiel: Statt: “Schreib mir eine E-Mail.” Besser: “Sie sind ein erfahrener Vertriebsmitarbeiter eines Maschinenbauunternehmens. Schreibe eine freundliche, aber professionelle Antwort auf eine Kundenanfrage zum Liefertermin. Der Ton sollte lösungsorientiert sein, nicht entschuldigend.”
Der Unterschied ist enorm. Die KI weiß jetzt, welche Rolle sie einnehmen soll, welchen Ton sie treffen muss und was das Ziel ist.
Für wen ist das geeignet?
- Für alle, die sofort starten wollen
- Für Aufgaben, bei denen kein firmenspezifisches Wissen nötig ist
- Für das Testen, ob KI überhaupt der richtige Ansatz ist
Die Grenzen: Die KI kennt Ihre internen Daten nicht. Sie kann nicht wissen, wie Ihre Preisliste aussieht oder was in Ihrem Wartungshandbuch steht.
Stufe 2: RAG (Kosten: ab ca. 5.000 Euro)
Hier wird es für Unternehmen interessant. RAG steht für “Retrieval Augmented Generation”, aber vergessen Sie den Begriff sofort wieder. Nennen wir es einfach: Der intelligente Aktenschrank.
Die Idee ist simpel: Statt die KI mit Ihrem Firmenwissen zu “trainieren”, geben Sie ihr Lesezugriff auf Ihre Dokumente. Wenn jemand eine Frage stellt, schlägt die KI erst in Ihren Unterlagen nach und formuliert dann eine Antwort basierend auf dem, was sie gefunden hat.
Das Entscheidende: Die KI lernt hier nichts dauerhaft. Sie speichert Ihre Daten nicht in ihrem “Gehirn”. Sie blättert nur nach, wie ein kluger Mitarbeiter mit einem guten Ablagesystem.
Warum ist das so wichtig?
- Aktualität: Ändern sich Ihre Preise oder Prozesse? Tauschen Sie einfach das Dokument aus. Die KI weiß es sofort.
- Datenschutz: Die Daten bleiben auf Ihrem Server. Kein Cloud-Anbieter sieht Ihre Geschäftsgeheimnisse.
- Quellenangaben: Die KI kann sagen: “Das steht in Handbuch X, Seite 12.” Keine Halluzinationen, keine erfundenen Fakten.
Für die technische Tiefe zu RAG siehe auch unseren Blogartikel: Wie Sie der KI Ihr Firmenwissen beibringen. Einen konkreten Leitfaden zur Umsetzung finden Sie im Praxisguide: RAG-System aufsetzen.
Für wen ist das geeignet?
- Unternehmen mit vorhandenen Dokumenten (Handbücher, FAQs, Richtlinien)
- Wenn Datenschutz und Datensouveränität wichtig sind
- Wenn sich Ihr Wissen regelmäßig ändert
Produktion & Industrie
Wartungshandbücher, Sicherheitsvorschriften und Bedienungsanleitungen direkt abrufbar, ohne seitenlanges Suchen.
Dienstleistung & Beratung
Angebots- und Vertragsvorlagen, interne Prozessbeschreibungen und Kundenfeedback als Wissensquelle nutzen.
Kanzleien & Gesundheit
Gesetze, Abrechnungsregeln und interne Leitlinien für schnelle Antworten, ohne sensible Daten in die Cloud zu geben.
Stufe 3: Fine-Tuning (Kosten: ab ca. 5.000 Euro)
Jetzt kommen wir in den Bereich, der tatsächlich “Training” genannt werden kann, auch wenn es eher eine Weiterbildung ist als eine komplette Ausbildung.
Beim Fine-Tuning nehmen Sie ein fertiges Sprachmodell (wie Llama, Qwen oder Mistral) und trainieren es mit Ihren eigenen Beispieldaten nach. Das Modell verändert dabei seine “Synapsen”, es lernt einen bestimmten Stil, eine Fachsprache oder ein Verhalten.
Ein Vergleich: Stellen Sie sich einen ausgebildeten Koch vor. Beim Fine-Tuning bringen Sie ihm bei, ausschließlich bayerische Küche zu kochen. Er vergisst nicht, wie man kocht, aber er wird zum Spezialisten für Schweinebraten und Knödel.
Wann macht Fine-Tuning Sinn?
- Wenn die KI einen ganz bestimmten Schreibstil oder Jargon beherrschen soll
- Wenn Sie tausende ähnliche Aufgaben automatisieren möchten (z. B. Klassifizierung von Support-Tickets)
- Wenn Prompt Engineering und RAG nicht ausreichen
Was kostet Fine-Tuning konkret?
Die Kosten hängen stark davon ab, welchen Weg Sie wählen:
Cloud-APIs (z. B. OpenAI)
GPT-4o Fine-Tuning: ca. 23 Euro pro Million Trainingstokens. Ein typischer Datensatz mit 100.000 Tokens kostet unter 10 Euro an reinen API-Kosten. Der eigentliche Aufwand steckt in der Datenvorbereitung.
Lokal mit Open Source
Ein 7B-Modell (z. B. Qwen oder Llama) mit LoRA: 900 bis 2.800 Euro an Cloud-GPU-Kosten. Oder einmalig ca. 1.500 Euro für eine eigene RTX 4090, die sich nach wenigen Wochen amortisiert.
Die Herausforderungen:
- Daten: Sie brauchen hunderte bis tausende hochwertige Beispiele. “Müll rein, Müll raus” gilt hier besonders, warum Datenqualität so entscheidend ist, zeigt unser Artikel Warum die beste KI an Ihrer Ablage scheitert.
- Einfrieren: Das Wissen ist auf dem Stand des Trainings eingefroren. Ändern sich Ihre Prozesse, muss neu trainiert werden.
- Hardware: Auch mit modernen Methoden wie LoRA oder QLoRA brauchen Sie vernünftige Rechenleistung.
Was sind LoRA und QLoRA? Statt alle Milliarden Parameter eines Modells neu zu trainieren (was Wochen dauern und über 100 GB Grafikspeicher benötigen würde), trainiert LoRA nur einen winzigen Bruchteil, typischerweise unter 1 %. Das reduziert den Speicherbedarf auf 16 bis 24 GB. QLoRA geht noch weiter und komprimiert das Modell zusätzlich auf 8 bis 12 GB. In der Praxis erreichen beide Methoden 90 bis 95 Prozent der Qualität eines vollständigen Fine-Tunings.
Typische Fehler beim Fine-Tuning:
- → Zu wenige Trainingsdaten. Unter 500 hochwertigen Beispielen bringt Fine-Tuning meist wenig. Quantität ersetzt keine Qualität.
- → Inkonsistente Daten. Wenn Ihre Beispieldaten selbst widersprüchlich sind, lernt das Modell die Widersprüche mit.
- → Fine-Tuning statt RAG. Viele setzen Fine-Tuning ein, wo RAG einfacher, günstiger und flexibler wäre.
- → Kein Testset. Ohne eine Testmenge sehen Sie nicht, ob das Modell wirklich besser geworden ist, oder ob es sich nur an die Trainingsdaten "erinnert".
RAG oder Fine-Tuning? Der Konsens 2026
Die Frage “RAG oder Fine-Tuning?” ist 2026 keine Entweder-oder-Entscheidung mehr. Die Faustformel lautet: Flüchtiges Wissen gehört in RAG, stabiles Verhalten ins Fine-Tuning.
Konkret: Wenn die KI falsche Fakten liefert (veraltete Preise, falsche Ansprechpartner), löst RAG das Problem. Wenn die KI zwar die richtigen Informationen findet, sie aber im falschen Ton oder Format ausgibt, ist Fine-Tuning der richtige Hebel.
Für die allermeisten Unternehmensanwendungen ist RAG der bessere Startpunkt: günstiger, flexibler und sofort aktualisierbar.
Stufe 4: Pre-Training (Kosten: Hunderte Millionen Euro)
Und hier sind wir bei dem, was die meisten Menschen eigentlich meinen, wenn sie “KI trainieren” sagen: Ein Sprachmodell von Grund auf selbst erstellen.
Die nackten Zahlen:
- GPT-4 (2023): über 92 Millionen Euro Trainingskosten
- GPT-5 (2025): rund 460 Millionen Euro pro Trainingsdurchlauf
- Googles Gemini Ultra: geschätzt bis zu 175 Millionen Euro
- Trend: Die nächste Modellgeneration wird voraussichtlich über 1 Milliarde Euro pro Modell kosten
Und das sind nur die reinen Rechenkosten. Dazu kommen: Datenakquise, Datenbereinigung, Spezialisten-Gehälter, Infrastruktur, Strom.
Was passiert beim Pre-Training? Das Modell liest buchstäblich das halbe Internet. Milliarden von Texten, Büchern, Artikeln. Es lernt Grammatik, Fakten, Zusammenhänge, alles, was Sprache ausmacht. Das Ergebnis ist ein “rohes” Sprachmodell, das noch nicht besonders nützlich ist. Es kann Sätze vervollständigen, aber noch keine Fragen beantworten oder Anweisungen befolgen.
Warum macht das kaum ein Unternehmen?
- Die Kosten sind astronomisch
- Es braucht Monate bis Jahre Entwicklungszeit
- Sie konkurrieren mit den besten Open-Source-Modellen, die kostenlos sind
- Selbst wenn es gelingt: Sie haben nur die Grundlage, nicht die Anpassung
Der einzige Grund, ein Modell von Grund auf zu trainieren, wäre eine Sprache oder Domäne, die in existierenden Modellen nicht abgedeckt ist. Für deutsche Geschäftsdokumente ist das definitiv nicht der Fall.
Die Übersicht: Welche Methode für welchen Zweck?
Prompt Engineering
Kosten: 0 Euro | Zeit: Sofort
Beste Wahl für: Einstieg, allgemeine Aufgaben, erste Tests
RAG (Wissen auf Abruf)
Kosten: ab 5.000 Euro | Zeit: 2 bis 4 Wochen
Beste Wahl für: Wissensmanagement, Support, Dokumentation
Fine-Tuning
Kosten: ab 5.000 Euro | Zeit: 4 bis 8 Wochen
Beste Wahl für: Spezielle Schreibstile, Klassifizierungsaufgaben
Pre-Training
Kosten: Hunderte Millionen Euro | Zeit: Monate bis Jahre
Beste Wahl für: Große Tech-Konzerne, Forschungsinstitute
Lokal oder Cloud: Wo laufen die Modelle?
Eine Frage, die wir genauso häufig hören wie die nach dem Training: “Müssen unsere Daten in die Cloud?”
Die Antwort: Nein, müssen sie nicht. Gerade für Prompt Engineering und RAG gibt es ausgereifte lokale Lösungen. Mit Ollama läuft ein leistungsfähiges Sprachmodell auf einem normalen Bürorechner oder Server im eigenen Netzwerk. Die Daten verlassen das Haus nie.
Wer Cloud-GPUs für Fine-Tuning mieten will, zahlt aktuell zwischen 1,80 und 3,70 Euro pro Stunde für eine NVIDIA H100 (80 GB). Eine NVIDIA A100 gibt es bereits ab 1,20 Euro pro Stunde. Für ein 7B-Modell mit LoRA reicht oft eine einzige GPU für wenige Stunden.
Für eine übersichtliche Oberfläche, über die Mitarbeiter mit dem lokalen Modell interagieren können, eignet sich AnythingLLM. Es lässt sich mit eigenen Dokumenten verbinden und bietet eine Chat-Oberfläche ohne Programmierkenntnisse.
Wer Abläufe automatisieren will, ohne Code schreiben zu müssen, findet in n8n oder Flowise gute Einstiegspunkte.
Tipp:
Bevor Sie in Fine-Tuning oder teure Cloud-Abos investieren, testen Sie erst eine lokale RAG-Lösung mit Ihren wichtigsten Dokumenten. In vielen Fällen deckt das bereits 80 % der Anforderungen ab, bei einem Bruchteil der Kosten und ohne Datenschutzbedenken. Welche Plattform für lokale KI am besten zu Ihrem Setup passt, zeigt unser Vergleich: Ollama vs. LM Studio vs. GPT4All.
Was brauchen Sie wirklich?
Bevor wir mit Unternehmen über technische Methoden sprechen, stellen wir immer dieselben vier Fragen:
1. Was soll die KI konkret tun? Eine KI, die Supportanfragen einordnet, braucht andere Methoden als eine, die Angebote im Firmenstil formuliert.
2. Welche Daten haben Sie? Handbücher und PDFs sind eine gute Grundlage für RAG. Tausende strukturierte Ein-Ausgabe-Paare sind die Voraussetzung für sinnvolles Fine-Tuning. Wer keine Daten hat, kann auch nichts trainieren.
3. Wie oft ändern sich Ihre Prozesse? RAG ist bei sich ändernden Inhalten klar im Vorteil: Dokument austauschen, fertig. Fine-Tuning erfordert bei jeder relevanten Änderung einen neuen Trainingsdurchlauf.
4. Was darf die KI wissen? Geht es um sensible Kundendaten, Betriebsgeheimnisse oder medizinische Informationen? Dann ist eine lokale Lösung in der Regel Pflicht, keine Option.
Diese Fragen klingen einfach. In der Praxis decken sie meist auf, dass die ursprüngliche Idee, eine eigene KI zu trainieren, gar nicht das eigentliche Problem lösen würde.
Fazit: Sie brauchen kein eigenes Modell. Sie brauchen die richtige Strategie.
Die Frage “Kann ich meine eigene KI trainieren?” ist eigentlich die falsche Frage. Die richtige Frage lautet: “Welche Methode bringt mir den größten Nutzen bei vertretbarem Aufwand?” Wenn Sie Unterstützung bei der Entwicklung einer passenden KI-Strategie brauchen, helfen wir Ihnen gerne weiter.
Für die allermeisten Unternehmen lautet die Antwort: Starten Sie mit gutem Prompt Engineering. Wenn Sie Firmenwissen einbinden möchten, setzen Sie auf RAG. Und nur wenn das nicht reicht, wirklich nur dann, denken Sie über Fine-Tuning nach.
Das Schöne daran: Sie können klein anfangen und sich hocharbeiten. Prompt Engineering kostet Sie nichts außer Zeit. Und mit einer lokalen RAG-Lösung auf Basis von Ollama bleiben Ihre Daten dort, wo sie hingehören: bei Ihnen.
Sie möchten wissen, welcher Ansatz zu Ihrem Unternehmen passt?
Kein Verkaufsgespräch, sondern eine ehrliche Einschätzung, ob und wie KI in Ihrem Unternehmen Sinn macht. Wir schauen gemeinsam auf Ihre Situation und zeigen, wo Sie am sinnvollsten anfangen.
Schreiben Sie unsKI-Berater & Trainer | Gründer von gewusst:KI
Wir helfen Unternehmen, KI sinnvoll einzusetzen. Praxisnah und herstellerunabhängig.
Verwandte Artikel
RAG AI: Wie Sie der KI Ihr Firmenwissen beibringen
Fine-Tuning vs. RAG: zwei Wege, um KI mit Firmenwissen zu füttern. Warum der intelligente Aktenschrank für die meisten Unternehmen die bessere Wahl ist.
Gemma 4 im Unternehmenstest: Googles neue offene KI-Modelle im Vergleich zu Qwen 3.5, Nemotron und GLM-5.1
Google hat Anfang April 2026 Gemma 4 unter Apache-2.0 veröffentlicht. Wie sich die vier Varianten unterscheiden, wie sie gegen Qwen 3.5, Nemotron 3 Super und GLM-5.1 abschneiden und wofür Sie Gemma 4 im Unternehmen einsetzen können.