RAG AI: Wie Sie der KI Ihr Firmenwissen beibringen
Fine-Tuning vs. RAG: zwei Wege, um KI mit Firmenwissen zu füttern. Warum der intelligente Aktenschrank für die meisten Unternehmen die bessere Wahl ist.
Ihr Servicetechniker steht an der Anlage, tippt eine Frage ins Tablet und bekommt in zwei Sekunden die richtige Antwort mit Seitenzahl aus dem Handbuch. Ihr Vertrieb findet sofort das passende Angebot aus 5.000 Dokumenten. Ihr Kundenservice beantwortet Rückfragen, ohne durch zehn Ordner zu klicken.
Das ist kein Zukunftsszenario, das funktioniert heute mit RAG. Und zwar ohne Programmierkenntnisse, ohne Cloud-Zwang und ohne sechsstelliges Budget.
Die Voraussetzung: Ihr Firmenwissen muss in den Kopf der KI. Dafür gibt es zwei grundlegend verschiedene Ansätze, “Fine-Tuning” (Nachtrainieren) und “RAG” (Wissen auf Abruf). Welcher für Ihr Unternehmen der richtige ist, hängt davon ab, was Sie mit dem Wissen vorhaben.
Methode 1: Fine-Tuning (Die Spezialausbildung)
Ihr neuer Mitarbeiter (die KI) geht für 3 Monate auf ein intensives Seminar. Dort muss er Ihre Handbücher, Preislisten und E-Mails auswendig lernen. Er büffelt Tag und Nacht.
Wenn er wiederkommt, hat er das Wissen verinnerlicht. Er ist jetzt ein Spezialist für Ihre Firma. Das ist “Fine-Tuning”. Man verändert das Gehirn der KI dauerhaft.
Die Vorteile:
- Die KI spricht perfekt Ihren “Jargon” (z. B. den spezifischen Wortlaut Ihrer Ingenieure).
- Sie benötigt keine externen Hilfsmittel mehr, das Wissen sitzt tief.
Die Nachteile (und warum wir oft abraten):
- Eingefroren: Das Wissen ist auf dem Stand des letzten Trainingstages eingefroren. Ändern sich Ihre Preise morgen, muss der Mitarbeiter wieder wochenlang ins Seminar (neu trainiert werden).
- Kosten: Das Training benötigt enorme Rechenleistung und Zeit.
- Halluzinationen: Wenn der Mitarbeiter etwas vergessen hat, erfindet er überzeugende Lügen, weil er nirgendwo nachschlagen kann.
Status Quo: In der Praxis gilt Fine-Tuning für reines Faktenwissen in Unternehmen oft als unwirtschaftlich. Es lohnt sich meist nur, um der KI einen ganz bestimmten Schreibstil beizubringen, nicht aber für sich ändernde Fakten.
Methode 2: RAG (Das offene Handbuch)
Jetzt die Alternative. RAG steht für Retrieval Augmented Generation. Vergessen Sie das Wort sofort wieder.
Diesmal geben Sie dem Mitarbeiter kein Seminar. Stattdessen stellen Sie ihm einen perfekt sortierten Aktenschrank direkt neben den Schreibtisch. Wenn Sie ihn fragen: “Wie hoch ist das Drehmoment bei Modell X-200?”, macht er Folgendes:
- Er dreht sich um.
- Er zieht den richtigen Ordner aus dem Schrank.
- Er liest die Stelle nach.
- Er antwortet Ihnen: “Laut Handbuch Seite 12 sind es 50 Newtonmeter.”
Die KI lernt hier nichts auswendig. Sie lernt nur, wo es steht.
Die Vorteile:
- Aktualität: Ändern sich die Preise? Tausch einfach das Blatt im Ordner aus. Die KI weiß es sofort.
- Transparenz: Die KI kann Ihnen sagen: “Ich habe diese Info aus Dokument B, Seite 3.” (Quellenangabe).
- Datenschutz: Der Aktenschrank kann lokal auf Ihrem Server liegen. Mehr dazu auf unserer Seite zu senqo Wissensmanagement.
Fine-Tuning
Das Modell lernt Ihr Wissen dauerhaft. Teuer, langsam, und sobald sich Ihre Daten ändern, veraltet. Macht Sinn für feste Schreibstile oder sehr stabiles Spezialwissen, nicht für laufend aktualisierte Informationen.
RAG
Die KI schlägt bei jeder Frage nach. Ihre Dokumente bleiben aktuell, bleiben lokal, und die Quellen sind nachvollziehbar. Günstiger in der Einrichtung und für 95 % der Unternehmen die richtige Wahl.
Der technische Zaubertrick: Vektorisierung
Damit die RAG-Methode funktioniert, muss die KI blitzschnell die richtige Seite im Aktenschrank finden. Voraussetzung dafür ist, dass Ihre Dokumente sauber strukturiert vorliegen. Wie das gelingt, zeigt unser Artikel Markdown-Dateien: Wissensmanagement für KI. Eine normale Textsuche (wie mit STRG+F am PC) reicht da oft nicht. Denn wenn im Handbuch “Anzugsdrehmoment” steht, der Monteur aber nach “festschrauben” sucht, findet der Computer: Nichts.
Hier kommt die Vektorisierung ins Spiel.
Statt nach Seitenzahlen sortieren wir die Seiten Ihres Handbuchs nach inhaltlicher Bedeutung. In diesem System liegt das Kapitel über “Anzugsdrehmomente” im Regal ganz nah bei den Seiten über “Schrauben” und “Befestigung”. Aber es liegt kilometerweit entfernt vom Kapitel über “Lackierung” oder “Schaltpläne”.
Der Computer verwandelt Ihre Texte in lange Zahlenreihen (Vektoren). Das sind quasi GPS-Koordinaten für die Bedeutung.
Das Geniale daran:
- Der Satz des Monteurs “Wie fest muss die Mutter sein?” bekommt fast die gleichen Koordinaten wie der technische Eintrag “Drehmoment: 50 Nm”.
- Obwohl die Wörter völlig unterschiedlich sind, liegen Frage und Antwort im “Bedeutungs-Raum” direkt nebeneinander.
Die KI sucht also nicht nach Buchstaben, sie sucht nach dem Sinn.
In der Praxis wird die Vektorsuche heute fast immer mit einer klassischen Schlüsselwortsuche kombiniert, die sogenannte Hybrid Search. Der Vorteil: Fachbegriffe wie “Drehmoment” werden exakt gefunden, während die Vektorsuche gleichzeitig verwandte Konzepte wie “Anzugskraft” oder “festschrauben” erkennt. Plattformen wie Dify und Vektordatenbanken wie Qdrant unterstützen das standardmäßig.
Für die Vektorisierung braucht es ein sogenanntes Embedding-Modell. Aktuell (März 2026) liefern Open-Source-Modelle wie Qwen3-Embedding hervorragende Ergebnisse, auch für deutsche Texte. Wer alles lokal betreiben will, kann solche Modelle über Ollama einbinden.
Was passiert technisch, wenn RAG zum Einsatz kommt?
Damit das nicht graue Theorie bleibt, schauen wir uns den Prozess einmal genau an. Ihr Monteur steht an der Anlage und tippt in sein Tablet: “Wie fest muss die Mutter an der Hauptachse beim X-200?”
Im Hintergrund arbeiten nun zwei spezialisierte Akteure zusammen, nicht eine einzige große KI. Man kann sie sich wie ein Team aus einem stillen Archivar und einem eloquenten Moderator vorstellen.
Schritt 1: Der stille Archivar (Die Vektor-Datenbank)
Zuerst landet die Frage bei Ihrer Vektor-Datenbank. Das ist der Ort, an dem Ihr Firmenwissen liegt, gespeichert als die vorhin erwähnten “Zahlen-Koordinaten” statt als reiner Text.
- Was er tut: Der Archivar versteht die Bedeutung. Er sieht: “Aha, der Monteur fragt nach Kraft und Befestigung beim Modell X-200.”
- Sein Job: Er rennt durch die Regalreihen (Ihren Datenbestand) und zieht zielsicher den einen Absatz aus dem PDF-Handbuch, Seite 42, heraus. Dort steht: “Anzugsdrehmoment Hauptwellenverschraubung: 50 Nm”.
- Das Besondere: Dieser Archivar ist extrem präzise und diskret. Er speichert Ihr Wissen sicher auf Ihrem Server. Aber er ist stumm. Er kann keine Sätze bilden, er liefert nur Rohdaten.
Schritt 2: Der eloquente Moderator (Das LLM)
Jetzt übergibt der Archivar diesen gefundenen Schnipsel an das eigentliche Sprachmodell (das LLM, z. B. Llama 4 Scout oder Qwen3.5).
- Was es tut: Das LLM weiß nichts über Ihre Firma. Es hat Ihr Handbuch nie gelesen und speichert es auch nicht. Es bekommt in diesem Moment nur den kleinen Zettel vom Archivar gereicht.
- Sein Job: Es liest den Zettel (“50 Nm”) und verpackt diese Information in eine höfliche, verständliche Antwort für den Menschen.
- Das Ergebnis: Auf dem Tablet des Monteurs erscheint: “Für die Hauptachse am Modell X-200 wird ein Anzugsdrehmoment von 50 Nm benötigt (siehe Handbuch S. 42).”
Warum diese Arbeitsteilung so wichtig ist
Diese Trennung zwischen “Wissen” (Datenbank) und “Sprache” (LLM) bringt Unternehmen drei Vorteile:
- Datenschutz: Das Sprachmodell (der Moderator) ist vergesslich. Es nutzt die Info nur für die Sekunde der Antwort. Ihr Datenschatz bleibt sicher beim Archivar (der Datenbank) unter Verschluss. Warum saubere Daten dafür die Grundlage sind, erklären wir im Artikel Warum die beste KI an Ihrer Ablage scheitert.
- Kontrolle: Fragt der Monteur Unsinn, findet der Archivar nichts. Findet der Archivar nichts, darf der Moderator nichts erfinden. Das reduziert das Risiko von “Halluzinationen” drastisch.
- Austauschbarkeit: Kommt morgen eine schlauere KI auf den Markt? Tauschen Sie einfach den Moderator aus. Ihr mühsam sortiertes Archiv (die Vektordatenbank) bleibt davon unberührt.
Und was ist mit den riesigen Kontextfenstern?
Sprachmodelle wie Llama 4 verarbeiten mittlerweile bis zu 10 Millionen Tokens auf einmal. Da liegt die Frage nahe: Braucht man überhaupt noch RAG, wenn die KI einfach das ganze Handbuch auf einmal lesen kann?
Die kurze Antwort: Ja, RAG bleibt relevant. Und zwar aus drei Gründen.
Geschwindigkeit
RAG findet die relevante Stelle in unter einer Sekunde. Ein Sprachmodell, das 500 Seiten auf einmal durcharbeitet, braucht dafür 30 bis 60 Sekunden. Am Fließband zählt jede Sekunde.
Kosten
Bei RAG zahlt man nur für die wenigen relevanten Absätze pro Anfrage. Bei Long Context zahlt man für alle Tokens im Fenster, bei jeder einzelnen Frage. Bei großen Wissensbasen wird das schnell teuer.
Genauigkeit
Wenn relevante Informationen in der Mitte langer Kontexte liegen, sinkt die Genauigkeit der Antworten um 10-20 Prozentpunkte. RAG liefert gezielt die richtigen Stellen.
In der Praxis setzen viele Unternehmen beide Ansätze kombiniert ein: RAG für das schnelle Retrieval aus großen Wissensbasen, Long Context für die tiefe Analyse einzelner Dokumente.
Welche Tools brauchen Sie für ein RAG-System?
Kein Programmierstudium notwendig. Es gibt mittlerweile Plattformen, die RAG als No-Code-Lösung anbieten. Hier die bekanntesten für den Einstieg:
AnythingLLM
Komplett lokal, kein Cloud-Zwang. Dokumente hochladen, direkt abfragen. Ideal für kleine Teams ohne technisches Vorwissen.
Dify
Flexibler als AnythingLLM. Dify lässt sich mit externen oder lokalen Modellen kombinieren, hat eine Workflow-Automation und kann mehrere Wissensquellen gleichzeitig verwalten.
RAGFlow
Open-Source RAG-Engine mit intelligenter Dokumentenverarbeitung. Erkennt Tabellen, Diagramme und Layouts automatisch und kann Agenten für komplexere Abfragen einsetzen.
Welches Tool das richtige für Ihren Betrieb ist, hängt von Ihrer Infrastruktur und Ihren Anforderungen ab. Einen detaillierten Vergleich der drei Plattformen finden Sie im Artikel RAG-Tools im Vergleich: R2R, Haystack und RAGFlow. Ein erster Testlauf mit AnythingLLM kostet nichts und läuft komplett auf Ihrem eigenen Gerät.
RAG in der Praxis: Erste Schritte ohne Umwege
Viele Unternehmen zögern, weil sie befürchten, dass der Aufbau eines RAG-Systems monatelange Vorbereitung braucht. Das stimmt nicht. Ein erster funktionierender Prototyp ist in einem Nachmittag machbar, wenn die Dokumente stimmen.
Schritt für Schritt zum ersten RAG-System:
- 1. Dokumente aufräumen. Nur aktuelle, durchsuchbare PDFs oder Textdateien verwenden. Keine eingescannten Bilder ohne OCR-Verarbeitung.
- 2. AnythingLLM installieren. Kostenlos, läuft lokal, keine Cloud-Anbindung nötig.
- 3. Lokales Modell laden. Über Ollama ein passendes Modell herunterladen (z. B. Qwen3.5 oder Llama 3.3).
- 4. Dokumente hochladen. AnythingLLM indiziert die Dateien automatisch und erstellt die Vektoren.
- 5. Erste Fragen stellen. Prüfen, ob die KI korrekte Antworten mit Quellenangabe liefert.
- 6. Iterieren. Dokumente ergänzen, schlechte Antworten analysieren, Struktur verbessern.
Am wichtigsten ist die Qualität Ihrer Dokumente. Wenn die Grundlage stimmt, funktioniert RAG zuverlässig. Was passiert, wenn sie nicht stimmt, beschreiben wir im Artikel Warum die beste KI an Ihrer Ablage scheitert.
Wohin entwickelt sich RAG?
RAG steht nicht still. Zwei Trends verändern gerade, wie Unternehmen ihre Wissensbasen nutzen:
Agentic RAG: Die KI entscheidet selbstständig, welche Dokumente sie durchsucht, ob sie weitere Quellen braucht und wie sie die Ergebnisse prüft. Statt einer einzigen Suche laufen mehrere Schritte hintereinander ab, gesteuert von einem KI-Agenten. Tools wie Dify und RAGFlow unterstützen das bereits.
GraphRAG: Statt nur einzelne Textpassagen zu finden, versteht die KI auch Zusammenhänge zwischen Konzepten. Microsofts GraphRAG-Projekt erstellt automatisch Wissensgraphen aus Ihren Dokumenten. Besonders stark bei Fragen, die Informationen aus mehreren Quellen kombinieren (“Welche Kunden nutzen Produkt X und hatten gleichzeitig einen Servicefall?”).
Für die meisten Unternehmen ist klassisches RAG heute der richtige Einstieg. Agentic RAG und GraphRAG werden relevant, sobald die Wissensbasis wächst und die Fragen komplexer werden.
Fazit: Was ist der richtige Weg für Ihren Betrieb?
Das aktuelle Fazit ist für 95 % der Unternehmen eindeutig:
Setzen Sie auf RAG (den Aktenschrank).
Warum?
- Flexibilität: Mittelständische Daten ändern sich oft. RAG verzeiht Änderungen, Fine-Tuning nicht.
- Kosten: RAG ist deutlich günstiger in der Einrichtung und im Betrieb.
- Kontrolle: Sie können genau steuern, welche Dokumente im “Aktenschrank” landen.
Das Schöne an der RAG-Methode ist, dass sie wunderbar lokal funktioniert. Mit einer lokalen KI (z. B. Qwen3.5 über Ollama) und einer lokalen Vektor-Datenbank wie Qdrant passiert alles auf Ihrem Rechner, ohne dass Daten Ihr Netzwerk verlassen. Tools wie AnythingLLM oder Dify machen den Aufbau auch ohne Programmierkenntnisse möglich.
Wenn Sie wissen möchten, wie Sie in unter einer Stunde ein erstes RAG-System zum Laufen bringen, lesen Sie weiter in unserem Praxisguide: RAG-System aufsetzen. Einen breiteren Überblick über RAG im Unternehmenskontext finden Sie auf unserer Seite zu KI-Lösungen für Unternehmen.
Sie möchten Ihr Firmenwissen sicher in die KI bringen?
Kein Verkaufsgespräch, sondern eine ehrliche Einschätzung, welches Setup für Ihren Betrieb Sinn macht und was der Aufbau kostet.
Lassen Sie uns redenKI-Berater & Trainer | Gründer von gewusst:KI
Wir helfen Unternehmen, KI sinnvoll einzusetzen. Praxisnah und herstellerunabhängig.
Verwandte Artikel
Digitaler Zwilling: Erfahrungswissen mit KI bewahren
Wenn erfahrene Mitarbeitende gehen, geht ihr Wissen mit. Wie ein digitaler Wissens-Zwilling funktioniert, was er kann und wie ein Unternehmen so ein Projekt angeht.
KI-Wissensspeicher anlegen: extern statt eingebaut
Viele Unternehmen sammeln ihr KI-Wissen in Chatverläufen und verlieren es beim nächsten Werkzeugwechsel. Wie ein KI-Wissensspeicher auf der eigenen Ablage das verhindert.