RAG-System aufsetzen: Die beste Konfiguration mit wenig Aufwand

Ein Steuerberater will seine Mandanteninformationen per KI durchsuchbar machen. Ein Produktionsbetrieb will, dass Techniker Handbücher per Chat abfragen können. Ein Handelsunternehmen will Produktwissen für den Vertrieb bündeln. Alle drei brauchen dasselbe: ein RAG-System.

Die Theorie haben wir im Artikel RAG AI: Wie Sie der KI Ihr Firmenwissen beibringen erklärt. Hier geht es um die Umsetzung: Welche Komponenten brauchen Sie, welche Tools haben sich bewährt und wie kommen Sie Schritt für Schritt zu einem funktionierenden System, ohne monatelange Projektplanung?

Warum ein LLM alleine nicht reicht

Große Sprachmodelle wie Qwen3, Llama 4 oder GPT-5 kennen nur ihre Trainingsdaten. Sie wissen nichts über Ihre internen Prozesse, Handbücher oder Kundendaten. Stellen Sie eine spezifische Frage zu Ihrem Unternehmen, wird die KI raten, und dabei überzeugend klingen. Das ist das Problem mit Halluzinationen.

RAG (Retrieval-Augmented Generation) löst das, indem es die KI mit einem Zugriff auf Ihre eigenen Dokumente ausstattet. Statt zu raten, schlägt die KI nach, in Ihrem digitalen Archiv. Die Grundlagen dazu haben wir hier ausführlich beschrieben.

Die vier Bausteine eines RAG-Systems

Jedes RAG-System besteht aus denselben Grundkomponenten. Man kann sie sich wie eine kleine Fabrik vorstellen, in der jede Station eine bestimmte Aufgabe hat:

1. Preprocessing

Dokumente in sauberen Text umwandeln, bevor die KI sie verarbeiten kann.

2. Embedding

Texte in Zahlenvektoren umwandeln, damit die KI nach Bedeutung suchen kann.

3. Vektordatenbank

Die erzeugten Vektoren speichern und bei Anfragen blitzschnell durchsuchen.

4. Sprachmodell

Die gefundenen Textpassagen nehmen und daraus eine lesbare Antwort formulieren.

1. Dokumenten-Preprocessing: Aus Chaos wird Text

Bevor die KI etwas nachschlagen kann, müssen Ihre Dokumente in sauberen, strukturierten Text umgewandelt werden. PDFs, Word-Dateien, Präsentationen, ein LLM kann damit in Rohform wenig anfangen.

Für digitale Dokumente: Docling (IBM)

Docling ist ein Open-Source-Tool von IBM, das PDF, DOCX, PPTX, XLSX, HTML und sogar Audio- und Videodateien in Markdown umwandelt. Es versteht Tabellen, erkennt Layouts und liefert sauberen Text. Seit März 2026 (Version 2.80) bringt Docling ein eigenes Vision-Language-Model mit: Granite-Docling-258M erfasst Charts, Tabellen, Formulare, Code und Gleichungen in einem einzigen Durchlauf, schneller und präziser als der bisherige regelbasierte Ansatz.

from docling.document_converter import DocumentConverter
source = "pfad/zu/deinem/dokument.pdf"
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())

Der entscheidende Vorteil: Bei digitalen PDFs (also solchen, die am Computer erstellt wurden) umgeht Docling klassische OCR komplett. Es liest den Text direkt aus der Dateistruktur, deutlich schneller und fehlerfreier.

Für Scans und Bilder: GLM-OCR

Nicht jedes Dokument ist digital erstellt. Gescannte Verträge, fotografierte Rechnungen oder handschriftliche Notizen brauchen echte Texterkennung. Hier kommt GLM-OCR ins Spiel, ein OCR-Modell von Zhipu AI mit nur 0,9 Milliarden Parametern, das gedruckten Text, Tabellen, Formeln und sogar Handschrift erkennt. GLM-OCR steht unter Apache-2.0-Lizenz und läuft lokal über Ollama.

Für Office-Dokumente: MarkItDown (Microsoft)

Wer primär Word-, PowerPoint- und Excel-Dateien verarbeiten will, findet in Microsofts MarkItDown (Open Source) eine leichtgewichtige Alternative. Es konvertiert komplett im Arbeitsspeicher, ohne temporäre Dateien, und liefert sauberes Markdown mit korrekt ausgerichteten Tabellen.

2. Embedding-Modell: Bedeutung statt Buchstaben

Damit die KI nicht nur nach exakten Wörtern sucht, sondern nach Bedeutung, werden Texte in sogenannte Vektoren umgewandelt, lange Zahlenreihen, die den inhaltlichen Kern eines Satzes abbilden. Wie das funktioniert, haben wir im RAG-Grundlagenartikel anhand des Aktenschrank-Beispiels erklärt.

Die Wahl des Embedding-Modells hat direkten Einfluss auf die Qualität Ihrer Suchergebnisse:

deepset-mxbai-embed-de-large-v1

Speziell für deutsche und englische Texte trainiert, auf über 30 Millionen hochwertigen deutschen Textpaaren. Mit 335 Millionen Parametern läuft es auf handelsüblicher Hardware ohne GPU. Die beste Wahl für rein deutschsprachige Wissensbasen mit begrenzten Ressourcen.

Qwen3-Embedding

Platz 1 auf dem MTEB Multilingual Leaderboard (Score: 70,58). Verfügbar in 0,6B, 4B und 8B Parametern über Ollama. Unterstützt über 100 Sprachen. Die stärkere Wahl, wenn Sie mehrsprachig arbeiten oder mehr Rechenleistung zur Verfügung haben.

Beide Modelle laufen lokal, keine Daten verlassen Ihren Server. Für die meisten Unternehmen mit deutschsprachigen Dokumenten empfehlen wir den Einstieg mit deepset-mxbai-embed-de-large-v1, da es ressourcenschonend ist und für Deutsch hervorragende Ergebnisse liefert.

Reranking: Die zweite Stufe für präzisere Ergebnisse

Ein Trick, der die Antwortqualität spürbar verbessert: Nach der ersten Suche (Retrieval) lassen Sie ein zweites Modell die gefundenen Passagen nochmal bewerten. Dieses “Reranking” sortiert die Ergebnisse nach tatsächlicher Relevanz. Das Embedding-Modell findet schnell 20 Kandidaten, der Reranker destilliert daraus die 3 bis 5 wirklich relevanten Stellen.

Qwen3-Reranker (verfügbar in 0,6B, 4B und 8B über Ollama) ist dafür aktuell die beste Open-Source-Option. Dify und RAGFlow unterstützen Reranking direkt in der Oberfläche.

3. Vektordatenbank: Wo das Wissen liegt

Die erzeugten Vektoren müssen irgendwo gespeichert und durchsuchbar gemacht werden. Dafür gibt es spezialisierte Datenbanken:

Für den Einstieg: ChromaDB

ChromaDB ist leichtgewichtig, hat eine einfache API mit nur vier Kernfunktionen und eignet sich gut für Proof of Concepts und kleinere Datenmengen (unter 10 Millionen Vektoren). Es lässt sich direkt aus Python heraus nutzen und integriert sich mit LangChain und LlamaIndex.

Für den Produktivbetrieb: Qdrant

Qdrant ist in Rust geschrieben und dadurch schnell und stabil unter Last. Es bietet Hybrid Search (Kombination aus Vektorsuche und Schlüsselwortsuche), was in der Praxis deutlich bessere Ergebnisse liefert als Vektorsuche allein. Seit Version 1.16 (März 2026) unterstützt Qdrant “Tiered Multitenancy”: Mehrere Mandanten in einer Datenbank, wobei stark wachsende Mandanten live auf eigene Shards umgezogen werden können, ohne Downtime. Qdrant wird von der Qdrant Solutions GmbH in Berlin entwickelt.

4. LLM: Die Antwortmaschine

Das eigentliche Sprachmodell generiert am Ende die Antwort, auf Basis der Textpassagen, die die Vektordatenbank gefunden hat.

Lokal mit Ollama: Ollama macht es einfach, Modelle lokal zu betreiben, komplett offline und DSGVO-konform. Für RAG-Anwendungen eignen sich aktuell besonders:

Qwen3-30B (MoE): Nur 3 Milliarden Parameter aktiv pro Anfrage, trotzdem starke Antwortqualität. Sehr effizient auf Hardware mit 32 GB RAM.
Qwen3.5: Solide Allround-Performance für deutsche und englische Texte.
Llama 3.3: Bewährtes Modell mit guter Balance aus Größe und Leistung.

Mehr zu lokalen Modellen im Unternehmenseinsatz in unserem Artikel Ollama in Unternehmen.

Cloud-Variante: OpenAI GPT-5 oder Anthropic Claude liefern bei komplexen Anfragen oft bessere Antworten, aber die Daten gehen an externe Server.

Hybrid-Ansatz: Lokales LLM für sensible Daten, Cloud-LLM für unkritische Anfragen. Das lässt sich in Plattformen wie Dify pro Workflow konfigurieren.

Drei Wege zum RAG-System

Nicht jedes Unternehmen braucht dasselbe Setup. Hier sind drei Wege, abgestuft nach Aufwand und Kontrolle:

Weg 1: AnythingLLM

All-in-One, unter einer Stunde Aufwand. Gut für erste Tests und kleine Teams. Seit Version 1.11 mit verbessertem Tool-Calling und Full-Document-Context.

Weg 2: Dify

Visueller Builder, 2 bis 4 Stunden Setup. Kein Code nötig, konfigurierbares Chunking, Hybrid Search und Reranking inklusive.

Weg 3: Custom-Stack

LangChain oder LlamaIndex mit Qdrant. Volle Kontrolle, aber Programmierung und laufende Wartung notwendig.

Weg 1: Quick-Start mit AnythingLLM (unter 1 Stunde)

AnythingLLM ist eine All-in-One-Plattform für RAG. Vector Store (LanceDB), Embedding und Chat-Interface sind eingebaut. Sie starten den Docker-Container, laden Ihre Dokumente hoch und können sofort Fragen stellen.

Seit Version 1.11 (März 2026) gibt es zwei Neuerungen, die den Einstieg noch einfacher machen: “Full Document Context” versucht zuerst, den kompletten Dokumenttext zu nutzen, bevor auf Embedding zurückgefallen wird. Und das überarbeitete Tool-Calling funktioniert jetzt auch mit kleineren lokalen Modellen zuverlässig.

Geeignet für: Erste Gehversuche, kleine Teams, Proof of Concept.

Grenzen: Wenig Kontrolle über Chunking-Strategien und Retrieval-Einstellungen. Wenn Sie merken, dass die Antworten nicht präzise genug sind, fehlen die Stellschrauben zur Optimierung.

Weg 2: Visueller Builder mit Dify (2-4 Stunden)

Dify ist eine Plattform mit visuellem Workflow-Builder für RAG-Pipelines, ohne dass Sie Code schreiben müssen. Die integrierte Knowledge Base bietet konfigurierbares Chunking (General, Parent-Child, Q&A), Hybrid Search und Reranking. Sie können verschiedene LLM-Anbieter in derselben Plattform nutzen: Ollama für lokale Modelle, OpenAI oder Anthropic für Cloud-Modelle.

Seit Februar 2026 unterstützt Dify einen “Human-in-the-Loop”-Knoten: Workflows können an kritischen Stellen pausiert werden, damit ein Mensch die KI-Ausgabe prüft, bevor sie weitergeleitet wird. Gerade bei sensiblen Dokumenten (Verträge, medizinische Daten) ein wichtiges Feature.

Geeignet für: Teams, die RAG-Qualität gezielt optimieren wollen, ohne Code zu schreiben.

Grenzen: Primär eine Entwicklungs- und Orchestrierungsplattform. Für ein ausgefeiltes Endnutzer-Interface brauchen Sie eine zusätzliche Frontend-Lösung.

Weg 3: Custom-Stack mit Code (1-2 Tage)

Frameworks wie LangChain oder LlamaIndex in Kombination mit Qdrant und Docling geben Ihnen volle Kontrolle über jeden Schritt der Pipeline: eigene Chunking-Strategien, Reranking, Hybrid Search. Für besonders präzises Retrieval lohnt sich ein Blick auf LightRAG, das einen Knowledge Graph nutzt, um Zusammenhänge zwischen Entitäten zu erfassen, nicht nur Textähnlichkeit.

Geeignet für: Entwicklerteams mit spezifischen Anforderungen und Python-Kenntnissen.

Grenzen: Erfordert Programmierung und laufende Wartung.

Der Sweet Spot: Dify + Ollama + Docling

Für die meisten Unternehmen ist folgende Kombination der beste Kompromiss zwischen Aufwand und Ergebnis:

Komponente	Tool	Warum
Plattform	Dify	Visueller Builder, kein Code, Human-in-the-Loop
LLM	Ollama (Qwen3-30B oder Qwen3.5)	Lokal, DSGVO-konform, keine laufenden Kosten
Preprocessing	Docling + GLM-OCR	Docling für digitale Dokumente, GLM-OCR für Scans
Embedding	deepset-mxbai-embed-de-large-v1	Speziell für deutsche Texte, läuft ohne GPU
Reranking	Qwen3-Reranker (über Ollama)	Sortiert Suchergebnisse nach Relevanz, spürbar bessere Antworten
Vektordatenbank	Qdrant (in Dify integriert)	Hybrid Search eingebaut, made in Berlin

Warum diese Kombination?

Alles läuft lokal auf Ihrem Server, DSGVO-konform, keine Cloud-Kosten
Dify’s visueller Builder erlaubt es auch nicht-technischen Mitarbeitern, Pipelines anzupassen
Vom Proof of Concept zum Produktivsystem ohne Tool-Wechsel
Wenn nötig, lässt sich für bestimmte Anfragen ein Cloud-LLM dazuschalten

Wie die zugrundeliegende Hardware aussehen kann, beschreiben wir im Artikel Ollama in Unternehmen: Ein Mac mini mit 64 GB RAM reicht für kleinere Teams oft völlig aus.

Fünf typische Fehler beim RAG-Setup

Aus der Praxis haben sich fünf Fehler herauskristallisiert, die wir regelmäßig sehen:

Das sind die häufigsten Stolperstellen:

→ Dokumente ohne Preprocessing reinwerfen. Wer PDFs unverarbeitet in die Pipeline gibt, bekommt kaputtes Parsing: Tabellen werden zu Textsalat, Spalten werden zusammengemischt, Fußnoten landen mitten im Absatz. Docling und sauber strukturierte Quelldokumente sind die Grundlage.
→ Zu große Chunks. Aktuelle Benchmarks (Februar 2026) zeigen: Textblöcke von 400 bis 512 Tokens mit 10 bis 20 % Überlappung liefern 85 bis 90 % Recall. Chunks mit 2.000 Wörtern geben dem LLM zu viel irrelevanten Kontext.
→ Nur Vektorsuche nutzen. Reine Vektorsuche findet semantisch ähnliche Texte, übersieht aber exakte Fachbegriffe. Hybrid Search, die Kombination aus Vektor- und Schlüsselwortsuche, liefert in der Praxis deutlich bessere Ergebnisse. Dify und Qdrant unterstützen das standardmäßig.
→ Kein Reranking. Ohne Reranking bekommt das LLM alle gefundenen Passagen gleichwertig präsentiert. Ein Reranker wie Qwen3-Reranker sortiert die Ergebnisse nach tatsächlicher Relevanz und verbessert die Antwortqualität spürbar, mit minimalem Mehraufwand.
→ Sofort in Cloud-LLMs investieren. Testen Sie erst lokal mit Ollama. Wenn die Ergebnisse nicht gut genug sind, liegt das meistens nicht am Modell, sondern am Preprocessing oder der Chunking-Strategie. Cloud-LLMs kosten pro Anfrage und sind erst dann sinnvoll, wenn die Retrieval-Pipeline stimmt.

Was ein RAG-System im Unternehmensalltag leisten kann

Theorie und Praxis klaffen gerade bei KI-Projekten oft auseinander. Deshalb lohnt es sich, konkret zu beschreiben, wofür RAG in Unternehmen tatsächlich eingesetzt wird.

Technischer Support und Handbücher: Wer in einem Produktionsbetrieb oder Ingenieurbüro arbeitet, kennt das Problem: Jemand hat eine Frage zu Gerät X, das Handbuch liegt als 300-seitiges PDF vor, und die Person, die sich damit auskennt, ist gerade nicht erreichbar. Ein RAG-System, das alle Handbücher, Service-Unterlagen und internen Leitfäden kennt, kann solche Fragen in Sekunden beantworten, mit einem direkten Verweis auf die relevante Seite.

Vertragsarchiv und Kanzleibetrieb: Kanzleien, Notariate und Unternehmen mit vielen Verträgen können RAG nutzen, um gezielt in ihrem Dokumentenbestand zu suchen. “Welche unserer Verträge enthalten eine Kündigungsfrist von weniger als drei Monaten?” Solche Fragen, die früher Stunden dauerten, lassen sich mit einem gut aufgesetzten RAG-System in Minuten beantworten.

Onboarding neuer Mitarbeitender: Prozessdokumentation, Richtlinien, Qualitätshandbücher, all das lässt sich in eine interne Wissensdatenbank laden. Neue Mitarbeitende können ihre Fragen direkt stellen, anstatt jemanden zu unterbrechen oder stundenlang in PDFs zu suchen.

Produkt- und Sortimentsberatung: Handels- und Dienstleistungsunternehmen mit großem Sortiment können ihr Produktwissen in RAG einpflegen. Ein interner Chat, der Produkteigenschaften, Verfügbarkeiten und Lieferbedingungen kennt, entlastet den Vertrieb bei Routineanfragen erheblich.

Tipp:

Der Nutzen eines RAG-Systems steigt mit der Qualität der Quelldokumente. Gut strukturierte, aktuelle Handbücher und Prozessdokumentationen zahlen sich doppelt aus: einmal für das Tagesgeschäft, einmal für die KI. Mehr dazu im Artikel Warum die beste KI an Ihrer Ablage scheitert.

Wie gut ist gut genug? Qualität messen

Ein RAG-System, das in Produktion geht, sollte messbar sein. Nicht weil man KPIs um ihrer selbst willen braucht, sondern weil es ohne Messung keinen Weg gibt zu wissen, ob Verbesserungen tatsächlich wirken.

Die wichtigsten Kennzahlen in der Praxis:

Retrieval-Qualität: Findet das System die richtigen Textpassagen für eine Frage? Das lässt sich mit einem kleinen Testset prüfen: 20 bis 30 typische Fragen aus dem Unternehmensalltag, mit bekannten richtigen Antworten, und eine manuelle oder automatisierte Auswertung, ob die relevanten Passagen gefunden wurden.

Antwortqualität: Stimmt die generierte Antwort mit dem Quelldokument überein? Wurde eine Zahl korrekt übernommen? Wurde nichts hinzuerfunden? Tools wie Langfuse (Open Source, MIT-lizenziert) protokollieren für jede Anfrage, welche Quellen herangezogen wurden, und machen so Halluzinationen sichtbar. Seit Anfang 2026 lassen sich Kommentare direkt an spezifische Textstellen in Trace-Outputs anheften, was die Fehleranalyse deutlich beschleunigt.

Nutzungsverhalten: Wie oft wird das System genutzt? Werden Antworten positiv oder negativ bewertet? Welche Fragen werden häufig gestellt? Aus solchen Daten lässt sich ablesen, ob das System den Nutzenden tatsächlich hilft, oder ob sie sich das Nachschlagen lieber sparen.

Fazit und nächste Schritte

RAG aufzusetzen ist kein Mammutprojekt. Mit AnythingLLM geht der Einstieg in unter einer Stunde. Wer mehr Kontrolle braucht, nimmt Dify. Und wer einen maßgeschneiderten Stack will, baut mit LangChain oder LlamaIndex.

Entscheidend ist am Ende weniger das Tool, sondern die Qualität Ihrer Quelldokumente. Eine gut gepflegte Dokumentenablage, idealerweise in Markdown-Format, ist die beste Investition in Ihr RAG-System.

Einen umfassenderen Blick auf RAG im Unternehmenskontext finden Sie auf unserer Seite zu senqo Wissensmanagement. Und wenn Sie und Ihr Team die Grundlagen erst einmal hands-on kennenlernen möchten, ist unser KI-Grundlagen-Workshop ein guter Startpunkt.

Sie möchten ein RAG-System für Ihr Unternehmen aufsetzen?

Kein Verkaufsgespräch, sondern eine ehrliche Einschätzung, ob und wie ein solches System in Ihrem Unternehmen Sinn ergibt, welche Dokumente sich eignen und wo der sinnvolle Einstieg liegt.

Schreiben Sie uns

Unsere KI-Plattform für Unternehmen. Modular, lokal, DSGVO-konform.

Workshops und Vorträge, die Teams KI im Alltag sicher machen.

Strategie, Readiness und Daten, bevor wir Technik bauen.