Zum Inhalt springen
L

Langfuse: KI-Tool Test & Bewertung

4.5
Monitoring Freemium Kostenlos (Self-hosted) / Cloud: Hobby kostenlos, Core ca. 25 €/Monat, Pro ca. 173 €/Monat, Enterprise ca. 2.174 €/Monat Hybrid DSGVO-konform Open Source

Langfuse ist die führende Open-Source-Plattform für LLM-Observability und LLM-Engineering. Jeder KI-API-Aufruf wird mit Eingabe, Ausgabe, Latenz, Kosten und Nutzer-Feedback vollständig geloggt. Dazu kommen Prompt-Management mit Versionierung, automatisierte Evaluierungen und ein zentrales Dashboard. Stand Juni 2026 ist Version 3 im Einsatz, Self-Hosted via Docker oder EU-Cloud verfügbar.

Zuletzt aktualisiert: 8. Juni 2026

Wer KI-Anwendungen produktiv betreibt, merkt schnell: Ohne Monitoring läuft man blind. Welcher Prompt liefert schlechte Antworten? Welches Modell kostet das meiste Geld? Warum steigen die Latenzzeiten? Langfuse beantwortet diese Fragen, indem es jeden LLM-Aufruf vollständig aufzeichnet und auswertbar macht. Das Konzept ähnelt Sentry für klassische Anwendungen, ist aber speziell auf die Eigenheiten von LLM-Anwendungen ausgerichtet.

Wichtigste Funktionen

  • Tracing: Jeder API-Aufruf wird als Trace gespeichert mit vollständigem Prompt, Antwort, Modell, Latenz und Kosten. Bei mehrstufigen Pipelines wie RAG oder Agenten wird jeder Zwischenschritt einzeln erfasst und dargestellt.
  • Prompt-Management: Prompts zentral verwalten, versionieren und direkt im Langfuse-Dashboard testen. Prompt-Änderungen erfordern keinen neuen Code-Deploy, da Prompts über die API geladen werden.
  • Evaluierungen: Antwortqualität automatisch oder manuell bewerten, entweder per LLM-as-Judge oder mit eigenen Metriken. Hilfreich um Prompt-Versionen objektiv zu vergleichen.
  • Kosten-Tracking: Aufschlüsselung der Token-Kosten nach Modell, Nutzer, Feature oder Zeitraum. So lassen sich teure Abfragen identifizieren und gezielt optimieren.
  • Nutzerfeedback: Daumen-hoch/runter direkt in die eigene Anwendung integrieren und mit den entsprechenden Traces korrelieren. Schlechte Nutzerreaktionen lassen sich direkt dem auslösenden Prompt zuordnen.
  • Playground und Volltext-Suche: Prompts im integrierten Playground testen und Traces nach Inhalten durchsuchen, seit v3.158 mit Volltext-Suche über Message-Windows.

Preise und Tarife

Der Self-Hosted-Betrieb ist kostenlos und enthält alle Kernfunktionen. Einige Enterprise-Features (UI-Anpassungen, erweiterte Organisationsverwaltung) erfordern einen Lizenzschlüssel. Für Teams ohne eigene Infrastruktur bietet Langfuse eine Cloud-Version: Der Hobby-Plan ist dauerhaft kostenlos und braucht keine Kreditkarte. Core kostet ca. 25 Euro pro Monat (29 USD) und richtet sich an kleinere Teams. Pro liegt bei ca. 173 Euro pro Monat (199 USD) und bietet höhere Limits und Prioritätssupport. Enterprise startet bei ca. 2.174 Euro pro Monat (2.499 USD) mit dedizierten Ressourcen und SLA. Bei allen zahlenden Plänen kostet zusätzliches Volumen über dem enthaltenen Kontingent rund 7 Euro (8 USD) je 100.000 Einheiten. EU-Cloud-Hosting (Frankfurt) ist für alle zahlenden Cloud-Tarife verfügbar.

Für wen ist Langfuse geeignet?

  • Entwickler von KI-Anwendungen: Wer RAG-Pipelines, Agenten oder LLM-APIs in Produktion betreibt und verstehen will, was schiefläuft, braucht ein Observability-Tool wie Langfuse.
  • Teams mit mehreren KI-Features: Wenn verschiedene Prompts und Modelle im Einsatz sind und der Kostenüberblick fehlt, schafft Langfuse das fehlende Dashboard.
  • DSGVO-bewusste Unternehmen: Self-Hosted-Option oder EU-Cloud halten Trace-Daten, die sensible Nutzereingaben enthalten können, in Europa.

DSGVO und Datenschutz

Langfuse ist Open Source und kann vollständig auf eigener Infrastruktur betrieben werden. Die Self-Hosted-Installation läuft per Docker Compose (für kleinere Deployments) oder Kubernetes (für Produktion) und benötigt Postgres, ClickHouse, Redis und S3-kompatiblen Blob-Storage. Alle Daten verbleiben im eigenen Netzwerk. Die Cloud-Version bietet EU-Hosting in Frankfurt als Option für alle zahlenden Tarife, mit Auftragsverarbeitungsvertrag. Da Traces die tatsächlichen LLM-Eingaben enthalten können, ist Self-Hosting oder EU-Cloud für DSGVO-konforme Anwendungen die bevorzugte Wahl.

Alternativen zu Langfuse

  • LiteLLM: Schwerpunkt auf API-Gateway und Modell-Routing. Langfuse und LiteLLM ergänzen sich gut, da LiteLLM Observability-Daten an Langfuse exportieren kann.
  • Portkey: Ähnlicher Ansatz für LLM-Observability, weniger Self-Hosted-Fokus, stärker auf Cloud-native Nutzung ausgerichtet.

Vorteile

  • Vollständiges Tracing jedes LLM-Aufrufs mit Input, Output, Latenz und Kosten
  • Self-hosted per Docker, Daten bleiben im eigenen Netzwerk
  • Prompt-Management mit Versionierung direkt in der UI
  • Integrationen für OpenAI, Anthropic, Ollama, LangChain, Flowise und mehr
  • EU-Cloud-Option für DSGVO-konforme Teams ohne Self-Hosting-Aufwand

Nachteile

  • Erfordert SDK-Integration (Python oder JavaScript) für den ersten Setup
  • Self-Hosted-Betrieb benötigt mehrere Komponenten (Postgres, ClickHouse, Redis, S3)

Anwendungsgebiete

LLM-Kosten und Latenz überwachenPrompt-Versionen verwalten und vergleichenFehler in KI-Antworten aufspürenRAG-Pipeline-Qualität messen

Ähnliche Tools