Zum Inhalt springen
L

LiveKit: KI-Tool Test & Bewertung

4.0
Sprache & Audio Freemium Self-hosted kostenlos / Cloud: 1.000 Agenten-Min./Monat gratis, danach ca. 0,87 Cent/Min. (0,01 USD); Ship ab ca. 44 €/Monat (50 USD), Scale ab ca. 435 €/Monat (500 USD) Hybrid DSGVO-konform Open Source

LiveKit ist das führende Open-Source-Framework für Voice AI Agents und Echtzeit-Kommunikation. Das Agents Framework (v1.5) verbindet Spracherkennung, LLM und Text-to-Speech zu einer vollständigen Sprach-Pipeline mit MCP-Support und semantischer Gesprächserkennung. Self-Hosted möglich, Cloud-Plan mit 1.000 kostenlosen Agenten-Minuten pro Monat.

Zuletzt aktualisiert: 8. Juni 2026

Einen Sprach-Assistenten zu bauen klingt einfach: Nutzer spricht, System versteht, antwortet und gibt Ton aus. In der Praxis stehen dahinter drei separate Systeme, Spracherkennung, Sprachmodell und Text-to-Speech, die in Echtzeit miteinander kommunizieren müssen. Latenz unter einer Sekunde, stabile Verbindung, fehlerfreie Audioverarbeitung. LiveKit ist das einzige vollständige Open-Source-Framework, das genau diese Infrastruktur bereitstellt.

Wichtigste Funktionen

  • Agents Framework v1.5: Das Herzstück für Voice AI. LiveKit Agents verbindet Spracherkennung (STT), ein Sprachmodell (LLM) und Text-to-Speech (TTS) zu einer durchgängigen Pipeline. Programme in Python oder Node.js treten als vollwertige Teilnehmer in den Echtzeit-Raum ein. Unterstützt werden Deepgram, OpenAI Whisper, ElevenLabs, Cartesia und viele weitere, einschließlich lokaler Modelle.
  • Semantische Gesprächserkennung: Ein Transformer-Modell erkennt natürliche Sprechpausen und reduziert Unterbrechungen im Gespräch, ohne allein auf Stille zu warten.
  • MCP-Integration: Nativer Support für Model Context Protocol Server, sodass Voice Agents direkt auf externe Tools und Datenquellen zugreifen können.
  • Telephonie und SIP: Eigene Rufnummern, SIP-Trunks und Telefonie-Stack direkt in LiveKit. Sprach-Bots können Anrufe entgegennehmen und führen.
  • WebRTC-Kern: Niedrige Latenz, automatische Anpassung an Netzwerkschwankungen und Unterstützung aller gängigen Browser und Mobilgeräte.
  • Testing Framework: Eingebaute Test-Utilities mit LLM-basierten Judges für automatisierte Qualitätssicherung von Agent-Verhalten.

Preise und Tarife

LiveKit bietet vier Pläne. Der Build-Plan ist kostenlos, ohne Kreditkarte, und enthält 1.000 Agenten-Sitzungsminuten, 5.000 WebRTC-Minuten, 50 GB Datenübertragung, eine Rufnummer und Community-Support. Der Ship-Plan startet bei ca. 44 Euro pro Monat (50 USD) mit höheren Kontingenten, einem monatlichen Inferenz-Guthaben und E-Mail-Support. Der Scale-Plan ab ca. 435 Euro pro Monat (500 USD) bietet etwa die zehnfachen Kontingente des Ship-Plans, HIPAA-Konformität, regionale Datenhaltung und rollenbasierte Zugriffskontrolle. Für Enterprise gibt es individuelle Preise mit Volumen-Rabatten, dediziertem Slack-Support und SLA-Garantien. Bei Überschreitung der enthaltenen Minuten gilt ein Pay-as-you-go-Tarif von circa 0,87 Cent pro Agenten-Minute (0,01 USD).

Für wen ist LiveKit geeignet?

  • Entwicklerteams mit Voice-AI-Vorhaben: Wer einen vollständigen Sprach-Assistenten aufbauen will, zum Beispiel einen Telefon-Bot für Kundenanfragen oder einen sprachgesteuerten Agenten für interne Prozesse, bekommt mit LiveKit den kompletten Stack.
  • Unternehmen mit Datenschutzanforderungen: Self-Hosted LiveKit verarbeitet alle Audio-Streams auf der eigenen Infrastruktur. Kein Ton verlässt den Server, solange auch STT und TTS lokal betrieben werden.
  • Teams mit KI-Agenten-Stack: LiveKit liefert die Echtzeit-Kommunikationsschicht, die sich mit Orchestrierungstools wie n8n oder Pipecat kombinieren lässt.

DSGVO und Datenschutz

Self-Hosted LiveKit verarbeitet alle Audio- und Videostreams auf der eigenen Infrastruktur. Keine Daten gehen an Dritte. Bei LiveKit Cloud sind die Server in den USA. Für DSGVO-konforme Voice-AI-Anwendungen ist Self-Hosting der sichere Weg. Die Apache-2.0-Lizenz erlaubt kommerzielle Nutzung ohne Einschränkungen.

Alternativen zu LiveKit

  • Pipecat: Ebenfalls Open-Source, spezialisiert auf multimodale Echtzeit-Agenten. Kann LiveKit als Transportschicht nutzen oder eigenständig betrieben werden.
  • Vapi: Managed Voice AI Plattform ohne Open-Source-Anteil. Einfacher zu starten als LiveKit, kein eigenes Deployment nötig, aber monatliche Fixkosten und kein Self-Hosting.
  • OpenAI Realtime API: Direkter Sprach-zu-Sprach-Kanal zu den GPT-Modellen von OpenAI. Einfacher zu integrieren als LiveKit, aber Cloud-only mit US-Datenstandort und begrenzt konfigurierbar.

Vorteile

  • Einziges vollständiges Open-Source-Framework für Voice AI Agents (STT, LLM, TTS)
  • Agents Framework v1.5 mit MCP-Support und semantischer Gesprächserkennung
  • SDKs für Python, JavaScript, Go, Swift, Kotlin
  • Telephonie: SIP-Integration und eigene Rufnummern im Cloud-Plan
  • Self-Hosted vollständig möglich, Apache-2.0-Lizenz

Nachteile

  • Hoher Setup-Aufwand: STT, LLM und TTS separat konfigurieren und bezahlen
  • Laufende API-Kosten für STT und TTS kommen zu LiveKit-Kosten hinzu
  • Debugging verteilter Echtzeit-Systeme zeitaufwändig
  • Für Teams ohne Entwicklerkenntnisse zu komplex

Anwendungsgebiete

Voice AI Agents entwickelnEchtzeit-Audio-Pipelines aufbauenSprach-Bots für KundenserviceTelefonie-Integration für KI-Assistenten