Voice-AI-Agent für Enterprise-Telefonie

Eine Multi-Tenant Voice-AI-Plattform für ein europäisches Softwareunternehmen, das international 20.000+ Handwerksbetriebe bedient. Eingehende Anrufe werden Ende-zu-Ende verarbeitet, auf DSGVO-konformer Infrastruktur.

Jahr: 2026 - present
Stack: TypeScriptFastifyWebSocketsTelnyxAzureVuePostgreSQLpgvectorRAGPrisma

Das Problem

Der Kunde ist ein europäisches Softwareunternehmen, das international 20.000+ Handwerksbetriebe bedient, Maler, Installateure, Elektriker, Dekorateure. Die Art von Betrieben, deren Inhaber meist selbst die Arbeit machen.

Das ist die Einschränkung: jeder Anruf, den sie annehmen, ist Zeit, in der sie nicht am Auftrag sind. Jeder verpasste Anruf ist ein Angebot, das an die Konkurrenz geht. Generische Call-Center und IVR-Menüs haben es nicht gelöst. Anrufer aus dem Handwerk stellen konkrete Fragen ("Können Sie bis Freitag einen neuen Heizkessel einbauen?"), erwarten ein echtes Gespräch und sitzen keine Sprachmenüs aus.

Der Kunde wollte einen AI-Agenten, der diese Anrufe 24/7 entgegennimmt, ein natürliches Gespräch führt, Angebots- und Rückrufanfragen aufnimmt und strikt beim Thema bleibt, über Tausende unabhängiger Handwerksbetriebe hinweg, jeder mit eigenen Leistungen, Preisen und Wissensbasis.

Der Auftrag war Multi-Tenant per Definition. Die Umsetzung musste DSGVO-konform, Enterprise-Niveau und für nicht-technische Endnutzer bedienbar sein.

Der Ansatz

Wir haben die gesamte Architektur spezifiziert und einen Aufbau in vier Stages vorgeschlagen, jede Stage baut auf der vorherigen auf. Datenbank, Modelle und Abstraktionen sind in Stage 1 definiert, sodass Stages 2-4 keine Re-Architektur erfordern. Der Vorschlag wurde innerhalb von 24 Stunden nach dem Pitch-Call angenommen.

DSGVO als Architektur-Treiber. Jede externe Abhängigkeit wurde gegen Prinzipien der Datenresidenz und minimaler Drittanbieter geprüft. Telnyx für die Telefonie (developer-friendly, EU-Region-Routing). Azure OpenAI für STT, LLM und TTS, mit Data Zone Standard, damit jede Modell-Inferenz innerhalb der EU bleibt, auch wenn Azure die Last zwischen Regionen verschiebt. Mailguns EU-Region für transaktionalen E-Mail-Versand der Anrufzusammenfassungen. Auf keiner Ebene des Stacks verlassen Daten die EU.

Echtzeit-Voice-Pipeline. Ein Fastify-Backend über WebSockets verarbeitet den Live-Audio-Stream. Eingehendes Anrufer-Audio wird transkribiert, mit dem relevanten Tenant-Kontext an das LLM geschickt, und die Antwort wird via TTS zurück gestreamt, alles unter Latenzbudgets für ein natürliches Gespräch. Voice Activity Detection (VAD), Barge-in-Handling, Vermeidung von doppeltem Sprechen und die Grenzentscheidung "denkt der Anrufer gerade nach oder ist er fertig?" wurden empirisch kalibriert. Das ist die Arbeit, die entscheidet, ob der Agent natürlich oder roboterhaft wirkt.

Tenant-scoped RAG über eine Wissensbasis. Jeder Tenant lädt eigenes Wissen hoch: PDFs, URLs, Leistungsbeschreibungen. Der Inhalt wird gechunkt und in einen pgvector-Index eingebettet. Beim Anruf wird die Frage des Anrufers per Cosine Similarity gegen die Chunks dieses Tenants gematcht, und nur der relevanteste Kontext geht an das LLM. Das hält die Prompts klein (Kosten), die Antworten beim Thema (Qualität) und die Inputs strikt innerhalb des Tenants (kein Tenant-übergreifendes Datenleck). Der Similarity-Threshold wurde gezielt auf die Grenze zwischen Kosten und Qualität abgestimmt.

Ein vollständiges Multi-Tenant-SaaS für den Betrieb. Zwei Dashboards: eine Super-Admin-Sicht für die Marken- und Tenant-Verwaltung des Kunden, und eine Tenant-Sicht für die Handwerksbetriebe selbst. RBAC mit 4 Rollen (Super Admin, Brand Admin, Tenant Admin, Tenant User). Pro-Tenant-Konfiguration der AI-Begrüßung, des DSGVO-Hinweises und des CTA-Textes, die drei Dinge, die der Agent direkt nach Annahme des Anrufs sagt. Geschäftszeiten pro Tenant konfigurierbar und der KI als Kontext mitgegeben. Preismodell mit inkludierten Minuten plus Abrechnung pro Mehrminute, berechnet und pro Tenant einsehbar. Anrufprotokolle mit vollständigen Transkripten, KI-generierten Zusammenfassungen, Klassifizierungen (Angebotsanfrage, Rückruf, allgemeine Frage) und konfigurierbaren E-Mail-Benachrichtigungen.

Gebaut für das, was als nächstes kommt. Die Architektur ist durchgängig Adapter-style: ein LLM gegen ein anderes tauschen, ein STT/TTS-Anbieter gegen einen anderen, beliebig viele ERPs einbinden. Das System ist bereits für die ERP-Integration in einer späteren Stage vorbereitet, was Status-Update-Anrufe ermöglicht ("wann wird meine Arbeit ausgeführt?") sowie das automatische Anlegen von Auftragstickets. Interaktive Setup-Skripte automatisieren das Azure-Provisioning Ende-zu-Ende.

Das Ergebnis

Stage 1 ging in Produktion mit einem AI-Agenten, der reale eingehende Anrufe in zwei Sprachen ab Launch bearbeitet. Bis zur ersten Demo hatte der Kunde 20 Beta-Tenants in der Pipeline. Nach Abschluss von Stage 1 hat der Kunde Stage 2 sofort beschleunigt, Monate vor dem ursprünglichen Plan.

Der Agent nimmt Anrufe 24/7 entgegen, bleibt strikt beim Thema des jeweiligen Tenant-Geschäfts, halluziniert nicht über die Wissensbasis des Tenants hinaus, nimmt Angebots- und Rückrufanfragen auf und leitet Anrufzusammenfassungen an die richtigen Leute weiter.

Nächste Stages: Expansion in weitere Länder, ERP-Integration für Live-Statusabfragen zum Auftrag und erweiterte Mehrsprachigkeit.

Nächstes Projekt

Sentinel - Plattform für Trading-Strategien

Case Study lesen