Enterprise AI6 Min. Lesezeit

Nicht jedes Hybrid-RAG ist gleich — Die Frage, die Sie vor dem Kauf stellen sollten

Hybrid-RAG klingt nach einem cleveren Kompromiss: Dokumente bleiben lokal, Cloud-LLMs liefern die Intelligenz. Doch was 'hybrid' tatsächlich bedeutet, variiert stark zwischen Anbietern — und dieser Unterschied entscheidet darüber, ob Ihre sensiblen Daten wirklich privat bleiben.

Der Ansatz hat seinen Reiz

Vollständig offline betriebene KI klingt in der Theorie ideal, ist in der Praxis aber für viele Unternehmen mit Aufwand verbunden. Einen produktionsreifen LLM vollständig auf eigener Hardware zu betreiben erfordert GPU-Server, laufende Wartung und eine nennenswerte Anfangsinvestition.

Hybrid-RAG bietet einen attraktiven Mittelweg: Dokumente bleiben lokal, während ein Cloud-gehostetes Frontier-Modell (GPT-4, Gemini, Claude) die eigentlichen KI-Antworten generiert. Geringere Hardwarekosten, schnellere Bereitstellung, Zugang zu den besten verfügbaren Modellen — ohne die gesamte Dokumentenbibliothek in die Cloud zu übertragen.

Der Ansatz ist überzeugend. Es gibt jedoch ein Problem: Das Wort „hybrid" trägt eine große Last, und verschiedene Anbieter verstehen darunter sehr unterschiedliche Dinge.

Was „Hybrid" wirklich bedeutet — und warum es variiert

Am einen Ende des Spektrums funktionieren manche Hybrid-RAG-Implementierungen so: Ein Benutzer stellt eine Frage, das System lädt die relevanten Dokumente (oder große Teile davon) zu einer Cloud-API hoch, und der LLM verarbeitet sie dort. Die Dokumente selbst verlassen bei jeder Anfrage das Netzwerk.

Am anderen Ende sendet ein sorgfältig konzipiertes Hybrid-System nur das absolut Notwendige: die Frage des Benutzers, einen System-Prompt und die 3–5 relevantesten Textabschnitte, die aus der lokalen Vektordatenbank abgerufen wurden. Die Quelldokumente bewegen sich nie. Sie werden lokal indiziert, lokal abgerufen und bleiben dauerhaft auf Ihren Servern.

Der Unterschied zwischen diesen beiden Ansätzen ist nicht kosmetischer Natur. Es ist der Unterschied zwischen Daten, die Ihr Netzwerk verlassen, und Daten, die auf Ihren Systemen bleiben.

Die Frage, die jeder Käufer stellen sollte

Bevor Sie Funktionen, Preise oder Integrationen bewerten, stellen Sie eine Frage:

„Was genau verlässt mein Netzwerk, wenn ein Benutzer eine Anfrage stellt — und in welcher Form?"

Ein Anbieter, der sich ernsthaft mit diesem Thema beschäftigt hat, gibt Ihnen eine präzise Antwort. Etwa: „Nur die Frage des Benutzers, der System-Prompt und die abgerufenen Dokumentenabschnitte — typischerweise 3 bis 5 kurze Absätze — werden an die LLM-API gesendet. Die Quelldokumente, Ihre Vektoren, Benutzeridentitäten und Audit-Protokolle verlassen Ihre Infrastruktur nie."

Ein Anbieter, der sich damit nicht ernsthaft beschäftigt hat, gibt Ihnen eine vage Antwort. „Keine Sorge, Ihre Daten sind geschützt" oder „Wir verwenden Verschlüsselung." Verschlüsselung beschreibt, wie Daten übertragen werden — nicht ob sie Ihr Netzwerk überhaupt verlassen. Das ist nicht dasselbe.

Warum diese Unterscheidung rechtlich relevant ist

Unter der DSGVO löst das Senden personenbezogener Daten an einen Drittanbieter — auch vorübergehend, auch verschlüsselt — eine Reihe von Verpflichtungen aus: einen Auftragsverarbeitungsvertrag, gegebenenfalls eine Datenschutz-Folgenabschätzung sowie Dokumentation der Rechtsgrundlage für die Übermittlung.

Viele Organisationen, die cloudbasierte KI-Tools nutzen, haben sich still und leise DSGVO-Risiken eingehandelt, weil sie davon ausgegangen sind, dass „die KI nur die Anfrage verarbeitet" — ohne zu prüfen, was diese Anfrage tatsächlich enthält. Eine Vertragsprüfungsfrage wie „Enthält dieser Vertrag eine Strafklausel?" kann zusammen mit dem gesamten Vertrag an einen Cloud-LLM gesendet werden — einschließlich Kundennamen, Finanzbedingungen und vertraulichen Geschäftsdetails.

Wenn Ihr Hybrid-RAG-System Dokumentenabschnitte mit personenbezogenen Daten an eine in den USA gehostete LLM-API überträgt, handelt es sich um eine Drittlandübermittlung — mit allen Implikationen aus dem Schrems-II-Urteil und dem US CLOUD Act. Die Tatsache, dass dies automatisch und unsichtbar geschieht, ändert die rechtliche Einordnung nicht.

Der EU AI Act, der ab August 2026 vollständig gilt, fügt eine weitere Ebene hinzu: Betreiber von KI-Systemen, die personenbezogene Daten verarbeiten, müssen ihre Datenflüsse detailliert dokumentieren und nachweisen können. „Wir wissen nicht genau, was unser KI-Anbieter sendet" ist im Falle einer Prüfung keine vertretbare Position.

Die Architektur, die es richtig macht

Ein Hybrid-RAG-System für datensensible Organisationen sollte Verantwortlichkeiten klar trennen:

Was immer auf Ihrer Infrastruktur bleibt:

  • Ihre Quelldokumente in Originalform
  • Das Embedding-Modell, das Dokumente in Vektoren umwandelt
  • Die Vektordatenbank mit diesen Embeddings
  • Die Retrieval-Engine, die relevante Abschnitte sucht
  • Benutzeridentitäten und Zugriffskontrollen
  • Audit-Protokolle und Anfrageverlauf

Was pro Anfrage an den Cloud-LLM gesendet wird:

  • Die Frage des Benutzers
  • Ein System-Prompt zur Steuerung des KI-Verhaltens
  • Die 3–5 relevantesten Textabschnitte aus Ihrer lokalen Datenbank

Das bedeutet: Selbst wenn ein Cloud-LLM-Anbieter kompromittiert würde, eine Datenpanne erleiden oder eine behördliche Offenlegungsanfrage erhalten würde — er hätte Zugang zu Anfragefragmenten, nicht zu Ihren Dokumenten. Das Quellmaterial verlässt Ihren Standort nie.

Ein weiterer praktischer Vorteil: Da Quelldokumente nie durch die Cloud übertragen werden, unterliegen Sie nicht den Datenaufbewahrungsrichtlinien des LLM-Anbieters. Was auch immer gespeichert wird, beschränkt sich auf den Anfragekontext.

Vergleich der Ansätze

Einfaches Cloud-RAGSchlecht konzipiertes HybridGut konzipiertes HybridVollständig offline
Quelldokumente verlassen das NetzwerkJaJaNeinNein
LLM läuft lokalNeinNeinNeinJa
Internetverbindung erforderlichJaJaJaNein
HardwareanforderungenGeringGeringGeringHoch
Frontier-Modell-QualitätJaJaJaModellabhängig
DSGVO-ÜbertragungsrisikoHochHochGeringKeines

Die Lücke zwischen „schlecht konzipiertem Hybrid" und „gut konzipiertem Hybrid" ist der Punkt, an dem die meisten Anbietergespräche scheitern. Beide nennen sich hybrid. Nur eines hält Ihre Dokumente tatsächlich lokal.

Wann Hybrid die richtige Wahl ist

Vollständig offline ist der Goldstandard für Datensensibilität. Aber ein korrekt implementiertes Hybrid ist für viele Organisationen eine legitime und vertretbare Wahl — insbesondere für jene, die:

  • Ihre On-Premise-KI-Reise beginnen und noch nicht in dedizierte GPU-Infrastruktur investieren möchten
  • Sensible, aber nicht klassifizierte Daten verarbeiten, bei denen das Senden kleiner Textabschnitte an eine Enterprise-LLM-API (unter einem ordnungsgemäßen Auftragsverarbeitungsvertrag) akzeptabel ist
  • Frontier-Modell-Qualität benötigen, die lokale Hardware noch nicht wirtschaftlich bieten kann
  • Später zu vollständig offline migrieren möchten — ein gut konzipiertes Hybrid-System nutzt dieselben lokalen Komponenten wie ein Offline-Deployment und macht den Übergang unkompliziert

Entscheidend ist zu wissen, was Ihre gewählte Implementierung tatsächlich offenlegt — und diese Entscheidung bewusst zu treffen, unter Einbeziehung von Rechts- und Sicherheitsteams, anstatt sie bei einem Audit zu entdecken.

Das richtige Gespräch führen

Vor dem Abschluss eines Hybrid-RAG-Vertrags sollte das Gespräch mit Ihrem Anbieter folgende Punkte umfassen:

  1. Datenflussdokumentation: Kann der Anbieter genau zeigen, was bei jeder Anfrage das Netzwerk verlässt?
  2. LLM-Anbieter als Unterauftragsverarbeiter: Welchen Cloud-LLM-Anbieter nutzen sie, wo stehen dessen Server, und welcher Auftragsverarbeitungsvertrag regelt diese Beziehung?
  3. Aufbewahrungsrichtlinie: Speichert der LLM-Anbieter Anfragedaten? Wie lange? Gibt es eine Opt-out-Möglichkeit?
  4. Was bei Kündigung passiert: Behalten Sie Ihre lokalen Komponenten (Vektordatenbank, Embeddings), oder kontrolliert der Anbieter diese?
  5. Migrationspfad: Wenn Sie später vollständig offline gehen möchten — wie viel des bestehenden Systems lässt sich übernehmen?

Das sind keine feindseligen Fragen. Jeder Anbieter, der Hybrid-RAG für Unternehmenskunden entwickelt, sollte klare Antworten darauf haben. Wenn nicht, sagt das etwas Wichtiges über den Ernst aus, mit dem Datenschutz behandelt wird.

Fazit

Hybrid-RAG ist kein inhärenter Kompromiss beim Datenschutz. Korrekt implementiert bleiben Ihre Quelldokumente vollständig auf Ihrer Infrastruktur, während Sie Zugang zu den besten verfügbaren KI-Modellen erhalten. Unachtsam implementiert setzt es Ihre Dokumente denselben Risiken aus wie jeder Cloud-KI-Dienst — nur mit einem zusätzlichen Schritt dazwischen.

Das Wort „hybrid" verrät Ihnen nicht, welche Art Sie erhalten. Die Architektur schon.

Stellen Sie die Frage. Fordern Sie eine konkrete Antwort. Dann entscheiden Sie.


KADARAGs Hybrid-Deployment hält alle Quelldokumente, Embeddings und Audit-Protokolle auf Ihrer eigenen Infrastruktur. Nur kleine Anfrage-Abschnitte erreichen den Cloud-LLM — niemals Ihre Dokumente. Demo vereinbaren und sehen Sie genau, wie es funktioniert.