KI für Unternehmen6 Min. Lesezeit•22. Januar 2026

Die wahren Kosten von KI: Cloud-Tokens vs. eigene Infrastruktur

Token-basierte KI-Preise wirken zunächst günstig — bis Ihr Team das System tatsächlich nutzt. Warum sich eigene KI-Infrastruktur schneller amortisiert, als die meisten Unternehmen erwarten.

Die Preisfalle der token-basierten KI

Wenn Unternehmen erstmals die Preislisten von OpenAI, Anthropic oder Google Cloud durchgehen, wirkt das Modell bestechend einfach: Sie zahlen nur, was Sie verbrauchen. Ein paar Cent pro tausend Tokens. Kein Vorabinvestment, kein Infrastrukturaufwand, kein Risiko.

Diese Rechnung geht auf — solange KI ein Experiment bleibt. Doch in dem Moment, in dem ein Unternehmen KI produktiv einsetzt und Mitarbeiter das System tatsächlich in ihren Arbeitsalltag integrieren, verändert sich das Bild grundlegend. Die Kosten steigen nicht linear — sie explodieren.

Was als überschaubarer Posten in der IT-Budgetplanung beginnt, entwickelt sich innerhalb weniger Monate zu einer der am schnellsten wachsenden Kostenpositionen. Und das Tückische daran: Die meisten Unternehmen bemerken es erst, wenn die erste unerwartet hohe Rechnung eintrifft.

Wie Token-basierte Abrechnung tatsächlich funktioniert

Um die Kostenentwicklung zu verstehen, muss man zunächst nachvollziehen, was bei einer einzelnen KI-Anfrage tatsächlich abgerechnet wird. Denn der sichtbare Teil — die Frage des Nutzers und die Antwort des Systems — ist nur ein Bruchteil des tatsächlichen Token-Verbrauchs.

Die unsichtbaren Kostentreiber

Jede Anfrage an ein RAG-System (Retrieval-Augmented Generation) umfasst mehrere Komponenten, die alle in Tokens abgerechnet werden:

System-Prompt — Die grundlegende Anweisung an das Sprachmodell, die bei jeder Anfrage mitgesendet wird (500–1.500 Tokens)
Abgerufener Kontext — Die relevanten Dokumentenausschnitte, die das System aus der Wissensbasis abruft (3.000–6.000 Tokens)
Nutzerfrage — Die eigentliche Frage des Mitarbeiters (50–200 Tokens)
Generierte Antwort — Die Antwort des Sprachmodells (500–2.000 Tokens)

Eine einzige RAG-Anfrage verbraucht damit typischerweise 5.000 bis 10.000 Tokens. Das ist kein Extremfall — das ist der Normalfall für jede sinnvolle Interaktion mit einem wissensbasierten KI-System.

Rechenbeispiel: Was KI im Unternehmensalltag wirklich kostet

Nehmen wir ein mittelständisches Unternehmen mit realistischen Nutzungszahlen:

Parameter	Wert
Anzahl Mitarbeiter mit KI-Zugang	200
Anfragen pro Mitarbeiter und Tag	15
Durchschnittlicher Token-Verbrauch pro Anfrage	8.000
Arbeitstage pro Monat	22

Die monatliche Rechnung:

200 Mitarbeiter x 15 Anfragen x 22 Tage = 66.000 Anfragen pro Monat
66.000 Anfragen x 8.000 Tokens = 528 Millionen Tokens pro Monat
Kosten je nach Anbieter und Modell: 5.000 bis 15.000 Euro pro Monat

Über einen Zeitraum von zwei Jahren summiert sich das auf 120.000 bis 360.000 Euro — und am Ende dieses Zeitraums besitzt das Unternehmen keinen einzigen Vermögenswert. Kein Server, keine Lizenz, kein System. Nur eine Sammlung von Rechnungen.

Die On-Premise-Alternative: Einmal investieren, dauerhaft nutzen

Der Gegenentwurf zur token-basierten Abrechnung ist die eigene KI-Infrastruktur. Das Prinzip ist denkbar einfach: Sie erwerben die benötigte Hardware, installieren ein leistungsfähiges Open-Source-Sprachmodell und betreiben das System ohne laufende Lizenz- oder Nutzungskosten.

Was eine On-Premise-Lösung kostet

Die Investition in eigene KI-Hardware hängt von der Unternehmensgrösse und den Anforderungen ab:

Komponente	Investition
GPU-Server (Einstieg, kleine Teams)	15.000–25.000 €
GPU-Server (Mittelstand, 100–500 Nutzer)	30.000–60.000 €
Einrichtung, Integration und Schulung	10.000–30.000 €
Jährliche Wartung und Strom	3.000–8.000 €

Dreijahresvergleich: Cloud vs. eigene Infrastruktur

Kostenposition	Cloud (Token-basiert)	On-Premise
Jahr 1	60.000–180.000 €	40.000–90.000 € (Hardware + Setup)
Jahr 2	60.000–180.000 €	3.000–8.000 € (Wartung)
Jahr 3	60.000–180.000 €	3.000–8.000 € (Wartung)
Gesamtkosten (3 Jahre)	180.000–540.000 €	46.000–106.000 €
Vermögenswert nach 3 Jahren	Keiner	Hardware im Besitz
Kosten pro Anfrage (bei Skalierung)	Steigend	Gegen null tendierend

Die Zahlen sprechen eine eindeutige Sprache: Bereits ab dem zweiten Jahr übersteigen die kumulierten Cloud-Kosten die Gesamtinvestition einer On-Premise-Lösung — und der Abstand wächst mit jedem weiteren Monat.

Die versteckten Kosten der Cloud — jenseits der Rechnung

Die monatliche Abrechnung ist nur die offensichtlichste Belastung. Token-basierte KI-Dienste erzeugen eine Reihe von indirekten Kosten, die in keiner Rechnung auftauchen, aber den Geschäftserfolg erheblich beeinträchtigen.

Nutzungshemmung: Die teuerste Form der Selbstzensur

Wenn Mitarbeiter wissen, dass jede Anfrage Geld kostet, verändert sich ihr Verhalten. Sie stellen weniger Fragen, formulieren kürzer, verzichten auf Folgefragen und Vertiefungen. Dieses Phänomen — im Englischen als „usage anxiety" bekannt — ist der grösste unsichtbare Kostenfaktor.

Denn der eigentliche Wert eines KI-Systems entsteht nicht durch einzelne Anfragen, sondern durch die iterative Auseinandersetzung mit Informationen: Nachfragen, alternative Perspektiven, Verknüpfung unterschiedlicher Dokumentenbestände. Genau dieses explorative Arbeiten wird durch nutzungsbasierte Abrechnung systematisch unterdrückt.

Unplanbare Budgets

Token-Kosten schwanken von Monat zu Monat — abhängig von Projektphasen, saisonalen Spitzen und individueller Nutzungsintensität. Für die Finanzplanung bedeutet das: keine verlässliche Budgetierung möglich. IT-Abteilungen werden zu Verbrauchspolizisten, die Nutzungslimits setzen statt Produktivität zu fördern.

Anbieterabhängigkeit und Preisrisiko

Wer sein gesamtes KI-System auf einem Cloud-Anbieter aufbaut, begibt sich in eine strukturelle Abhängigkeit. Preisanpassungen — und die kommen regelmässig — sind einseitig und nicht verhandelbar. Ein Anbieterwechsel ist aufwendig, weil Prompts, Integrationen und Workflows auf ein spezifisches Modell zugeschnitten sind.

Die Erfahrung der vergangenen Jahre zeigt: Cloud-KI-Preise mögen anfänglich sinken, um Marktanteile zu gewinnen. Doch sobald eine kritische Abhängigkeit besteht, kehrt sich die Preisdynamik regelmässig um.

Wann Cloud-KI dennoch die richtige Wahl ist

Trotz der beschriebenen Nachteile gibt es Szenarien, in denen token-basierte Cloud-Dienste die wirtschaftlich sinnvollere Option darstellen:

Kleine Teams — Bei geringem Anfragevolumen übersteigt die Vorabinvestition in Hardware den Cloud-Aufwand deutlich.
Proof-of-Concept-Phasen — Wenn zunächst evaluiert werden soll, ob KI für einen bestimmten Anwendungsfall überhaupt Mehrwert liefert, ist die Cloud der schnellste und risikoärmste Einstieg.
Nicht-sensible Datenbestände — Wenn die verarbeiteten Informationen keinen besonderen Schutzbedarf haben, entfällt ein wesentliches Argument für die lokale Verarbeitung.
Hochspezialisierte Modelle — Für bestimmte Nischenanwendungen bieten Cloud-Anbieter Modelle, die lokal nur schwer zu replizieren wären.

Der Break-Even-Punkt

Die Schwelle, ab der On-Premise wirtschaftlich überlegen wird, lässt sich relativ präzise bestimmen:

Sobald regelmässige Nutzer in mehreren Abteilungen mit dem System arbeiten, lohnt sich die Eigeninvestition in den meisten Fällen
Sobald die monatlichen Cloud-Kosten 3.000 bis 5.000 Euro überschreiten, ist eine Wirtschaftlichkeitsanalyse für On-Premise dringend angeraten
Oder wenn die Sensibilität der Daten verlangt, dass nichts Ihre Infrastruktur verlässt
In allen Fällen liegt die Amortisationszeit typischerweise bei 6 bis 14 Monaten

Die CFO-Perspektive: KI als Investition statt als Verbrauch

Für die Finanzabteilung ist der Unterschied zwischen Cloud und On-Premise nicht nur eine Frage der absoluten Kosten — es ist eine grundlegend andere Kostenstruktur.

Planbarkeit

On-Premise-KI hat nach der Erstinvestition nahezu fixe laufende Kosten. Das ermöglicht eine verlässliche Budgetplanung über mehrere Geschäftsjahre hinweg — ein Vorteil, den jeder CFO zu schätzen weiss.

Abschreibbarer Vermögenswert

Hardware ist ein Anlagegut, das steuerlich abgeschrieben werden kann. Token-Kosten hingegen sind operative Ausgaben ohne Vermögenswirkung. Die Investition in eigene Infrastruktur stärkt die Bilanz, während Cloud-Kosten ausschliesslich die Gewinn- und Verlustrechnung belasten.

Grenzkosten gegen null

Der vielleicht überzeugendste Aspekt: Bei einer On-Premise-Lösung sinken die Kosten pro Anfrage mit jeder zusätzlichen Nutzung. Mehr Mitarbeiter, mehr Anfragen, mehr Anwendungsfälle — die Hardware ist bereits bezahlt. Bei Cloud-Diensten ist das Gegenteil der Fall: Jede zusätzliche Nutzung erzeugt zusätzliche Kosten.

Kennzahl	Cloud	On-Premise
Kostenstruktur	Variabel (OpEx)	Überwiegend fix (CapEx)
Planbarkeit	Gering	Hoch
Bilanzwirkung	Keine	Abschreibbarer Vermögenswert
Kosten bei Skalierung	Proportional steigend	Nahezu konstant
ROI-Berechnung	Schwer kalkulierbar	Transparent

Der Weg zur eigenen KI-Infrastruktur

Die Umstellung von Cloud auf On-Premise muss weder riskant noch disruptiv sein. Ein bewährter Ansatz in fünf Schritten:

Benchmark — Aktuelle Cloud-KI-Kosten für 2–3 Monate erfassen
Identifizieren — Die grössten Anwendungsfälle und sensibelsten Daten bestimmen
Pilotprojekt — On-Premise-Lösung parallel zur bestehenden Cloud-Lösung betreiben
Migration — Workloads schrittweise umstellen, beginnend mit den volumenintensivsten und sensibelsten
Dekommissionierung — Cloud-KI-Dienste abschalten, sobald die On-Premise-Lösung sich bewährt hat

Die meisten Unternehmen schliessen diese Umstellung in 2 bis 3 Monaten ab und verzeichnen bereits im ersten Jahr einen positiven ROI.

Schluss mit der Abrechnung pro Wort? KADARAG bietet Ihrer gesamten Organisation unbegrenzte KI-gestützte Dokumenten-Intelligenz zu einem festen, planbaren Preis. Demo vereinbaren und sehen Sie, wie die Zahlen für Ihr Team aussehen.

Zurück zu allen Artikeln