Wie zuverlässig ist KI-Datenanalyse wirklich? KI-Datenanalyse ist nur so zuverlässig wie die Datenbank, auf der sie arbeitet. In sauberen Benchmark-Tests (Spider 1.0) erreichen Sprachmodelle über 86 % Genauigkeit beim Übersetzen einer Frage in eine Datenbankabfrage. Auf realen Unternehmens-Datenbanken mit hunderten Spalten und echten Geschäftsregeln (Spider 2.0) bricht dieselbe Genauigkeit auf 6 bis 20 % ein — GPT-4 fällt von 86,6 % auf 6,0 %. Der Grund ist nicht erfundene Information, sondern fehlerhaft übersetzte Abfragen: ein vergessener Filter, ein falscher Zeitraum, ein falscher Join. Das Ergebnis sieht korrekt aus und ist trotzdem falsch. Verlässlich wird KI-Datenanalyse erst, wenn ein deterministischer, regelbasierter Layer die Berechnung übernimmt und jeden Schritt nachvollziehbar macht.
Lesezeit: rund 11 Minuten. Autor: Thomas Ingenhorst, Co-Founder oneLake GmbH.
Wie zuverlässig ist KI-Datenanalyse wirklich?
Kurzfassung:
- In akademischen Benchmarks mit sauberen, kleinen Datenbanken (Spider 1.0) erreicht Text-to-SQL über 86 % Genauigkeit — auf realistischen Enterprise-Schemata (Spider 2.0, im Schnitt rund 812 Spalten pro Datenbank) fällt sie auf 10 bis 20 %.
- GPT-4 stürzt im direkten Vergleich von 86,6 % auf 6,0 % ab — bei identischem Modell, nur mit echten statt aufgeräumten Daten.
- Das Problem ist nicht "Halluzination" im Sinne erfundener Fakten. Es sind plausibel aussehende, aber falsche Zahlen aus echten Datenbanken — schwerer zu erkennen, weil sie aus den richtigen Quellen zu stammen scheinen.
- Bei Kennzahlen mit mehreren Filtern (Zeitraum, Region, Produktgruppe, Buchungslogik) befolgen selbst aktuelle Sprachmodelle nicht zuverlässig alle Geschäftsregeln. Mehr Prüfschleifen ändern daran wenig.
- Verlässlich wird KI-Datenanalyse erst, wenn das Sprachmodell die Frage versteht, die eigentliche Berechnung aber deterministisch und regelbasiert ohne KI läuft — und jeder Rechenschritt nachvollziehbar ist.
Eine Genauigkeit von 90 % klingt nach einer guten Note. In einem Quartalsbericht bedeutet sie: Jede zehnte Zahl ist falsch. Und Sie wissen nicht, welche. Genau hier trennt sich die Marketing-Folie von der Realität — und genau das schauen wir uns in diesem Artikel an: Woher die guten Benchmark-Zahlen kommen, warum sie auf echten Daten zusammenbrechen, und was eine Antwort braucht, der ein CFO tatsächlich trauen kann.
Warum 90 % Genauigkeit in der Demo nichts über Ihre Daten aussagt
Wenn ein KI-Analytics-Tool mit "über 90 % Genauigkeit" wirbt, stammt diese Zahl fast immer aus einem akademischen Benchmark. Der bekannteste heißt Spider 1.0: ein Test-Datensatz mit übersichtlichen Datenbanken, sauber benannten Spalten und klar gestellten Fragen. Auf diesem Datensatz erreichen Spitzenmodelle wie GPT-4 eine Ausführungsgenauigkeit von 86,6 %, einige Frameworks über 90 % (Spider 2.0, Lei et al., 2024).
Das Problem: Ihre Produktivdatenbank sieht nicht aus wie Spider 1.0. Sie hat keine 5 sauberen Tabellen, sondern hunderte Spalten mit kryptischen Namen, historisch gewachsene Logik, Sonderfälle und Geschäftsregeln, die nirgends dokumentiert sind. Genau dafür wurde der Nachfolge-Benchmark Spider 2.0 gebaut — mit Datenbanken, die im Schnitt rund 812 Spalten umfassen, im Extremfall über 3.000 (Towards Data Science, 2024). Also genau die Komplexität, die in einem echten ERP- oder Data-Warehouse-System normal ist.
Auf Spider 2.0 fällt die Genauigkeit der gleichen Modelle dramatisch:
Text-to-SQL-Genauigkeit (Ausführungsgenauigkeit): GPT-4 erreicht 86,6 % auf dem sauberen Benchmark Spider 1.0, aber nur 6,0 % auf realen Enterprise-Daten (Spider 2.0). Das beste spezialisierte Agenten-Framework (o1-preview) löst auf Spider 2.0 lediglich 21,3 % der Aufgaben. Spider-2.0-Datenbanken umfassen im Schnitt rund 812 Spalten. Quellen: Spider 2.0 (Lei et al., arXiv:2411.07763); Towards Data Science, 2024.
GPT-4 fällt von 86,6 % auf 6,0 %. Das beste spezialisierte Agenten-Framework (o1-preview) löst auf dem vollen Spider-2.0-Benchmark nur 21,3 % der Aufgaben. Das ist keine Schwäche eines einzelnen Anbieters — es ist die Grunddynamik aller rein sprachmodellbasierten Ansätze, sobald die Datenbank echter Komplexität ausgesetzt wird.
Der Kernsatz dazu, sachlich formuliert: Bei einer Geschäftsentscheidung muss die Lösung binär sein. Sie funktioniert, oder sie funktioniert nicht. "90 % der Zahlen stimmen" ist keine Eigenschaft, mit der ein Controller arbeiten kann — weil die fehlenden 10 % nicht markiert sind.
Ist das dasselbe wie eine Halluzination?
Nein, und der Unterschied ist wichtig. Eine Halluzination im klassischen Sinn ist eine frei erfundene Information: Sie fragen ChatGPT nach dem Geschäftsführer eines Lieferanten, und das Modell erfindet einen Namen. Das haben wir an anderer Stelle ausführlich behandelt — bei DACH-Firmendaten liegt ChatGPT in 96 % der Fälle daneben (96 % falsch: Warum ChatGPT Ihre Geschäftsdaten erfindet).
Das Genauigkeitsproblem bei der Datenanalyse ist subtiler — und gerade deshalb gefährlicher. Hier erfindet die KI nicht. Sie greift auf Ihre echte Datenbank zu, schreibt eine Abfrage, führt sie aus und gibt eine Zahl zurück. Die Zahl ist real berechnet, sieht korrekt aus und stammt nachweislich aus Ihren Daten. Sie ist nur falsch — weil die KI die Frage falsch in eine Abfrage übersetzt hat:
- Sie hat einen Filter vergessen (z. B. Stornorechnungen nicht ausgeschlossen).
- Sie hat den falschen Zeitraum erwischt (Buchungsdatum statt Leistungsdatum).
- Sie hat über die falsche Spalte aggregiert (Brutto statt Netto).
- Sie hat einen Join falsch gesetzt und Datensätze doppelt gezählt.
Eine erfundene Information lässt sich mit etwas Misstrauen entlarven. Eine plausibel aussehende, aber falsch berechnete Kennzahl nicht — sie hat das richtige Format, eine glaubwürdige Größenordnung und kommt aus dem richtigen System. Sie fällt erst auf, wenn jemand sie manuell nachrechnet. Das tut im Tagesgeschäft niemand.
Warum scheitern Sprachmodelle ausgerechnet an Kennzahlen?
Diese Erfahrung habe ich bei der Entwicklung von oneAgent aus erster Hand gemacht. Nach 15 Jahren als BI-Berater im Microsoft-Umfeld habe ich den Text2SQL- bzw. LLM-Ansatz in echten Kundenszenarien getestet — und bin dort wiederholt an seine Grenzen gestoßen. Beim Versuch, Unternehmensdaten ausschließlich über große Sprachmodelle zu analysieren und zu extrahieren, zeigte sich schnell ein Muster: Sobald eine Kennzahl mehrere Filter und Bedingungen kombiniert, wird die Aufgabe für ein Sprachmodell zu komplex. Selbst die jeweils neuesten Modelle befolgen nicht zuverlässig alle hinterlegten Geschäftsregeln und geben das Ergebnis nicht korrekt wieder.
Ein anschauliches Beispiel: "Zeig mir den Deckungsbeitrag der Produktgruppe Elektro in der Region Süd im zweiten Quartal, ohne Intercompany-Umsätze und ohne stornierte Aufträge." Das sind fünf verschachtelte Bedingungen. Jede einzelne muss korrekt in Datenbanklogik übersetzt werden — und die Definition von "Deckungsbeitrag" muss exakt der entsprechen, die Ihr Controlling verwendet. Ein Sprachmodell rät hier plausibel. Manchmal richtig, manchmal nicht. Reproduzierbar ist das nicht.
Die entscheidende Einsicht, die sich in der Praxis bestätigt hat: Egal wie viele Prüfmechanismen man um ein Sprachmodell herum baut — ein rein LLM-basierter Ansatz kann nie ein garantiert korrektes Ergebnis liefern. Jede Prüfschleife reduziert die Fehlerquote, aber keine eliminiert sie. Für allgemeine Texte ist das vollkommen ausreichend. Für eine Zahl, die in den Vorstandsbericht geht, nicht.
Das heißt ausdrücklich nicht, dass Sprachmodelle nutzlos sind. Im Gegenteil: Sie sind hervorragend darin, eine in natürlicher Sprache gestellte Frage zu verstehen, mehrdeutige Formulierungen zu interpretieren und einen Analyseweg zu strukturieren. Das Sprachverständnis ist genau die Stärke, auf die man nicht verzichten will. Die Schwäche liegt woanders — in der präzisen, regelkonformen Berechnung der eigentlichen Zahl.
Was eine zuverlässige KI-Datenanalyse anders machen muss
Aus genau dieser Erkenntnis ist bei oneAgent ein zweigeteilter Ansatz entstanden. Das Sprachmodell übernimmt, was es gut kann — die Frage verstehen und den Analyseweg orchestrieren. Die eigentliche Auflösung der Kennzahl übernimmt ein deterministischer Layer, der bewusst kein Sprachmodell und keine KI für die Berechnung verwendet, sondern strikt regelbasiert arbeitet.
Der Unterschied in der Praxis:
| Rein LLM-basiert | LLM + deterministischer Layer | |
|---|---|---|
| Frage verstehen | Sprachmodell | Sprachmodell |
| Kennzahl berechnen | Sprachmodell (rät plausibel) | Regelbasierte Engine, kein LLM |
| Kennzahl-Definition | implizit, modellabhängig | vom Business definiert und validiert |
| Gleiche Frage, gleiches Ergebnis? | nicht garantiert | ja, reproduzierbar |
| Nachvollziehbarkeit | keine | jeder Schritt sichtbar |
Der Kern: Kennzahlen werden nicht dem Sprachmodell überlassen, sondern vom Business definiert und validiert. Was "Deckungsbeitrag", "Nettoumsatz" oder "aktiver Kunde" genau bedeutet, legt Ihr Controlling fest — nicht ein statistisches Modell, das beim nächsten Update anders entscheidet. Der deterministische Layer hält sich strikt an diese Definitionen. Dieselbe Frage liefert auf denselben Daten immer dasselbe Ergebnis. Das ist die Voraussetzung dafür, dass eine Zahl überhaupt prüfbar und auditierbar wird. Mehr zum Prinzip auf unserer Seite KI ohne Halluzinationen.
Wichtig bleibt die ehrliche Abgrenzung: "garantiert korrekt" bezieht sich auf die validierten Geschäftsregeln im deterministischen Layer — nicht auf magische Allwissenheit. Sind Ihre Quelldaten fehlerhaft oder die Kennzahl ist falsch definiert, liefert auch ein deterministisches System ein falsches Ergebnis. Es liefert es nur konsistent und nachvollziehbar falsch, sodass der Fehler in der Definition liegt und nicht im Raten des Modells — und damit findbar ist.
"Sieht perfekt aus" ist kein Qualitätsmerkmal
Es gibt einen Effekt, der das Genauigkeitsproblem zusätzlich verschärft. KI-Chats antworten in einem Stil, der Vertrauen erzeugt: Sie loben zunächst die Frage ("Gute Frage!"), präsentieren die Antwort in einem sauberen Format, mit Aufzählung, Fettungen und einem prägnanten Fazit. Das Ergebnis sieht so professionell aus, dass der Nutzer annimmt, es müsse stimmen.
Prüft man die Zahlen dann genau nach, sind sie oft komplett falsch — und es gibt keinen Nachweis, wie das Modell zu ihnen gekommen ist. Welche Tabellen wurden abgefragt? Welche Filter gesetzt? Welche Kennzahl-Definition zugrunde gelegt? Bei einem reinen Chat-Ergebnis bleibt das eine Blackbox. Das schöne Format ist dann nicht Qualität, sondern Tarnung.
Deshalb gehört zu einer ernsthaften KI-Datenanalyse die zweite Hälfte der Antwort: die Nachvollziehbarkeit. Bei oneAgent nennen wir das Output Transparency. Der Nutzer sieht zu jeder Antwort genau, welche Schritte ausgeführt, welche Geschäftsregeln berücksichtigt und welche Filter angewendet wurden. Statt einer hübschen Blackbox bekommt man die vollständige Herleitung — und kann selbst beurteilen, ob die Zahl auf der richtigen Grundlage steht. Wer den Rechenweg sieht, muss nicht blind vertrauen. Das ist der Unterschied zwischen einer Zahl, die man präsentieren kann, und einer, die man nur weiterreicht und hofft.
Dieser Anspruch ist auch der Grund, warum manche Daten bewusst nicht über generische Chatbots laufen sollten — Datenschutz und Nachvollziehbarkeit hängen hier zusammen. Die grundsätzlichen Risiken beim Einkippen von Unternehmensdaten in öffentliche KI-Tools behandeln wir unter Firmendaten in ChatGPT; wann das Eingeben von Kundendaten in ChatGPT konkret erlaubt ist und wann ein DSGVO-Verstoß, klären wir in einem eigenen Beitrag.
Was das für den DACH-Mittelstand bedeutet
Das Thema trifft auf einen Markt, der seine Daten ohnehin kaum ausschöpft. Laut Bitkom schöpfen 2024 nur 6 % der deutschen Unternehmen das Potenzial ihrer verfügbaren Daten voll aus; 42 % nutzen es "eher wenig", 18 % "gar nicht" (Bitkom, 2024). Der Reflex, das mit einem KI-Tool zu lösen, ist verständlich. Gefährlich wird er, wenn das Tool plausible, aber falsche Zahlen liefert — denn dann verschiebt sich das Problem nur: von "wir kommen nicht an die Daten" zu "wir treffen Entscheidungen auf Zahlen, die wir nicht prüfen".
Für CFO und Head of Data heißt das konkret: Die entscheidende Frage an ein KI-Analytics-Tool ist nicht "Wie hoch ist eure Benchmark-Genauigkeit?", sondern:
- Auf welchem Datensatz wurde diese Genauigkeit gemessen — sauberer Benchmark oder ein Schema in der Größenordnung unserer Produktivsysteme?
- Wer definiert die Kennzahlen — das Modell oder unser Controlling?
- Wird die Zahl berechnet oder geschätzt — deterministisch und reproduzierbar, oder probabilistisch?
- Kann ich den Rechenweg sehen — Tabellen, Filter, Regeln — oder bekomme ich eine Blackbox?
Diese vier Fragen trennen ein Werkzeug, das man im Reporting einsetzen kann, von einem, das gut aussieht und im Quartalsbericht zur Haftungsfrage wird. Eine breitere Marktübersicht der Tools liefert unser Vergleich: 8 KI-Analytics-Tools im Mittelstand-Test 2026.
Fazit: Genauigkeit ist eine Eigenschaft des Aufbaus, nicht des Modells
Die Spider-2.0-Zahlen sind keine Anklage gegen Sprachmodelle. Sie sind eine Anklage gegen die Idee, ein Sprachmodell allein könne Unternehmenskennzahlen zuverlässig berechnen. 86 % in der Demo und 6 % auf echten Daten beim identischen Modell zeigen: Die Genauigkeit hängt nicht am Modell, sondern an der Architektur drumherum.
Verlässlich wird KI-Datenanalyse, wenn drei Dinge zusammenkommen: ein Sprachmodell, das die Frage versteht; ein deterministischer, regelbasierter Layer, der die Kennzahl exakt nach validierten Geschäftsregeln berechnet; und volle Transparenz über jeden Schritt. Erst dann ist eine Zahl nicht nur schön formatiert, sondern auch belastbar.
Häufige Fragen zur Genauigkeit von KI-Datenanalyse
Wie genau ist KI-Datenanalyse wirklich?
Das hängt vollständig vom Datensatz ab. In akademischen Benchmarks mit sauberen, kleinen Datenbanken (Spider 1.0) erreichen Sprachmodelle über 86 % Genauigkeit beim Übersetzen einer Frage in eine Datenbankabfrage. Auf realistischen Enterprise-Schemata (Spider 2.0, im Schnitt rund 812 Spalten) fällt dieselbe Genauigkeit auf 6 bis 20 %. Die Benchmark-Zahl sagt also wenig über die Leistung auf echten Unternehmensdaten aus.
Was bedeutet die Zahl "GPT-4 fällt von 86 % auf 6 %"?
Sie beschreibt dasselbe Modell auf zwei verschiedenen Testdatensätzen. GPT-4 erreicht 86,6 % Ausführungsgenauigkeit auf dem aufgeräumten Spider-1.0-Benchmark, aber nur 6,0 % auf dem realistischeren Spider-2.0-Benchmark mit großen, komplexen Datenbanken. Das zeigt: Nicht das Modell ist das Problem, sondern die Komplexität echter Datenstrukturen.
Ist falsche KI-Datenanalyse dasselbe wie eine Halluzination?
Nein. Eine Halluzination ist eine frei erfundene Information. Beim Genauigkeitsproblem in der Datenanalyse greift die KI auf echte Daten zu und berechnet eine reale Zahl — sie übersetzt die Frage nur falsch in eine Datenbankabfrage, etwa durch einen vergessenen Filter oder einen falschen Join. Das Ergebnis sieht korrekt aus, stammt aus den richtigen Quellen und ist trotzdem falsch. Das macht es schwerer erkennbar als eine klassische Halluzination.
Warum scheitern Sprachmodelle bei Kennzahlen mit mehreren Filtern?
Je mehr Bedingungen eine Kennzahl kombiniert — Zeitraum, Region, Produktgruppe, Buchungslogik, Ausschlüsse — desto mehr verschachtelte Logik muss korrekt in eine Datenbankabfrage übersetzt werden. Sprachmodelle arbeiten probabilistisch und befolgen nicht zuverlässig alle hinterlegten Geschäftsregeln. Zusätzliche Prüfschleifen senken die Fehlerquote, eliminieren sie aber nicht. Ein rein LLM-basierter Ansatz kann deshalb kein garantiert korrektes Ergebnis liefern.
Wie löst ein deterministischer Layer das Genauigkeitsproblem?
Das Sprachmodell versteht die Frage und orchestriert den Analyseweg, aber die eigentliche Berechnung der Kennzahl übernimmt eine regelbasierte Engine ohne KI. Die Kennzahlen werden vorab vom Business definiert und validiert; der deterministische Layer hält sich strikt daran. Dieselbe Frage liefert auf denselben Daten immer dasselbe Ergebnis. "Garantiert korrekt" bezieht sich dabei auf die validierten Geschäftsregeln — nicht auf fehlerfreie Quelldaten.
Was ist Output Transparency?
Output Transparency macht den Rechenweg jeder Antwort sichtbar: welche Schritte ausgeführt, welche Geschäftsregeln berücksichtigt und welche Filter angewendet wurden. Statt einer hübsch formatierten Zahl ohne Herleitung sieht der Nutzer genau, wie das Ergebnis zustande kam — und kann selbst beurteilen, ob es auf der richtigen Grundlage steht. Das ersetzt blindes Vertrauen durch Nachvollziehbarkeit.
Worauf sollte ich ein KI-Analytics-Tool prüfen?
Auf vier Punkte: erstens den Datensatz, auf dem die Genauigkeit gemessen wurde (sauberer Benchmark oder produktionsnahes Schema); zweitens, wer die Kennzahlen definiert (das Modell oder Ihr Controlling); drittens, ob die Zahl deterministisch berechnet oder probabilistisch geschätzt wird; und viertens, ob Sie den Rechenweg einsehen können. Diese Fragen trennen ein präsentierfähiges Tool von einem reporting-tauglichen.
Wollen Sie sehen, wie das auf Ihren Zahlen aussieht?
Der ehrlichste Test ist nicht ein Benchmark, sondern Ihre eigene Datenbank. In einer kurzen Demo zeigen wir Ihnen an einem typischen Controlling-Use-Case, wie oneAgent eine mehrfach gefilterte Kennzahl auflöst — und wie Output Transparency jeden Schritt offenlegt.
