Ihr KI-Projekt scheitert nicht an der KI, sondern an Ihren Daten

Wenn ein KI-Projekt enttäuscht, fällt der Verdacht zuerst auf das Modell. „Vielleicht brauchen wir ein besseres", „vielleicht ist die Technologie noch nicht so weit". In den allermeisten Fällen, die wir sehen, liegt es nicht daran. Das Modell ist gut genug. Was fehlt, sind brauchbare Daten. Das ist die unbequeme Wahrheit, die in keiner Verkaufspräsentation steht: Die spannende KI ist der kleinere Teil der Arbeit, der größere ist das Aufräumen davor.

Müll rein, Müll raus, nur eloquenter

Der alte Grundsatz der Datenverarbeitung gilt für KI besonders hart: Die Ausgabe ist nur so gut wie die Eingabe. Der Unterschied zu früher ist, dass moderne Modelle den Müll gut klingen lassen. Ein System, das auf veralteten Dokumenten arbeitet, gibt Ihnen die veraltete Information in perfekt formuliertem Deutsch zurück, und das ist gefährlicher als ein offensichtlicher Fehler, weil es vertrauenswürdig wirkt.

Die typischen Datenprobleme sind selten exotisch:

Schlecht gescannte PDFs, aus denen sich der Text nicht sauber lesen lässt.
Veraltete Wikis und Handbücher, in denen die Regel von 2021 neben der von 2026 steht, ohne Hinweis, welche gilt.
Wissen in den Köpfen, das nirgends dokumentiert ist und das auch die beste KI nicht erraten kann.
Widersprüche zwischen Quellen, die ein Mensch im Kontext auflöst, ein System aber nicht.
Fehlende oder chaotische Berechtigungen, sodass das System entweder zu wenig oder zu viel sieht.

Keines dieser Probleme löst ein besseres Modell. Sie alle lösen sich nur an der Quelle.

Warum das übersehen wird

Datenqualität ist unsexy. Niemand bekommt Applaus im Vorstand für „wir haben unsere Handbücher aufgeräumt". KI dagegen verkauft sich gut: Sie ist neu, sichtbar, beeindruckend. Also fließt das Budget in das Modell und die Demo, und der mühsame Teil, das Aufräumen der Datengrundlage, wird übersprungen oder unterschätzt.

Dazu kommt ein Wahrnehmungsfehler: In der Demo funktioniert alles, weil man bewusst saubere Beispiele gewählt hat. Erst im Betrieb trifft das System auf den echten, unordentlichen Datenbestand, und dann bricht die Qualität ein. Das wird dann fälschlich der KI angelastet.

Was tatsächlich hilft

Die gute Nachricht: Man muss nicht alles auf einmal aufräumen. Pragmatisch vorgehen heißt:

1. Die Datengrundlage ehrlich ansehen, bevor man baut. Eine nüchterne Bestandsaufnahme: Welche Quellen gibt es, wie aktuell, wie sauber, wer pflegt sie? Diese halbe Woche Arbeit erspart oft Monate an Frust.

2. Klein anfangen, mit dem besten Datenraum. Statt „die KI soll unser ganzes Wissen kennen" lieber ein abgegrenztes, gut gepflegtes Gebiet, das wirklich trägt. Erfolg in einem sauberen Ausschnitt ist mehr wert als Mittelmaß über alles.

3. Datenpflege zum Teil des Betriebs machen. Daten altern. Wer einmal aufräumt und dann nie wieder, hat in einem Jahr dasselbe Problem. Wer pflegt die Quellen, in welchem Rhythmus? Das gehört in den Plan.

4. Das System ehrlich „weiß ich nicht" sagen lassen. Ein gut gebautes System erfindet bei Lücken nichts, sondern macht die Lücke sichtbar. Das ist nicht nur sicherer, es zeigt Ihnen auch genau, wo die Daten fehlen.

Der überraschende Gewinn

Hier liegt ein Effekt, den viele unterschätzen: Ein KI-Projekt zwingt ein Unternehmen, sein Wissen zu ordnen. Plötzlich fällt auf, dass drei Abteilungen drei Versionen derselben Regel haben. Dass das wichtigste Verfahren nirgends dokumentiert ist. Dass niemand weiß, welches Handbuch aktuell ist. Diese Erkenntnisse sind wertvoll, auch ganz unabhängig von der KI. Oft ist das Aufräumen der eigentliche Nutzen, und die KI der Anlass, es endlich zu tun.

Unser Fazit

Wir starten Projekte deshalb nicht mit der Frage „welches Modell?", sondern mit „wie sieht eure Datengrundlage aus?". Das ist weniger glamourös, aber es ist der Hebel, der am Ende über Erfolg oder Misserfolg entscheidet. Ein mittelmäßiges Modell auf guten Daten schlägt ein Spitzenmodell auf schlechten, jedes Mal.

Wenn Sie ein KI-Projekt planen oder eines stockt, lassen Sie uns zuerst auf die Daten schauen. Oft liegt dort die Lösung, nicht im nächsten Modell.