Ein mittelständischer Maschinenbauer, 800 Mitarbeiter, entscheidet sich Anfang 2025 für eine KI-Strategie. Die Geschäftsführung hat auf einer Messe einen Vortrag gehört, der Vertriebsleiter hat einen Artikel über Retrieval-Augmented Generation gelesen, und die IT-Abteilung bekommt den Auftrag, ein Large Language Model auf die interne Wissensdatenbank zu setzen. Sechs Monate und 180.000 Euro später existiert ein Prototyp, den niemand nutzt. Die Antworten sind unbrauchbar, weil die Wissensdatenbank seit 2019 nicht gepflegt wurde. Das Projekt wird leise beerdigt. Die Schlussfolgerung der Geschäftsführung: KI funktioniert für uns nicht.
Diese Geschichte ist nicht erfunden. Sie ist der Regelfall. Und sie wiederholt sich gerade in Hunderten von Unternehmen im deutschsprachigen Raum, in leicht variierenden Versionen, mit erstaunlich konsistenten Ergebnissen.
Die Diagnose kommt vor der Therapie
Um zu verstehen, warum so viele KI-Initiativen im Mittelstand scheitern, hilft eine Analogie aus einem anderen Feld. Stellen Sie sich vor, ein Patient geht zum Arzt und sagt: „Ich möchte ein MRT." Der Arzt fragt: „Was sind Ihre Beschwerden?" Der Patient sagt: „Keine konkreten. Aber mein Nachbar hatte eins, und ich will auch eins." Was der Arzt dann tut — oder tun sollte —, ist keine Bildgebung anordnen. Er sollte erst einmal herausfinden, ob es überhaupt ein Problem gibt, und wenn ja, welches.
Genau das passiert in den meisten KI-Projekten im Mittelstand nicht. Die Technologie wird ausgewählt, bevor das Problem definiert ist. Ein LLM wird beschafft, bevor jemand geprüft hat, ob die Datengrundlage tragfähig ist. Ein Innovation Lab wird gegründet, bevor klar ist, welche Geschäftsprozesse überhaupt von Automatisierung profitieren würden. Die Reihenfolge ist invertiert — und das hat Konsequenzen, die weit über das einzelne gescheiterte Projekt hinausgehen.
Die Konsequenz ist nämlich nicht nur verlorenes Budget. Die Konsequenz ist verlorenes Vertrauen. Wenn die erste KI-Initiative scheitert, wird es erheblich schwerer, Ressourcen für eine zweite freizugeben. Die Organisation hat gelernt: KI liefert nicht. Dass die eigentliche Ursache eine fehlende Problemdefinition war und nicht die Technologie, geht in der internen Erzählung verloren.
Drei Muster, die sich wiederholen
Das erste Muster ist das offensichtlichste und trotzdem das häufigste: Ein Sprachmodell wird auf interne Dokumente angesetzt, ohne dass jemand die Qualität dieser Dokumente geprüft hat. Die Annahme lautet, das Modell werde die relevanten Informationen schon finden. In der Praxis findet es vor allem Widersprüche, veraltete Versionsstände und Dokumente, die seit Jahren niemand gelesen hat. Ein RAG-System — Retrieval-Augmented Generation, also die Kombination aus Suchindex und Sprachmodell — kann nur so gut sein wie die Datenbasis, auf der es operiert. Wer Müll hineingibt, bekommt eloquent formulierten Müll heraus. Das Modell macht die schlechte Datenqualität nicht sichtbarer. Es kaschiert sie mit flüssiger Sprache.
Das zweite Muster betrifft die Organisationsstruktur. Unternehmen gründen Innovation Labs oder Digital Units, die KI-Anwendungsfälle explorieren sollen. Diese Einheiten sind typischerweise organisatorisch entkoppelt vom operativen Geschäft. Sie haben eigene Budgets, eigene Berichtslinien, eigene Zeitpläne. Was sie selten haben, ist ein klarer Pfad in die Produktion. Der Prototyp funktioniert auf dem Laptop des Data Scientists. Die Integration in das ERP-System, die Anbindung an bestehende Workflows, die Frage der Wartung und Weiterentwicklung nach dem Piloten — all das wird auf „später" verschoben. Später kommt nicht, weil der nächste Prototyp bereits in Arbeit ist. Das Innovation Lab produziert Demos, aber keine Wertschöpfung.
Das dritte Muster ist subtiler und deshalb gefährlicher. Es besteht darin, KI als Projekt zu behandeln statt als Fähigkeit. Ein Projekt hat einen Anfang, ein Ende und ein definiertes Ergebnis. Eine Fähigkeit ist etwas, das eine Organisation dauerhaft aufbaut, pflegt und weiterentwickelt. Wer KI als Projekt behandelt, beauftragt einen externen Dienstleister, lässt sich ein Modell bauen, nimmt es ab und betrachtet die Sache als erledigt. Sechs Monate später ist das Modell veraltet, weil sich die zugrunde liegenden Daten verändert haben, weil neue Anforderungen entstanden sind, weil die Schnittstelle zum Umsystem nicht mehr passt. Die Fähigkeit, das Modell anzupassen, hat das Unternehmen nie aufgebaut — sie lag beim Dienstleister, der inzwischen beim nächsten Kunden ist.
Die teuerste KI-Investition ist nicht die, die scheitert. Es ist die, die gerade gut genug funktioniert, um nicht abgeschaltet zu werden, aber zu schlecht, um Wert zu schaffen.
Was ein funktionierender Einstieg voraussetzt
Ein konkretes Gegenbeispiel. Ein Zulieferer in der Automobilindustrie, 450 Mitarbeiter, hat ein spezifisches Problem: Die Bearbeitung von Reklamationen dauert im Schnitt 14 Arbeitstage. Nicht weil die Sachbearbeiter langsam sind, sondern weil jede Reklamation eine manuelle Zuordnung zu Fertigungslosen, Prüfberichten und Lieferantendokumenten erfordert. Die Dokumente liegen in unterschiedlichen Systemen, teilweise als PDF, teilweise als Einträge im ERP. Ein Sachbearbeiter verbringt 60 Prozent seiner Zeit damit, Informationen zusammenzusuchen, und 40 Prozent damit, die Reklamation tatsächlich zu bearbeiten.
Der Einstieg hier war kein LLM auf der gesamten Wissensdatenbank. Der Einstieg war ein klar begrenzter Anwendungsfall: automatische Zuordnung einer eingehenden Reklamation zu den relevanten Fertigungslosen und Prüfberichten, basierend auf Artikelnummern, Lieferdaten und Fehlerbeschreibungen. Der Umfang war definiert, die Erfolgskriterien waren messbar (Bearbeitungszeit, Zuordnungsgenauigkeit), und die Datengrundlage war begrenzt genug, um sie vor dem Start tatsächlich aufzuräumen.
Nach drei Monaten lag die Bearbeitungszeit bei sechs Arbeitstagen. Nicht weil das Modell die Reklamation bearbeitet — das tut weiterhin ein Mensch. Sondern weil die Zuordnungsarbeit, die vorher den Großteil der Zeit gefressen hat, automatisiert wurde. Der Sachbearbeiter öffnet die Reklamation und hat die relevanten Dokumente bereits vor sich. Die Investition lag bei einem Bruchteil dessen, was der Maschinenbauer aus dem Eingangsbeispiel ausgegeben hat. Der Unterschied war nicht die Technologie. Der Unterschied war die Problemdefinition.
Was dieses Beispiel von den gescheiterten Projekten unterscheidet, lässt sich auf drei Faktoren reduzieren. Erstens: ein konkretes, messbares Problem, das vor dem Technologieeinsatz existierte. Zweitens: eine Datengrundlage, die vor dem Start bereinigt wurde, nicht nachträglich. Drittens: ein Ergebnis, das sich in den bestehenden Workflow integriert, statt einen neuen Workflow zu erzwingen. Keiner dieser Faktoren ist technischer Natur. Alle drei sind Fragen der strategischen Vorarbeit.
Die Rolle der Bewertungskompetenz
Es gibt einen Aspekt, der in der Diskussion über KI-Strategie im Mittelstand fast vollständig fehlt: die Frage, wer die Qualität einer KI-Lösung überhaupt bewerten kann. Wenn ein Anbieter einen Prototypen vorführt, der beeindruckende Antworten auf ausgewählte Fragen gibt, fehlt den meisten Entscheidern das Instrumentarium, um zu beurteilen, ob das System auch unter realen Bedingungen funktioniert. Welche Testdaten wurden verwendet? Wie verhält sich das Modell bei Randfällen? Wie robust ist die Lösung gegenüber Veränderungen in den Eingabedaten? Was passiert, wenn das Modell keine Antwort weiß — halluziniert es oder signalisiert es Unsicherheit?
Diese Bewertungskompetenz ist kein Luxus. Sie ist die Voraussetzung dafür, dass Investitionsentscheidungen informiert getroffen werden. Ein Unternehmen, das nicht in der Lage ist, die Qualität eines KI-Systems zu beurteilen, ist darauf angewiesen, dem Anbieter zu vertrauen. Das kann funktionieren. Es kann aber auch dazu führen, dass ein System abgenommen wird, das in der Demo überzeugt und im Betrieb versagt. Die Fähigkeit zur technischen Bewertung von KI-Systemen gehört deshalb zu den Grundlagen einer funktionierenden KI-Strategie — entweder intern aufgebaut oder extern hinzugezogen, aber vorhanden.
Der entscheidende Punkt, der über das bisher Gesagte hinausgeht: KI-Strategie im Mittelstand ist kein Technologieproblem und auch kein reines Strategieproblem. Es ist ein Reifegradproblem. Unternehmen, die ihre Datenqualität nicht im Griff haben, werden auch mit der besten KI-Technologie keine brauchbaren Ergebnisse erzielen. Unternehmen, die ihre Prozesse nicht verstanden haben, können nicht beurteilen, wo Automatisierung Hebel hat. Unternehmen, die keine Bewertungskompetenz aufbauen, können nicht zwischen funktionierenden und dysfunktionalen Lösungen unterscheiden. Die KI-Strategie beginnt deshalb nicht mit der Auswahl eines Modells. Sie beginnt mit einer ehrlichen Bestandsaufnahme dessen, was die Organisation tatsächlich kann — und was sie zuerst lernen muss, bevor die Technologie irgendeinen Unterschied macht.