← Alle Begriffe

Inference (KI-Inferenz)

Der Prozess, bei dem ein trainiertes KI-Modell auf neue Eingaben angewendet wird, um Vorhersagen oder Ausgaben zu generieren.

Inference bezeichnet die Phase, in der ein bereits trainiertes KI-Modell produktiv eingesetzt wird: Es verarbeitet neue Eingaben und produziert Ausgaben — sei es Text, Klassifikationen, Bilder oder Empfehlungen. Inference ist das Gegenstück zum Training.

Was bedeutet das für IT-Kosten und Architektur?

Training eines großen Modells ist extrem ressourcenintensiv und geschieht einmalig (oder selten). Inference hingegen passiert bei jeder Nutzeranfrage — und skaliert mit der Nutzerzahl. Die Inferenzkosten sind daher für Unternehmen, die KI produktiv betreiben, eine zentrale Kostengröße.

On-Premise-Inference (das Modell läuft auf eigener Hardware) bietet maximale Datenkontrolle, ist aber kostspielig und erfordert spezialisierte Hardware (GPU). Cloud-Inference (API-Abfragen beim Anbieter) ist einfacher zu starten, erzeugt aber Abhängigkeiten und kann bei hohem Volumen teuer werden. Die Wahl ist eine strategische Architekturentscheidung.