Inference (KI-Inferenz)
Der Prozess, bei dem ein trainiertes KI-Modell auf neue Eingaben angewendet wird, um Vorhersagen oder Ausgaben zu generieren.
Inference bezeichnet die Phase, in der ein bereits trainiertes KI-Modell produktiv eingesetzt wird: Es verarbeitet neue Eingaben und produziert Ausgaben — sei es Text, Klassifikationen, Bilder oder Empfehlungen. Inference ist das Gegenstück zum Training.
Was bedeutet das für IT-Kosten und Architektur?
Training eines großen Modells ist extrem ressourcenintensiv und geschieht einmalig (oder selten). Inference hingegen passiert bei jeder Nutzeranfrage — und skaliert mit der Nutzerzahl. Die Inferenzkosten sind daher für Unternehmen, die KI produktiv betreiben, eine zentrale Kostengröße.
On-Premise-Inference (das Modell läuft auf eigener Hardware) bietet maximale Datenkontrolle, ist aber kostspielig und erfordert spezialisierte Hardware (GPU). Cloud-Inference (API-Abfragen beim Anbieter) ist einfacher zu starten, erzeugt aber Abhängigkeiten und kann bei hohem Volumen teuer werden. Die Wahl ist eine strategische Architekturentscheidung.