Security

Prompt Injection

Ein Angriff auf KI-Systeme, bei dem manipulierte Eingaben das Modell dazu bringen, unbeabsichtigte oder schädliche Aktionen auszuführen.

Prompt Injection ist eine Sicherheitsschwachstelle, die speziell für KI-Sprachmodelle relevant ist. Dabei versucht ein Angreifer, durch manipulierte Eingaben die Systemanweisungen des Modells zu überschreiben oder es zu unbeabsichtigten Handlungen zu verleiten — ähnlich wie SQL Injection bei Datenbanken.

Warum ist das für Unternehmen ein reales Risiko?

Wenn ein Unternehmen KI-Agenten einsetzt, die Zugang zu Systemen haben (E-Mail versenden, Daten lesen, APIs aufrufen), kann Prompt Injection erheblichen Schaden anrichten: Ein KI-Agent, der manipulierte Webseiten liest und daraufhin E-Mails mit schädlichem Inhalt versendet, ist kein Gedankenexperiment mehr.

Schutzmaßnahmen umfassen: strikte Trennung von Systemanweisungen und Nutzereingaben, minimale Berechtigungen für KI-Agenten, Validierung von Ausgaben vor der Ausführung und menschliche Überprüfung bei sensiblen Aktionen. Wer AI Agents in Produktivsysteme integriert, muss Prompt Injection als Bedrohungsvektor einplanen.