Wenn KI Nein sagen muss - Teil 1: Bau und Betrieb verlässlicher KI-Agenten in der Industrie.

Dr. Alexander Engels
May 7, 2026
03:30
Lesezeit

KI-Agenten sind eine neue Art von Software. Anders als statische Programme, die genau das tun, was ihnen einprogrammiert wurde, planen Agenten selbstständig und dynamisch einen Lösungsweg, fragen Daten ab, rufen Werkzeuge auf und entscheiden, welcher Schritt als nächstes kommt. Damit werden sie für wissensintensive Prozesse interessant, von Service und Diagnose über Engineering und Konstruktion bis zu Energiemanagement, Roboter-Steuerung oder dynamischer Preiskalkulation. Aber genau diese Eigenständigkeit wirft eine entscheidende Frage auf: Wie stellt man sicher, dass ein Agent nicht tut, was er nicht tun sollte?

Eine mögliche Antwort liegt in zwei Hebeln, die zusammen entscheiden, ob ein Agent nur im Pilotmodus beeindruckt oder im Produktivbetrieb trägt: Wie wird er gebaut? Und wie wird er betrieben?

Hebel 1: Sicherheitsschichten als Architektur, nicht als Prompt

Ein Sprachmodell allein ist noch kein produktionstauglicher Agent, schon gar kein vertrauenswürdiger. Verlässlichkeit entsteht durch Schichten klassischen Programmcodes, die parallel zum Agenten laufen und dessen Aktionen kontrollieren. Wichtig zu verstehen ist, dass keine dieser Schichten über einen freundlichen Hinweis im Systemprompt laufen sollte. Das wäre viel zu schwach.

Drei Schichten halten wir bei industriellen Agentensystem für zwingend erforderlich:

  • Policy. Eine Regel-Engine neben dem Agenten gleicht jede Empfehlung gegen Betriebsgrenzen, Sicherheitsvorgaben und Compliance-Regeln ab. Das Sprachmodell entscheidet nicht über die Regel, der Regelcode tut es.
  • Tool Security. Jede Aktion läuft durch einen kontrollierten Wrapper, der Parameter validiert, Berechtigungen prüft und kritische Aktionen ggf. vorab im Trockenlauf durchspielt. Der Agent kann nur Werkzeuge nutzen, die in seiner Tool Registry ausdrücklich freigegeben sind.
  • Logging. Jede Entscheidung wird als maschinenlesbares Ereignis protokolliert, typischerweise OpenTelemetry-kompatibel. So bleibt sie bei einer Reklamation, im Audit oder vor Gericht nachvollziehbar.

Drei weitere Schichten sollten das Bild sinnvollerweise ergänzen: Ein eindeutiges Identitäts- und Zugriffsmanagement nach Least-Privilege-Prinzip mit kurzlebigen Tokens, eine Datenschutz-Schicht, die sensible Inhalte vor und nach jeder Anfrage maskiert, sowie eine Verhaltensüberwachung, die Drift und Anomalien im Agentenverhalten erkennt.

Diese Schichten dienen dazu, Risiken zu vermeiden, die insbesondere im Industrieeinsatz besonders kritisch sind. Dazu gehören etwa übermäßige Handlungsfreiheit, indirekte Prompt-Injection oder unbegrenzter Ressourcenverbrauch in Schleifen. 

Verlässlichkeit messen, nicht behaupten

Bei Maschinen und in der Produktion spricht man von Abnahme, bei KI-Systemen von Evaluation, kurz Eval. In der Praxis hat sich ein Set aus vier Klassen etabliert: Eine fachliche Zweitprüfung durch ein weiteres Sprachmodell (LLM-as-a-Judge), eine Input-Output-Prüfung gegen kuratierte Referenzpaare (Golden Dataset), gezielte Angriffsversuche durch ein eigenes Red Team (Penetrationstests), und eine kontinuierliche Laufzeit-Prüfung mit anonymisierten Realanfragen im Produktivbetrieb.

Zusammengehalten werden die Klassen durch einen Continuous-Integration-Prozess, der bei jeder Änderung am Agenten alle Tests automatisch durchspielt. Bricht eine bisher funktionierende Fähigkeit, wird die Änderung nicht ausgerollt. 

Hebel 2: Autonomie als Regler, nicht als Schalter

Einen Agenten zu bauen ist die eine Hälfte, ihn im Alltag verantwortbar zu betreiben die andere. Hier stellen sich Fragen wie: Wieviel Eigenständigkeit bekommt er? Wie erkennt er selbst, wenn er sich seiner Sache nicht sicher ist? Und was passiert, wenn es schiefgeht?

Zur Einordnung der Eigenständigkeit haben sich 3 Abstufungen bewährt (Staged Autonomy):

  1. Informativ. Der Agent gibt Vorschläge aus, ausführen tut der Mensch. Technisch hat der Agent Lesezugriff auf Daten und Dokumente, aber keinen Schreibzugriff.
  2. Beaufsichtigt. Der Agent darf innerhalb klar vereinbarter Parameter selbst handeln. Wird der Rahmen verlassen, eskaliert er automatisch an den Menschen.
  3. Autonom. Der Agent handelt selbstständig im definierten Aufgabenbereich. Menschen greifen nur ein, wenn die Audit-Schicht eine Auffälligkeit meldet.

Während die Stufen 1 und 2 zur Kategorie Human-in-the-Loop (HITL) gehören, fällt Stufe 3 in die Klasse Human-on-the-Loop (HOTL), bei der ein Mensch zwar beobachtet, aber nicht explizit zustimmen muss, ehe der Agent eine schreibende Aktion ausführt.

Welche Stufe wann gilt, entscheidet in jedem Fall der Anwender je Anwendungsfall, nicht der Anbieter. 

Damit der Agent in den Stufen 2 und 3 an Menschen eskalieren kann, muss er ein Verständnis davon haben, wie sicher er sich bei einer Antwort ist. Methoden der Uncertainty Quantification erzeugen einen entsprechenden Konfidenzwert, etwa durch mehrfaches Beantworten derselben Frage und Vergleich der Streuung, durch ein zweites bewertendes Modell oder durch Abgleich mit Referenzwerten aus der Dokumentation. Liegt die Konfidenz unter einer vereinbarten Schwelle, eskaliert der Agent automatisch an den Menschen, unabhängig davon, welche Autonomiestufe formal vorgesehen wäre. 

Ein Agent muss aber nicht nur wissen, wie er arbeitet, sondern auch, wie er aufhört zu arbeiten, wenn etwas nicht stimmt. Drei konsekutive Muster haben sich in der Praxis etabliert: Konfidenz-basierte Eskalation, danach stufenweise Rückstufung auf eine einfachere deterministische Lösung, oder schließlich Notabschaltung bei gehäuften Fehlern. Letzteres ist vergleichbar mit einer klassischen Sicherung, die bei Überlast die Leitung trennt.

Was das in der Praxis heißt

Im industriellen Einsatzumgebungen wie etwa im Maschinenbau oder bei Fertigungsprozessen ist die Audit-Schicht nicht optional, sondern Pflicht: Industrielle Qualitätssicherung erwartet, dass ein Fehlerbild im Nachhinein rekonstruierbar ist. Das  gilt für einen KI-Agenten genauso wie für eine klassische Steuerung. 

Und dieses Prinzip ist übertragbar. Ein agentisch geführter Roboter darf keine unzulässige Parametrierung haben. Eine agentisch gesteuerte Klimaanlage im Serverraum darf nicht einfach herunterfahren, um Strom zu sparen. Ein Pricing-Agent darf im Bieterwettbewerb mit anderen Agenten nicht in eine Preisspirale fallen. In allen drei Fällen ist die Architektur, die das vermeidet, dieselbe: Schichten, Evals, Regler.

Take-away

Verlässlichkeit wird gebaut und gemessen, nicht behauptet. Autonomie wird geregelt, nicht eingeschaltet. Wer einen Agenten in einen realen Betriebsablauf einbettet, verschiebt damit Verantwortung in die Architektur. Diese Verantwortung lässt sich erfüllen, sie verlangt aber Engineering, nicht nur Lizenzierung.

Soviel zur fachlichen Logik. Welche dieser Maßnahmen ab 2026 nicht mehr nur sinnvoll, sondern regulatorisch zwingend werden, betrachten wir in Teil 2 dieser Serie.

Wer es jetzt schon genauer wissen will, findet in unserem Whitepaper “Wenn KI-Agenten Nein sagen müssen” weitere Details sowie praktische Empfehlungen für den Maschinen- und Anlagenbau.

Whitepaper herunterladen

Beitrag teilen
Dr. Alexander Engels