KI-Agent-Observability ist die strukturierte Sicht darauf, was ein Produktions-KI-Agent in jedem Schritt getan hat. Sie entscheidet zwischen „die KI hat irgendwas Komisches gemacht und wir kommen nicht weiter" und „hier ist die Schritt-für-Schritt-Wiedergabe, hier die Ursache, hier der Fix". Die meisten KI-Einsätze 2025 hatten Logs, aber keine Observability. 2026 reicht das nicht mehr: Für Hochrisiko-Systeme gilt die Pflicht zur nachgelagerten Beobachtung („post-market monitoring") nach KI-Verordnung, agentische Workflows laufen länger und sind eigenständiger — Observability ist kein Nice-to-have mehr.

Der Unterschied zwischen Logs und Observability ist kein semantisches Spielchen. Logs zeichnen einzelne Ereignisse auf. Observability lässt dich Fragen über Ereignisse hinweg stellen und Kausalität rekonstruieren. Für einen KI-Agenten heißt das konkret: welches Werkzeug hat er mit welchen Argumenten aufgerufen, welches Ergebnis kam zurück, auf welche Schlussfolgerung hin, mit welchem Token-Verbrauch, mit welcher Modell-Version, mit welchem Fallback wann. Ein klassischer Application Performance Monitoring-Aufbau (Metriken, Logs, Traces im Sinne von Span-Hierarchien, Dashboards) deckt einen Teil davon ab. KI-spezifische Observability ergänzt genau die Schichten, die klassisches APM nicht erfasst: die Schlussfolgerungs-Spur, das Quellenzitat pro Schritt, die Token- und Kosten-Ökonomie und Indikatoren für Modell-Drift.

Die zentralen Werkzeuge auf dem Markt (Arize, Langfuse, LangSmith, WhyLabs, New Relic AI Monitoring, Atlan) sind Framework-agnostisch und decken diese Schichten ab. Wer KI in der Personalarbeit oder anderen sensiblen Domänen betreibt, braucht zusätzlich Observability über die Audit-Oberflächen — Entitäten-Zugriffe, abgewiesene Empfänger, abgewiesene Snapshot-Prüfungen — denn das sind die Datenpunkte, aus denen Compliance-Evidenz entsteht. Dieser Leitfaden zeigt dir die fünf Signale, die zählen, wie jedes davon gleichzeitig Engineering-Debugging und Compliance-Evidenz liefert, welche Fehlermodi gute Observability frühzeitig fängt und mit welchem Minimum an Werkzeugen du in Produktion auskommst.

Für den größeren architektonischen Rahmen siehe unseren Pillar-Artikel KI-Agent-Architektur und Verteidigung. Für den Audit-Trail-Compliance-Winkel, den Observability mit Daten speist, siehe KI-Agent Audit-Trail und RBAC-Anforderungen.

5KI-spezifische Observability-Signale, die jeder Produktions-Einsatz braucht
6moMindest-Aufbewahrung für automatisch erzeugte Logs nach KI-Verordnung Art. 26(6)
47stypische Dauer einer Agent-Sitzung — gut für 30 bis 50 beobachtbare Schritte
3voneinander unabhängige Audit-Protokolle in einem reifen Einsatz (Entität, Plugin, Aktivität)

Die fünf Signale, die zählen

SignalWas es erfasstWelchen Fehlermodus es fängtCompliance-Bezug
1. Werkzeug-Aufruf-TraceJeder Werkzeug-Aufruf mit Argumenten, Ergebnis, Latenz, Status — ein „Span" pro Aufruf, hierarchisch genestet pro Sitzungfalsches Werkzeug gewählt, fehlerhafte Argumente, stille FehlschlägeKI-Verordnung Anhang IV „Funktionsweise des KI-Systems"; Beweisbasis für das Audit-Protokoll
2. Schlussfolgerungs-Schrittder Plan oder Gedankengang des Agenten pro Schritt — was er entschieden hat und warum (Schlussfolgerungs-Trace)Endlos-Schleifen, fehlinterpretierte Absicht, halluzinierte nächste AktionKI-Verordnung Art. 86 Recht auf Erklärung; Wiedergabe-Fähigkeit für Audits
3. Quellenzitat pro Schrittdie konkreten Eingabe-Daten, auf die sich der Agent bei jedem Schritt-Ergebnis bezogen hatHalluzination (keine Quelle für den geschriebenen Wert), Leak aus TrainingsdatenBeweisbasis für Snapshot-Prüfungen; Technische Dokumentation nach KI-Verordnung
4. Token- und Latenz-TelemetrieTokens rein/raus pro Schritt und pro Sitzung, Latenz pro LLM-Aufruf, Kosten-Zuordnungaußer Kontrolle geratene Kosten, Überlauf des Kontextfensters, schleichende Verschlechterung beim AnbieterNachgelagerte Beobachtung nach KI-Verordnung; Erkennung von Kosten-Anomalien
5. Anomalie-Erkennungstatistische Alarme bei Drift in Metriken (Latenz, Kosten, Treffergenauigkeit, Ablehnungs-Quote)langsamer Modell-Drift, anbieterseitige Verhaltens-Änderung, Prompt-Injection-KampagneAuslöser für die Vorfalls-Meldung nach Art. 73 KI-Verordnung; durchgehende Compliance

Prüfe deinen KI-Observability-Aufbau

Die kostenlose, 8-minütige KI-Readiness-Bewertung prüft die Reife deines Observability-Aufbaus, die Abdeckung deiner Audit-Protokolle und deine Pflichten zur nachgelagerten Beobachtung. Strukturierter KI-Bericht, keine Anmeldung.

Jetzt ausprobieren

Warum Logs noch keine Observability sind

Mit Observability kannst du

  • jede Agent-Sitzung Schritt für Schritt wiedergeben — inklusive Schlussfolgerung und Quellenzitaten

  • Fragen über mehrere Ereignisse hinweg stellen: „Zeig mir alle Sitzungen, bei denen Schritt 3 länger als fünf Sekunden gebraucht hat"

  • Token-Kosten mit konkreten Werkzeug-Mustern oder Nutzer-Gruppen verknüpfen

  • Drift in der Dichte der Quellenzitate erkennen — ein frühes Halluzinations-Signal

  • die Beweisbasis für das Recht auf Erklärung nach Art. 86 KI-Verordnung in Sekunden bereitstellen

  • die Meldung nach Art. 73 KI-Verordnung automatisch bei Anomalien anstoßen

Mit reinen Logs bleibst du bei

  • in reinen Logs nach „Was hat die KI letzten Dienstag um 14:32 gemacht?" zu suchen

  • keiner Korrelation über Ereignisse hinweg — jede Log-Zeile ist eine Insel

  • Token-Kosten nur als Aggregat sichtbar, keine Zuordnung zu konkreten Mustern

  • Halluzinationen, die erst auffallen, wenn ein nachgelagertes System sie fängt

  • einer Erklärung nach Art. 86 KI-Verordnung, die du jedes Mal manuell rekonstruierst

  • einer Vorfalls-Meldung, die davon abhängt, dass ein Mensch die Anomalie zufällig bemerkt

Das Minimum an Observability-Werkzeugen für Produktions-KI

1

Jeden Werkzeug-Aufruf instrumentieren (Signal 1)

Lege um jeden Werkzeug-Aufruf einen Tracing-Decorator — Langfuse, LangSmith, OpenTelemetry oder das, was dein Framework von Haus aus mitbringt. Erfasse: Werkzeug-Name, Argumente (personenbezogene Daten bereinigt), Ergebnis-Zusammenfassung, Latenz, Status, übergeordnete Sitzungs-ID. Ziel: 100 Prozent Abdeckung. Sampling bringt dir bei der Vorfalls-Wiedergabe nichts.

2

Schlussfolgerung pro Schritt erfassen (Signal 2)

Bring den Agenten dazu, seinen Plan oder Gedankengang zu externalisieren, und erfasse diesen Schlussfolgerungs-Trace pro Schritt. Moderne Modelle liefern das nativ: OpenAIs Werkzeug-Aufrufe enthalten die Schlussfolgerung, Claudes Thinking-Blöcke ebenfalls. Speichere die Schlussfolgerung direkt neben dem zugehörigen Werkzeug-Aufruf-Trace.

3

Quellenzitate pro Schritt erzwingen (Signal 3)

Bei Agenten, die Daten schreiben oder ändern: verlange im Prompt eine Quellenangabe als Teil der Schlussfolgerung. Prüfe automatisch, dass die zitierten Werte mit den tatsächlichen Eingabe-Daten übereinstimmen (Muster „Snapshot-Prüfung"). Schritte ohne überprüfbares Quellenzitat sind ein Drift-Signal und sollten direkt einen Alarm auslösen.

4

Token- und Latenz-Telemetrie führen (Signal 4)

Pro LLM-Aufruf: Input-Tokens, Output-Tokens, Latenz, Modell-Version. Pro Sitzung: Tokens gesamt, Kosten gesamt, welche Fallback-Kette gegriffen hat. Aggregat ins Dashboard, pro-Sitzungs-Anomalien (Beispiel: eine Sitzung verbraucht das Doppelte des Durchschnitts) als Alarm.

5

Anomalie-Erkennung aufsetzen (Signal 5)

Statistische Baselines für Latenz pro Werkzeug, Tokens pro Sitzung, Ablehnungs-Quote, Fehler-Quote und Dichte der Quellenzitate. Alarm, sobald eine Metrik mehr als zwei Sigma vom rollierenden Mittel abweicht. Die meisten Observability-Plattformen bringen das mit; falls nicht, fängt schon ein einfacher Cron-Job, der den 7-Tage- mit dem 30-Tage-Mittelwert vergleicht, die offensichtlichsten Ausreißer.

Fang mit Signal 1 und 2 an. Werkzeug-Aufruf-Traces plus Schlussfolgerungs-Erfassung sind die Observability-Investition mit dem höchsten Ertrag pro Aufwand. Hast du beides, kannst du rund 80 Prozent der Vorfälle aus Produktions-KI-Einsätzen sauber debuggen. Signal 3 bis 5 liefern zusätzliche Präzision und Compliance-Substanz, sind aber nicht der richtige Startpunkt. Erst das Fundament, dann die Schichten darüber.

Kernaussagen

1. Logs sind keine Observability. Logs zeichnen einzelne Ereignisse auf — mit Observability stellst du Fragen über Ereignisse hinweg und gibst Sitzungen Schritt für Schritt wieder.

2. Fünf Signale, die zählen. Werkzeug-Aufruf-Traces, Schlussfolgerungs-Schritte, Quellenzitate, Token- und Latenz-Telemetrie, Anomalie-Erkennung. Jedes davon liefert Engineering-Debugging UND Compliance-Evidenz.

3. Starte mit Signal 1 und 2. Werkzeug-Traces plus Schlussfolgerungs-Erfassung decken rund 80 Prozent des Vorfall-Debuggings ab. Den Rest baust du dazu, wenn der Einsatz reift.

4. KI-Verordnung Art. 26(6) verlangt mindestens sechs Monate Log-Aufbewahrung. Dieselben Observability-Daten bedienen Art. 86 (Recht auf Erklärung) und Art. 73 (Meldung schwerwiegender Vorfälle innerhalb von 15 Tagen). Für deutsche Mittelständler mit BfDI-Berührung und BSI-Pflichten aus dem Cybersicherheits-Regime ist das dasselbe Datenfundament.

5. KI-spezifische Observability schlägt generisches APM. Ergänze deinen klassischen APM-Aufbau um Schlussfolgerungs-Erfassung, Quellenzitate und Modell-Version-Tracking — APM allein sieht die KI-Schicht nicht.