Was macht ein System zu einem Agenten?
- Lukas Bieberich

- 10. Sept.
- 3 Min. Lesezeit
Agenten sind ein zentrales Konzept im modernen KI-Design – weit über die Welt der Sprachmodelle hinaus. Doch was genau macht ein System zu einem „Agenten“? Und wie unterscheiden sich klassische agentenbasierte Frameworks von den Möglichkeiten heutiger LLMs?
Im ersten Teil dieser Serie werfen wir einen genaueren Blick auf die theoretischen Grundlagen: Was bedeutet es, wenn ein System autonom handelt? Welche Rolle spielt die sogenannte Policy bei der Steuerung des Agentenverhaltens? Und wie lässt sich dieses Denken auf Sprachmodelle anwenden, die auf den ersten Blick scheinbar „nur“ Text generieren?

The Concept of an Agent
Der Begriff „Agent“ existiert schon lange außerhalb des Kontexts moderner Sprachmodelle. Im Allgemeinen bezeichnet er ein System, das seine Umgebung verarbeitet und auf deren Zustand mit Aktionen reagiert. Diese Aktionen verändern wiederum den Zustand der Umgebung. In diesem Sinne gilt das System als autonom, da es eigenständig auf seine Umgebung reagiert, ohne externe Anweisungen zu benötigen.
Die Funktion, die die Verbindung zwischen Zustand und Aktion beschreibt, wird als Policy bezeichnet. Sie definiert das Verhalten des Agenten. Eine Policy kann durch eine feste Menge an Regeln vorgegeben oder parametrisiert und erlernt werden (wie im Reinforcement Learning). Anwendungen dieses Ansatzes reichen von einfacher Programmlogik über Robotiksteuerung bis hin zum menschlichen Gehirn.
Wie funktionieren Sprachmodelle als Agenten?
Unter der Annahme, dass Aktionen Aufrufe vordefinierter Programme oder Funktionen darstellen, erhält das LLM im Prompt strukturierte Beschreibungen dieser Funktionen. Während einer Unterhaltung entscheidet es dann autonom, ob ein Tool-Aufruf erforderlich ist und, falls ja, welcher. Falls notwendig, gibt das Sprachmodell eine Anweisung für den entsprechenden Tool-Aufruf zurück – inklusive aller erforderlichen Argumente – als strukturiertes Output (z. B. in JSON, Markdown oder Code).
Solange dieses Output der vorgegebenen Struktur entspricht, kann es vom Framework formal geparst und ausgeführt werden. Die Tool-Antwort kann anschließend in einem weiteren Aufruf wieder an das LLM zurückgegeben werden. Dieses entscheidet dann, ob zusätzliche Tool-Aufrufe erforderlich sind oder ob direkt eine Antwort für die Nutzer:innen generiert werden soll (ReAct-Pattern).
Das ReAct Pattern in 5 einfachen Schritten
ReAct steht für Reasoning + Acting.
Ein Sprachmodell wie ChatGPT denkt zunächst laut über ein Problem nach, bevor es entscheidet, welche Aktion ausgeführt werden soll (z. B. eine Datenbankabfrage starten, Code schreiben und ausführen, eine Berechnung durchführen usw.).

1. Eingabe erhalten (Frage oder Problem)
Das Modell erhält eine Aufgabe oder Frage von der Nutzerin/dem Nutzer.
Beispiel
“Was war Apples Umsatz in 2023?”
2. Reasoning: Nachdenken
Das Modell reflektiert, was nötig ist, um die Frage zu beantworten.
Es schreibt seine Gedanken auf – ähnlich wie ein Mensch, der eine Lösung plant.
Beispiel-Gedanke:
"Um diese Frage zu beantworten, muss ich aktuelle Informationen über Apples Umsatz im Jahr 2023 finden."
3. Acting: Tool Aufruf
Das Modell wählt eine Aktion, zum Beispiel:
Eine Websuche starten
Eine Datenbank abfragen
Ein Tool zur Durchführung einer Berechnung verwenden
Diese Aktion wird anschließend tatsächlich ausgeführt.
Beispiel Aktion:
“Führe Websuche durch für: Apple Umsatz 2023”
4. Beobachtung
Das Modell erhält das Ergebnis der Aktion (z. B. das Suchergebnis) und prüft es.
Beispiel-Ergebnis:
“Apple meldete einen Umsatz von 93 Millarden USD im Jahr 2023.”
5. Antwort generieren
Nun nutzt das Modell die gesammelten Informationen, um eine finale Antwort zu formulieren und an die Nutzerin/den Nutzer zurückzugeben.
Beispiel-Antwort:
“Apple meldete einen Umsatz von 93 Millarden USD im Jahr 2023.”
Loops sind möglich
Manchmal genügt ein Durchlauf nicht – das Modell kann mehrere Zyklen aus Reasoning und Acting durchlaufen, bis es genügend Informationen hat.
Multi-Agenten Systeme und das Supervisor Pattern
Die Fähigkeit von Sprachmodellen, als Agenten zu fungieren, hängt direkt von ihrer Möglichkeit ab, strukturiertes Output (z. B. JSON oder Markdown) zu erzeugen. Dadurch werden parsebare Tool- oder Funktionsaufrufe ermöglicht – sei es für Wetter-APIs, Datenbanken oder Shell-Befehle. Diese Fähigkeit wird durch konversationelles Fine-Tuning entwickelt.
Was in Wirklichkeit ein mehrstufiger Prozess ist, erscheint Nutzer:innen von ChatGPT, Cursor oder anderen KI-Anwendungen mit Agenten im Hintergrund wie ein einzelner LLM-Aufruf. Wichtig ist dabei: Sprachmodelle definieren lediglich die Policy. Die eigentliche Ausführung erfolgt durch ein zwischengeschaltetes Framework (z. B. LangGraph, CrewAI usw.).
Für komplexere Aufgaben kann es sinnvoll sein, mehrere Agenten zu verbinden. Im sogenannten Supervisor-Pattern übernimmt ein zentraler Agent das anfängliche Routing zum jeweils passenden Experten. Technisch lässt sich dies – ähnlich wie Tool-Beschreibungen – über den System-Prompt implementieren. Besonders in Fällen, in denen Aufgaben klar voneinander getrennt sind, bieten Multi-Agent-Systeme Vorteile: Tool-Beschreibungen können auf verschiedene Agenten verteilt werden. Das spart Tokens und verbessert die Antwortqualität.








Kommentare