Sind Agentensysteme immer die beste Wahl?

Lukas Bieberich
17. Sept.
2 Min. Lesezeit

In der sich rasant entwickelnden Welt der KI‑Anwendungen sind Agenten zu einer beliebten Strategie geworden, um die Fähigkeiten von Large Language Models (LLMs) nutzbar zu machen. Sie versprechen Flexibilität, Autonomie und intelligentes Aufgabenmanagement. Doch nur weil etwas möglich ist, heißt das noch lange nicht, dass es auch immer die richtige Lösung darstellt.

Große Sprachmodelle wie GPT‑4o eröffnen beeindruckende Möglichkeiten – insbesondere dann, wenn sie mit autonomen Agentskombiniert werden, die Aufgaben eigenständig planen und ausführen können. Doch nicht jede Anwendung profitiert von diesem Maß an Autonomie. Eine zentrale Frage sollte daher immer zuerst gestellt werden:

Lässt sich ein fester, deterministischer Workflow definieren?

Wenn ja, ist dieser Ansatz in der Regel vorzuziehen. Der Einsatz von Agenten bedeutet, dass die Kontrolle über den Workflow Ihrer Anwendung an ein LLM delegiert wird – was naturgemäß das Risiko unerwarteten Verhaltens und möglicher Sicherheitslücken mit sich bringt.

Darüber hinaus ist zu beachten, dass Werkzeuge oder Funktionsbeschreibungen vom Framework über den System‑Prompt an das LLM weitergegeben werden. Das heißt: Sie werden im Hintergrund bei jeder Nutzereingabe an den Prompt angehängt, bevor das Modell aufgerufen wird. Selbst in kurzen Unterhaltungen kann dies zu einem hohen Token‑Verbrauch führen – mit entsprechenden Folgen: steigende API‑Kosten und zusätzlicher Performance‑Overhead.

Beispielhafte Kostenschätzung:

Nehmen wir an, wir verwenden die typische Methode eines ReAct Agent: Das Modell formuliert seine Gedanken, wählt auf dieser Basis Tools aus, prüft deren Ergebnisse und wiederholt diesen Zyklus so lange, bis es zu einer finalen Antwort gelangt.Bei durchschnittlich drei Zyklen pro Nutzeranfrage ergeben sich für eine Unterhaltung mit 20 Interaktionen (ohne Modell‑Output‑Tokens oder sonstige Konversationstokens) folgende Modell‑API‑Kosten durch den Tool‑Overhead:

KOMPONENTE	DETAILS	TOKEN‑OVERHEAD
Tool-Beschreibungen	50 Tools × 500 Tokens/Tool	25.000 Input‑Tokens/Anfrage
ReAct‑Pattern	3 Zyklen/Nachricht × 25.000 Tokens	75.000 Input‑Tokens/Nachricht
Gesamte Unterhaltung	20 Nachrichten × 75.000 Tokens	1,5 Mio. Tokens gesamt
Kosten (OpenAI o3)	10 $ pro 1 Mio. Input‑Tokens	15 $ Tool‑Overhead

Stand: April 2025

Es ist wichtig zu betonen, dass diese Zahlen ausschließlich die Kosten für die Tool-Beschreibungen widerspiegeln – nicht jedoch die eigentlichen Gesprächs‑Tokens. Selbst beim Einsatz kostengünstigerer Modelle als o3 kann das Setup schnell unwirtschaftlich werden, sobald längere Unterhaltungen oder eine große Nutzerzahl ins Spiel kommen. Ein durchdachter Workflow oder ein sorgfältig konzipiertes Agent‑Setup ist daher nicht nur eine Frage der Qualitätsverbesserung, sondern ein entscheidender Kostenfaktor.

Wenn Autonomie dennoch gewünscht oder erforderlich ist, kann ein Multi‑Agent‑Ansatz mit Expert Routing – wie oben beschrieben – dazu beitragen, den Token‑Verbrauch in vertretbaren Grenzen zu halten.

Auch wenn Agents Flexibilität und Eigenständigkeit versprechen, bringen sie Kompromisse mit sich, die nicht unterschätzt werden dürfen. Schon die Tool‑Beschreibungen erzeugen einen erheblichen Token‑Overhead, noch bevor eigentliche Gesprächs‑Tokens berücksichtigt werden. Für viele Anwendungsfälle liefert ein klar strukturierter Workflow vorhersehbarere, effizientere und kostengünstigere Ergebnisse. Wo agentenbasierte Autonomie dennoch erforderlich ist, kann ein Multi‑Agent‑Setup mit Expert Routing eine gute Balance zwischen Leistungsfähigkeit und Kosten bieten. Letztlich macht ein durchdachtes Design statt eines reflexhaften Griffs zum Agent‑Ansatz den entscheidenden Unterschied.

Sind Agentensysteme immer die beste Wahl?

Aktuelle Beiträge

Kommentare

Wir schreiben nicht nur über KI - wir entwickeln sie.

Hier zum Newsletter anmelden