KI-Agent vs. Chatbot (2026): Die wichtigsten Unterschiede und wann was eingesetzt werden sollte

Patryk Lasek profile picture Patryk Lasek
on April 9, 2026 13 min read
Vergleich nebeneinander: regelbasierte Chatbot-Oberfläche mit MATCH/FALLBACK-Intents gegenüber KI-Agent mit Tool-Aufrufen und Reasoning-Loop

Wer konversationale KI für Support, Vertrieb oder interne Tools evaluiert, hat vermutlich bemerkt, dass Anbieter “Chatbot” und “KI-Agent” je nach Verkaufsabsicht sehr unterschiedlich verwenden. Manche Produkte mit dem Label “KI-Agent” sind dünne Wrapper um ein Sprachmodell ohne Tool-Zugriff. Manche Produkte mit dem Label “Chatbot” leisten mehr autonomes Reasoning als Systeme, die sich selbst Agenten nennen.

Dieser Post definiert drei Kategorien konversationaler KI-Systeme nach ihrer Architektur, erklärt, wozu jede tatsächlich in der Lage ist, und behandelt, wann welche einzusetzen ist. Ziel ist es, genug technische Grundlage zu vermitteln, um Produkte nach ihrer tatsächlichen Architektur zu bewerten und nicht nach ihrem Marketing.


Eine Anmerkung zur Terminologie

Die Branche hat sich nicht auf einheitliche Definitionen geeinigt, daher unterscheidet dieser Post drei Kategorien:

  1. Regelbasierter Chatbot: Ein System, das auf Intent-Klassifikation, Entitäten-Extraktion und skriptbasierten Dialogflüssen aufbaut. Kein Sprachmodell ist an der Antwortgenerierung beteiligt. Das ist die traditionelle Chatbot-Architektur, die seit den 2010er Jahren existiert.

  2. LLM-Chatbot (oder Copilot): Ein System, das ein Large Language Model nutzt, um Eingaben zu verstehen und Antworten zu generieren, aber in einem Request-Response-Muster operiert, ohne autonomen Tool-Einsatz oder mehrstufiges Reasoning. Viele “KI-Chatbot”-Produkte auf dem Markt fallen in diese Kategorie. Sie sind flexibler als regelbasierte Chatbots, weil das LLM offene Sprache handhabt, aber sie führen keine Aktionen in externen Systemen aus und planen keine mehrstufigen Workflows.

  3. KI-Agent: Ein System rund um ein LLM, das über Aufgaben reasonen, Tools nutzen, Gedächtnis über Interaktionen hinweg halten und mehrstufige Workflows autonom ausführen kann. Das LLM operiert in einer Schleife, in der es beobachtet, reasoned, handelt und bewertet, ob die Aufgabe erledigt ist.

Spektrum von links nach rechts: Regelbasierter Chatbot, LLM-Chatbot / Copilot und KI-Agent mit zunehmender Autonomie Autonomie und Fähigkeit nehmen von links nach rechts zu. Die meisten “KI-Chatbot”-Produkte 2026 sitzen irgendwo auf diesem Spektrum.

Der Rest dieses Posts behandelt alle drei Kategorien, wobei der Großteil der architektonischen Details auf regelbasierten Chatbots und KI-Agenten liegt, da diese die größte Lücke darstellen. Der Abschnitt zu LLM-Chatbots ist kürzer, weil sie architektonisch eine eingeschränkte Version eines KI-Agenten sind: gleiches Sprachmodell, aber ohne Tool-Use-Loop.


Was ist ein regelbasierter Chatbot?

Ein regelbasierter Chatbot führt mit Nutzern Gespräche per Text oder Sprache anhand vordefinierter Logik. Er wird aus einer Kombination von Intent-Klassifikation, Entitäten-Extraktion und skriptbasierten Dialogflüssen gebaut.

Wie regelbasierte Chatbots funktionieren

Die typische Chatbot-Architektur hat drei Komponenten:

  1. Natural Language Understanding (NLU): Parst die Nachricht des Nutzers, um einen Intent (was der Nutzer will) zu identifizieren und Entitäten zu extrahieren (konkrete Daten wie Termine, Produktnamen oder Bestellnummern). Die meisten NLU-Systeme kombinieren Regex-Muster, Keyword-Matching und trainierte Klassifikatoren.

  2. Dialogue Manager: Ein State-Machine, die den nächsten Schritt basierend auf dem aktuellen Conversation State und dem erkannten Intent bestimmt. Jeder Zustand hat eine Menge möglicher Übergänge, und der Dialogue Manager folgt dem definierten Fluss.

  3. Response Generator: Holt eine Templates-Antwort zum aktuellen Zustand. In einfachen Chatbots ist das eine Lookup-Tabelle. In etwas raffinierteren enthält das Template Slots, die mit extrahierten Entitäten gefüllt werden.

Ein vereinfachter Fluss sieht so aus:

Nutzer: "Wie ist der Status von Bestellung #12345?"
  → NLU: intent=order_status, entity={order_id: 12345}
  → Dialogue Manager: state=check_order → call order_status_api(12345)
  → Antwort: "Bestellung #12345 wurde am 7. April verschickt und kommt voraussichtlich am 11. April an."

Die Architektur sieht so aus:

Flowchart einer regelbasierten Chatbot-Architektur: Die Nutzer-Nachricht geht an NLU für Intent- und Entitäten-Extraktion, dann an den Dialogue-Manager als State-Machine, der entweder zu Execute Action plus Response Template routet, wenn der Intent bekannt ist, oder zum Fallback Handler, wenn nicht

Das funktioniert gut für Closed-Domain-Probleme, bei denen die Menge möglicher Intents klein und wohldefiniert ist. Ein FAQ-Bot, ein Terminplaner oder ein Bestellstatus-Checker lassen sich so bauen.

Grenzen der regelbasierten Architektur

Das State-Machine-Modell bricht zusammen, wenn Gespräche unvorhersehbar werden. Konkret:

  • Starre Intent-Taxonomie: Jede Nutzeranfrage muss auf einen vordefinierten Intent gemappt werden. Wenn der Nutzer etwas in einer Weise formuliert, die das NLU-Modell nicht gesehen hat, fällt es in einen Fallback. Wächst die Zahl der Intents, wird die Taxonomie pflegen und Überschneidungen vermeiden zur erheblichen Engineering-Belastung.

  • Kein Reasoning über Turns hinweg: Der Dialogue Manager folgt einem festen Graphen. Er kann Informationen aus mehreren Turns nicht kombinieren, Trade-offs nicht abwägen und seinen Ansatz nicht kontextabhängig anpassen.

  • Brüchige Entitäten-Extraktion: Traditionelles Slot-Filling funktioniert für strukturierte Eingaben (Termine, Zahlen, Produkt-SKUs), tut sich aber schwer mit offenen Beschreibungen, mehrdeutigen Referenzen oder mehrteiligen Anfragen.

  • Lineare Skalierung des Aufwands: Einen neuen Anwendungsfall zu unterstützen bedeutet neue Intents, neue Dialogflüsse, neue Antwort-Templates und neuen Integrationscode. Jede Ergänzung vergrößert die Wartungsoberfläche proportional.

Für einen tieferen Blick auf die Entwicklung der Chatbot-Architekturen siehe Von NLP-Chatbots zu generativer KI.


Was ist ein KI-Agent?

Ein KI-Agent ist ein System rund um ein Large Language Model (LLM), das über Aufgaben reasonen, Tools nutzen, Gedächtnis über Interaktionen hinweg halten und Entscheidungen zum weiteren Vorgehen treffen kann, ohne einem Skript zu folgen.

Der Begriff “Agent” stammt in diesem Kontext aus der KI-Forschungstradition, wo ein Agent jedes System ist, das seine Umgebung wahrnimmt und Aktionen ausführt, um Ziele zu erreichen. In der LLM-Anwendungswelle 2024-2026 bezeichnet “KI-Agent” speziell Systeme, die ein LLM als Reasoning-Engine innerhalb einer Schleife nutzen, die Beobachtung, Planung, Tool-Ausführung und Bewertung umfasst.

Wie KI-Agenten funktionieren

Die Kernarchitektur eines KI-Agenten ist eine Reasoning-Schleife (manchmal ReAct-Schleife genannt, nach dem ReAct-Paper, das das Muster formalisiert hat). Die Schleife hat vier Phasen:

  1. Beobachten: Der Agent erhält die Nachricht des Nutzers zusammen mit Gesprächshistorie, System-Anweisungen und abgerufenen Kontext (z. B. relevante Wissensdatenbank-Artikel).

  2. Reasonen: Das LLM verarbeitet allen verfügbaren Kontext und entscheidet, was als Nächstes zu tun ist. Das kann eine direkte Antwort sein, eine Klärungsfrage oder ein Tool-Aufruf. Im Reasoning-Schritt unterscheidet sich der Agent am stärksten vom Chatbot: Statt einem State-Graph zu folgen, generiert das LLM einen Plan basierend auf seinem Verständnis der Aufgabe.

  3. Handeln: Entscheidet der Agent, ein Tool zu nutzen, generiert er einen strukturierten Function Call (z. B. search_knowledge_base(query="refund policy for damaged items") oder create_ticket(customer_id=456, issue="shipping delay")). Das System führt die Funktion aus und gibt das Ergebnis an den Agenten zurück.

  4. Bewerten: Der Agent prüft die Tool-Ausgabe und entscheidet, ob die Aufgabe abgeschlossen ist oder ein weiterer Schritt nötig ist. Sind weitere Arbeiten nötig, beginnt die Schleife von vorne ab dem Reasoning-Schritt.

Flowchart der Reasoning-Schleife eines KI-Agenten: Nutzer-Nachricht plus Kontext geht an Beobachten, dann Reasonen, dann eine Entscheidungsraute mit der Frage, ob die Aufgabe abgeschlossen ist. Falls nein, geht die Schleife zu Handeln (Tool aufrufen), dann Bewerten (Ausgabe prüfen), zurück zu Reasonen. Falls ja, generiert der Agent seine finale Antwort.

Hier ein konkretes Beispiel dieser Schleife in Aktion:

Nutzer: "Ich habe letzte Woche einen Laptop bestellt, aber stattdessen einen Monitor erhalten.
         Ich brauche, dass der richtige Artikel verschickt wird und ein Rücksendeetikett für den Monitor."

Reasoning-Schleife des Agenten:
  [Reasonen] Nutzer hat zwei Anliegen: richtige Artikel-Lieferung + Rücksendeetikett.
             Muss zuerst die Bestellung nachschlagen.
  [Handeln]  lookup_order(customer_email="user@example.com", timeframe="7d")
             → Gibt zurück: Bestellung #7891, Laptop SKU-A100, versandter Monitor SKU-B200
  [Reasonen] Bestellung gefunden. Falscher Artikel bestätigt. Muss Umtausch initiieren
             und Rücksendeetikett generieren.
  [Handeln]  initiate_exchange(order_id=7891, correct_sku="SKU-A100")
             → Gibt zurück: Umtausch #EX-442 erstellt, Versand in 1-2 Tagen
  [Handeln]  generate_return_label(order_id=7891, item_sku="SKU-B200")
             → Gibt zurück: Etikett-URL https://...
  [Bewerten] Beide Aufgaben erledigt. Antwort verfassen.

Agent: "Ich habe Ihre Bestellung #7891 gefunden. Der richtige Laptop (SKU-A100) wird
        in 1-2 Werktagen versandt. Hier ist Ihr Rücksendeetikett für den Monitor:
        [Link]. Geben Sie ihn an einem beliebigen Carrier-Standort ab."

Der entscheidende Unterschied zum Chatbot-Ansatz: Niemand musste einen “order_wrong_item_exchange_and_return”-Intent vordefinieren oder einen spezifischen Dialogfluss für dieses Szenario bauen. Der Agent zerlegte das Problem, rief die richtigen Tools in der richtigen Reihenfolge auf und verfasste eine Antwort.

Tool-Nutzung und Function Calling

Tool-Nutzung (auch Function Calling genannt) gibt KI-Agenten die Fähigkeit, auf die Welt einzuwirken, statt nur Text zu generieren. Das LLM erhält eine Liste verfügbarer Tools mit ihren Schemas (Parameternamen, Typen, Beschreibungen) und kann jedes davon während der Reasoning-Schleife aufrufen.

Häufige Tool-Kategorien für kundenseitige KI-Agenten:

KategorieBeispiele
WissensabrufWissensdatenbank durchsuchen, FAQ nachschlagen, Produktdokumentation abrufen
Daten-LookupBestellstatus prüfen, Account-Details holen, Inventar abfragen
SchreibaktionenSupport-Ticket erstellen, Kundendatensatz aktualisieren, Rückerstattung verarbeiten
KommunikationE-Mail senden, SMS auslösen, in Slack posten
EskalationAn menschlichen Agenten übergeben mit vollem Gesprächskontext

Das Tool-Schema ist der Vertrag zwischen LLM und externem System. Ein gut gestaltetes Schema gibt dem LLM genug Information, um das richtige Tool zu wählen und die richtigen Parameter zu liefern, ohne zusätzliches Prompting.

Gedächtnis und Kontextverwaltung

Chatbots speichern Gesprächsstatus typischerweise als gefüllte Slots (z. B. order_id=12345, intent=order_status). KI-Agenten brauchen ein reichhaltigeres Gedächtnismodell, weil sie offene Gespräche bewältigen, in denen relevante Informationen an jeder Stelle auftauchen können.

Die meisten KI-Agent-Implementierungen nutzen mehrere Kontext-Schichten:

  • Gesprächshistorie: Die rohe Folge von Nachrichten in der aktuellen Session.
  • Arbeitsgedächtnis: Zwischenresultate aus Tool-Aufrufen und Reasoning-Schritten, die folgende Entscheidungen informieren.
  • Abgerufener Kontext: Wissensdatenbank-Artikel, Produktdokumentation oder Kundendatensätze, die per RAG (Retrieval-Augmented Generation) basierend auf der aktuellen Anfrage gezogen werden.
  • Langzeitgedächtnis (optional): Persistente Fakten über Nutzer oder Account, die über Sessions hinweg getragen werden (z. B. bevorzugte Sprache, frühere Probleme, Abonnement-Stufe).

Kontext im Token-Fenster des LLM zu verwalten ist eine echte Engineering-Herausforderung. Wenn Gespräche länger werden und mehr Tools aufgerufen werden, kann der Kontext die Kapazität des Modells überschreiten. Strategien wie Zusammenfassung, gleitende Fenster und selektives Retrieval helfen, den Agenten funktional zu halten, ohne kritische Informationen zu verlieren.


Der Mittelweg: LLM-Chatbots und Copilots

Die meisten 2026 als “KI-Chatbots” vermarkteten Produkte fallen in eine Kategorie zwischen regelbasiertem Chatbot und vollwertigem KI-Agenten. Diese Systeme nutzen ein LLM, um Eingaben zu verstehen und natürlichsprachliche Antworten zu generieren, haben aber keinen Tool-Zugriff und führen keine mehrstufigen Workflows autonom aus.

Ein typischer LLM-Chatbot funktioniert so: Der Nutzer schickt eine Nachricht, das System ruft relevanten Kontext aus einer Wissensdatenbank ab (per RAG), gibt Nachricht und Kontext an ein LLM und gibt die generierte Antwort zurück. Es gibt keine Reasoning-Schleife, keine Tool-Auswahl und keine iterative Ausführung. Jede Nutzer-Nachricht löst einen einzelnen LLM-Aufruf aus.

Diese Architektur ist eine erhebliche Verbesserung gegenüber regelbasierten Chatbots. Das LLM bewältigt offene Sprache ohne vordefinierte Intent-Taxonomie, generiert natürliche Antworten statt Templates zu füllen und arbeitet in jeder Sprache, die das Modell unterstützt. Für reine Q&A-Anwendungsfälle, bei denen es darum geht, Fragen aus einer Wissensdatenbank zu beantworten, kann ein LLM-Chatbot alles sein, was nötig ist.

Die Grenze zeigt sich, wenn der Nutzer das System tun lassen will: Bestellung nachschlagen, Ticket erstellen, Rückerstattung verarbeiten, Inventar prüfen oder über mehrere Datenquellen hinweg koordinieren. Ein LLM-Chatbot kann nur vorschlagen, dass der Nutzer diese Aktionen selbst ausführt, oder an einen Menschen eskalieren. Ein KI-Agent kann sie direkt ausführen.

In der Praxis ist die Grenze zwischen LLM-Chatbot und KI-Agent nicht immer scharf. Schon ein einziges Tool (z. B. Bestellungs-Lookup) zu einem LLM-Chatbot hinzuzufügen, schiebt ihn Richtung Agent-Ende. Die Unterscheidung ist eher eine Frage des Autonomie-Grades als eine harte Grenze. Trotzdem zählt der architektonische Unterschied: Ein LLM-Chatbot ohne Reasoning-Schleife verarbeitet eine Anfrage zur Zeit, während ein Agent mehrere Beobachtungen und Aktionen verketten kann, um zusammengesetzte Probleme zu lösen.


Vergleich nebeneinander

DimensionRegelbasierter ChatbotLLM-Chatbot / CopilotKI-Agent
Kern-EngineNLU-Klassifikator + State-MachineLLM (Single-Turn)LLM mit Reasoning-Schleife
AntwortgenerierungTemplate-Lookup / Slot-FillingAus Kontext generiertAus Kontext + Tool-Ergebnissen generiert
GesprächsflussVordefinierter Dialog-GraphOffen, aber jeweils ein AustauschDynamisch, mehrstufig, zur Laufzeit bestimmt
Tool-NutzungHardcoded API-Aufrufe pro IntentKeineLLM wählt Tools aus verfügbarem Set
Mehrstufige AufgabenErfordert expliziten Fluss pro PfadKann keine Aktionen verkettenZerlegt Aufgaben autonom
Neuartige AnfragenFallback / “Ich verstehe nicht”Kann antworten, wenn Kontext in KB existiertReasoned aus Kontext + handelt
WissenszugriffKeyword-Suche oder Exact MatchRAG mit semantischer SucheRAG mit semantischer Suche und Reranking
WartungsmodellIntents, Flüsse, Templates pro Anwendungsfall hinzufügenWissensdatenbank aktualisierenTool-Set und Wissensdatenbank erweitern
KostenstrukturGeringer Compute (keine LLM-Inferenz)Pro-Token-LLM-KostenPro-Token-LLM-Kosten + Tool-Ausführung
FehlermodusStilles Misrouting oder FallbackHalluzinationHalluzination, falscher Tool-Aufruf
LatenzSchnell (Lookup-basiert)1-3 Sekunden (einzelner LLM-Aufruf)Variabel (abhängig von Reasoning-Schritten)

Sind regelbasierte Chatbots noch sinnvoll?

Für die meisten Anwendungsfälle 2026 nein. KI-Agenten sind gut genug, günstig genug und zuverlässig genug geworden, dass ein neues Projekt mit regelbasiertem Chatbot schwer zu rechtfertigen ist. Ein KI-Agent bewältigt alles, was ein Chatbot kann (FAQ, einfache Lookups, Datenerfassung), und zusätzlich den Long Tail an Anfragen, die ein Chatbot nicht kann. Die Wartungslast ist auch geringer: Statt Intents und Flüsse für jeden neuen Anwendungsfall zu definieren, erweitert man eine Wissensdatenbank und fügt Tools hinzu.

Es gibt einige enge Situationen, in denen ein regelbasierter Chatbot noch die pragmatische Wahl sein kann:

Regulatorische Vorgaben, die deterministische, vorab genehmigte Antworten erfordern. In manchen regulierten Branchen (Healthcare-Disclosures, Finanz-Compliance) muss jede Antwort vor Deployment geprüft und freigegeben werden. Ein Chatbot mit Template-Antworten erfüllt das per Design. KI-Agenten lassen sich mit Guardrails einschränken, aber die Ausgabe wird trotzdem generiert, nicht wortgenau vorab freigegeben.

Extreme Kostensensibilität bei massiver Skalierung. Wer monatlich zig Millionen Single-Turn-Interaktionen verarbeitet und der Anwendungsfall wirklich einfach ist (z. B. Saldo abfragen, Buchung bestätigen), für den lohnt sich die LLM-Inferenz pro Interaktion möglicherweise nicht. Diese Schwelle verschiebt sich mit fallenden Modellkosten, existiert Anfang 2026 aber bei sehr hohen Volumina noch.

Legacy-Systeme ohne Migrationspfad. Manche Organisationen haben regelbasierte Chatbots tief in Infrastruktur integriert, ohne Budget oder Timeline für einen Austausch. Hier ist die Frage nicht “was ist besser”, sondern “was können wir gerade tun”.

Außerhalb dieser Edge-Cases ist ein KI-Agent das bessere Default. Die Frage hat sich verschoben von “sollen wir einen KI-Agenten oder Chatbot einsetzen” zu “wie konfigurieren und beschränken wir unseren KI-Agenten für unsere spezifische Domäne”.


Wo KI-Agenten am stärksten sind

KI-Agenten sind 2026 die klare Wahl für die meisten neuen konversationalen KI-Projekte. Ein paar Szenarien, in denen der Abstand zwischen Agenten und regelbasierten Chatbots am größten ist:

Komplexe Support-Anfragen, die mehrere Systeme umfassen. Das obige Umtausch-Beispiel ist typisch. Der Nutzer hat ein zusammengesetztes Problem, das Daten-Lookups, Entscheidungen und mehrere Aktionen erfordert. Ein Chatbot würde einen eigenen Fluss für jede mögliche Kombination von Anliegen brauchen.

Offene Produktfragen. “Welcher Plan passt zu einem 15-köpfigen Team, das WhatsApp-Integration und HIPAA-Compliance braucht?” erfordert Reasoning über Produktdokumentation, Preisregeln und Compliance-Anforderungen hinweg. Ein Agent kann relevante Dokumente abrufen und eine Antwort synthetisieren. Ein Chatbot bräuchte eine unmöglich große Intent-Taxonomie, um alle möglichen Produktfragen abzudecken.

Vertriebsgespräche. Leads qualifizieren, Einwände beantworten und Produkte basierend auf den beschriebenen Bedürfnissen eines Interessenten empfehlen ist inhärent unscripted. Ein Agent, der das Produkt versteht und auf CRM-Daten zugreifen kann, ist weit effektiver als ein Chatbot, der einem Verzweigungsskript folgt.

Mehrsprachiger Support im Maßstab. LLMs handhaben mehrere Sprachen nativ, sodass ein KI-Agent Kunden in Dutzenden von Sprachen bedienen kann, ohne separate NLU-Modelle oder Antwort-Templates pro Sprache. Ein regelbasierter Chatbot braucht expliziten mehrsprachigen Trainingsdatensatz und Templating für jede unterstützte Sprache. Trotzdem erfordern mehrsprachige LLM-Deployments weiterhin Arbeit: Terminologie-Konsistenz, Tonkalibrierung pro Locale, QA für Low-Resource-Sprachen und Compliance-Prüfung für regionalspezifische Vorgaben. Das Sprachmodell beseitigt die Engineering-Last pro Sprache, eliminiert aber nicht den Bedarf an Localization-Oversight.

Szenarien, die Urteilsvermögen und Eskalation erfordern. Ein KI-Agent kann bewerten, ob er genug Vertrauen in seine Antwort hat, Kundenfrustration über Sentimentanalyse erkennen und entscheiden, an einen Menschen mit vollem Kontext zu eskalieren. Dieses adaptive Verhalten ist in einer State-Machine schwer zu kodieren.

Hintergrund zur Entwicklung konversationaler KI-Plattformen findet sich im Conversational AI Platform Guide.


Wie KI-Agenten in der Produktion funktionieren

Ein rohes LLM ohne Einschränkungen wäre in einer kundenseitigen Umgebung unbenutzbar. Produktive KI-Agenten sind mit Schichten von Kontrolle konfiguriert, die festlegen, was der Agent sagen darf, was er tun darf und wann er stoppen und an einen Menschen übergeben sollte. Sie sind nicht aus der Chatbot-Architektur entlehnt, sondern nativ zu der Art, wie Agent-Plattformen funktionieren.

Guardrails und Verhaltensregeln. Der Agent operiert innerhalb konfigurierbarer Grenzen: erlaubte Themen, Ton- und Persönlichkeitsbeschränkungen, Eskalations-Schwellwerte und genehmigte Tool-Sets. Fragt ein Kunde zu einem Thema außerhalb des Agent-Scopes, bestimmen die Guardrails, ob der Agent ablehnt, umleitet oder eskaliert. Das gibt Operations-Teams die Vorhersagbarkeit, die sie brauchen, ohne Dialogflüsse hartzukodieren.

Wissens-Grounding (RAG). Um Halluzination zu reduzieren, sind die Antworten des Agenten per RAG (Retrieval-Augmented Generation) in einer kuratierten Wissensdatenbank verankert. Der Agent ruft relevante Dokumente ab, bevor er eine Antwort generiert, und das System kann nachvollziehen, welche Quellen jede Antwort beeinflusst haben. Mehr dazu, wie Halluzinations-Mitigation in der Praxis funktioniert, in Was sind KI-Halluzinationen?.

Tool-Zugriff und Aktions-Berechtigungen. Der Agent kann Aktionen in externen Systemen ausführen (Tickets anlegen, Rückerstattungen verarbeiten, Datensätze aktualisieren, Workflows auslösen) per APIs oder MCP-Server. Welche Tools der Agent nutzen darf, wird pro Deployment konfiguriert. Ein Support-Agent darf z. B. Bestelldaten lesen und ins Ticket-System schreiben, aber keine Billing-Änderungen vornehmen. Diese Berechtigungen sind das produktive Äquivalent zum Prinzip der minimalen Rechte.

Quickchat AI Agents ist ein Beispiel einer Plattform, die alle drei Schichten kombiniert: konfigurierbare Guardrails, RAG-geerdete Antworten mit Quellen-Nachvollziehbarkeit und Tool-Nutzung per APIs und MCP.


Kosten- und Performance-Trade-offs

Die Wahl zwischen Chatbot und KI-Agent ist teils Architekturentscheidung, teils ökonomisch.

Chatbot-Ökonomie

Regelbasierte Chatbots haben nahezu null Grenzkosten pro Interaktion. Die Infrastruktur-Kosten sind das Hosting einer leichten Anwendung mit einer Intent-Antwort-Datenbank. Für hochvolumige, niedrig-komplexe Anwendungsfälle ist das schwer zu schlagen.

Die versteckten Kosten liegen in der Wartung. Jeder neue Anwendungsfall braucht Engineering-Zeit zum Definieren von Intents, Bauen von Flüssen, Schreiben von Templates und Integrieren von APIs. Wächst der Chatbot, kumulieren sich diese Wartungskosten. Organisationen mit hunderten Intents geben oft mehr für Chatbot-Wartung aus als für eine KI-Agent-Plattform.

KI-Agent-Ökonomie

KI-Agenten verursachen Kosten pro Interaktion, weil jedes Gespräch LLM-Inferenz (nach Token bepreist) plus Tool-Ausführungs-Overhead beinhaltet. Die Kosten pro gelöstem Gespräch variieren je nach Gesprächslänge, Anzahl der Tool-Aufrufe und zugrundeliegendem Modell.

Die Kosten pro KI-Agent-gelöstem Gespräch variieren stark je nach Gesprächslänge, Modellwahl und Tool-Aufruf-Anzahl, aber die meisten Anbieter bepreisen zwischen 0,30 $ und 2,00 $ pro gelöstem Gespräch. Zum Vergleich: Gartner schätzt die durchschnittlichen Kosten einer menschlich bearbeiteten Support-Interaktion auf 5-15 $ je nach Kanal und Komplexität. Einige veröffentlichte Preise Anfang 2026: Intercom Fin berechnet 0,99 $ pro Resolution, Quickchat AI 0,50 $ pro Resolution im Enterprise-Plan, und Salesforce Agentforce 2,00 $ pro Conversation.

Die ökonomische Rechnung verschiebt sich mit steigender Gesprächskomplexität zugunsten von KI-Agenten. Ein regelbasierter Chatbot, der nur 40 % der eingehenden Anfragen bewältigt, leitet die restlichen 60 % an menschliche Agenten. Ein KI-Agent mit höherer Resolution Rate (Anbieter berichten Werte zwischen 60 % und 90 %+ je nach Domäne und KB-Qualität) senkt die Gesamtkosten des Support-Betriebs, auch wenn jede einzelne KI-Interaktion mehr kostet als eine Chatbot-Interaktion.

Ein detailliertes Framework zur Berechnung dieser Trade-offs findet sich unter Wie man Chatbot-ROI berechnet.


Erfolg unterschiedlich messen

Chatbots und KI-Agenten brauchen unterschiedliche Analytics-Ansätze, weil sie auf unterschiedliche Weise versagen.

Chatbot-Metriken konzentrieren sich auf Coverage: Wie viele Intents werden erkannt, welcher Prozentsatz der Nachrichten landet im Fallback, und wie oft schließen Nutzer den definierten Fluss ab. Das primäre Diagnose-Tool ist das Fallback-Log, das zeigt, was Nutzer fragen, das der Chatbot nicht bewältigen kann.

KI-Agent-Metriken konzentrieren sich auf Ergebnisqualität: Hat der Agent das Anliegen tatsächlich gelöst, war der Kunde zufrieden, was hat es gekostet, und war die Antwort in akkuraten Quellen geerdet. Schlüsselmetriken sind KI-Resolution-Rate, Kosten pro Resolution, CSAT pro KI-Interaktion und Sentiment-Trends nach Thema.

Ein umfassender Leitfaden zu diesen Metriken, inklusive Dashboard-Setup und Benchmarks, findet sich unter Chatbot Analytics: KPIs, Dashboards & Metrics Guide.

Nachvollziehbarkeit ist eine weitere Dimension, die bei KI-Agenten mehr zählt als bei Chatbots. Weil der Agent Antworten generiert statt sie nachzuschlagen, braucht ihr einen Weg zu verifizieren, dass seine Antworten in eurer Wissensdatenbank geerdet sind und nicht erfunden. Achtet auf Plattformen, die zeigen, welche Quelldokumente jede Antwort beeinflusst haben, damit Support-Teams das Verhalten des Agenten prüfen und über die Zeit verbessern können.


FAQ

Kann ich meinen bestehenden Chatbot in einen KI-Agenten umwandeln?

Nicht direkt, weil sich die Architekturen grundlegend unterscheiden. Viele Assets aus dem Chatbot (Wissensdatenbank-Inhalte, API-Integrationen, FAQ-Datenbanken) übertragen sich aber direkt in ein KI-Agent-Setup. Die Wissensdatenbank wird zum RAG-Corpus, die API-Integrationen werden zu Tools, die der Agent aufrufen kann. Verworfen werden Intent-Taxonomie und Dialogfluss-Definitionen, die das LLM durch Laufzeit-Reasoning ersetzt.

Sind KI-Agenten teurer als Chatbots?

Pro Interaktion ja. KI-Agenten verursachen LLM-Inferenz-Kosten, die regelbasierte Chatbots nicht haben. KI-Agenten lösen aber typischerweise einen viel höheren Prozentsatz der Anfragen ohne menschlichen Eingriff (80 %+ vs 40-60 % für traditionelle Chatbots), was die Gesamt-Support-Kosten reduziert. Die Gesamtbetriebskosten hängen von eurem Gesprächsvolumen und der Komplexitätsverteilung ab.

Halluzinieren KI-Agenten?

Sie können. Ein LLM kann eine Antwort generieren, die plausibel klingt, aber faktisch falsch ist. Deshalb nutzen produktive KI-Agenten RAG, um Antworten in geprüftem Quellenmaterial zu erden, und Nachvollziehbarkeits-Features, die zeigen, welche Dokumente jede Antwort beeinflusst haben, sind kritisch für produktive Deployments.

Kann ein KI-Agent Aufgaben bewältigen, die ein Chatbot nicht kann?

Ja, speziell Aufgaben, die Reasoning über mehrere Datenquellen erfordern, mehrstufige Ausführung, neuartige Anfragen außerhalb eines vordefinierten Intents und kontextabhängiges Anpassen des Verhaltens. Ein Chatbot kann nur Aufgaben bewältigen, die seine Entwickler explizit antizipiert und mit Flüssen versorgt haben.

Wie steht es mit Latenz?

Chatbots antworten in Millisekunden, weil sie einen Lookup ausführen. KI-Agenten antworten typischerweise in 1-5 Sekunden, abhängig von der Zahl der Reasoning-Schritte und Tool-Aufrufe. Für die meisten Customer-Support- und Vertriebs-Anwendungsfälle ist diese Latenz akzeptabel. Für Echtzeit-Anwendungen mit Sub-Sekunden-Antworten als Pflicht ist ein Chatbot oder eine Cache-Antwort-Schicht möglicherweise nötig.

Ist “KI-Agent” nur ein Marketing-Rebrand von “Chatbot”?

Nein. Der Unterschied ist architektonisch. Ein Chatbot folgt einem vordefinierten Skript. Ein KI-Agent reasoned zur Laufzeit über die Aufgabe und entscheidet, was zu tun ist. Das ist ähnlich zur Unterscheidung zwischen einem hartkodierten if/else-Programm und einem System, das ein Machine-Learning-Modell für Entscheidungen nutzt. Von außen können sie ähnlich aussehen (beide führen Textgespräche), aber die internen Mechaniken und Fähigkeiten unterscheiden sich.