Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

KI & Agentische Systeme

Ein Agent ist kein Chatbot. Ein Agent ist ein Mitarbeiter.

Wir bauen KI-Agenten mit Governance, Sicherheit und Produktionsbetrieb. Keine Demos, keine PoCs im Regal.

RAG & Knowledge Base

KI antwortet aus Ihren Dokumenten — präzise, mit Quellenangaben, ohne Halluzinationen. Wir bauen Retrieval-Pipelines mit hybrider Suche, Re-Ranking und Chunk-Strategien, die auf Ihre Domäne optimiert sind.

Warum RAG wichtig ist: Der Großteil des Unternehmenswissens liegt in unstrukturierten Dokumenten — Verträge, interne Wikis, Tickets, E-Mails. Klassische Volltextsuche versagt bei semantischen Anfragen. RAG verbindet die Stärke von LLMs mit präzisen Daten aus Ihren Quellen.

Wie wir vorgehen: Wir setzen auf hybrides Retrieval (Dense Embeddings + Sparse BM25), mehrstufiges Re-Ranking und domänenspezifische Chunk-Strategien. Für jedes Projekt testen wir 3–5 Chunk-Konfigurationen auf realen Anfragen und messen Recall@k. Typischerweise erreichen wir 92–97 % Recall bei den Top-10-Ergebnissen.

Architektur in der Praxis: Ingestion-Pipeline → Chunking (semantisches Splitting, kein naives Fixed-Size) → Embedding (Modellauswahl nach Sprache und Domäne) → Vektor-DB (Qdrant/Weaviate) + BM25-Index → Retrieval → Re-Ranking (Cross-Encoder) → LLM mit Quellenangaben. Jeder Schritt ist messbar und debugfähig.

Häufige Fehler, die wir vermeiden: Naives Chunking mit 512 Token (zerstört den Kontext), fehlendes Re-Ranking (Precision sinkt um 15–25 %), keine Evaluierung der Retrieval-Qualität, Ignorieren von Metadaten (Datum, Autor, Dokumentversion). Wir haben RAG-Systeme mit 60 % Accuracy gesehen — nach der Optimierung lagen sie bei 94 %.

ragvector-dbZitatere-rankingembeddings
Details →

Agent workflows

Der Agent führt Schritte in Systemen aus — liest, schreibt, entscheidet, eskaliert. Wir orchestrieren mehrstufige Workflows mit Tool-Use, paralleler Verarbeitung und Human-in-the-Loop-Eskalation.

Was ist ein Agent-Workflow: Im Gegensatz zum einfachen Prompt → Antwort plant ein Agent eine Abfolge von Schritten, ruft Werkzeuge auf (APIs, Datenbanken, Dateien), bewertet Ergebnisse und entscheidet über das weitere Vorgehen. Es ist ein programmierbarer Arbeiter mit definiertem Mandat.

Orchestrierung: Wir verwenden graphbasierte Orchestrierung (LangGraph, eigene DAG-Engine), bei der jeder Knoten ein isolierter Schritt mit definiertem Input, Output und Fehlerbehandlung ist. Der Agent kann mehrere Werkzeuge parallel aufrufen, Ergebnisse aggregieren und auf Basis von Geschäftsregeln entscheiden.

Sicherheit und Kontrolle: Jeder Tool-Call wird mit vollem Kontext protokolliert. Wir definieren Berechtigungsgrenzen — der Agent darf aus dem CRM lesen, aber Schreibvorgänge erfordern menschliche Freigabe. Ein Kill-Switch stoppt den Agenten in jedem Schritt. Eskalationsregeln sind pro Use-Case konfigurierbar.

Praxisbeispiel: Agent zur Rechnungsverarbeitung — empfängt PDF, extrahiert Daten (OCR + LLM), validiert gegen die Bestellung im ERP, prüft Duplikate, schreibt ins Buchhaltungssystem, benachrichtigt die Buchhaltung über Unstimmigkeiten. Verarbeitet 200+ Rechnungen/Tag mit 98,5 % Genauigkeit. Menschen behandeln nur Sonderfälle.

Orchestrierungtool-useaudithuman-in-the-loopDAG
Details →

Evaluation & monitoring

Wir messen Antwortqualität, Latenz, Kosten und Drift. Produktions-KI ohne Evaluierung ist eine Zeitbombe — wir bauen den Observability-Stack ab dem ersten Tag.

Warum Evaluierung entscheidend ist: LLMs ändern sich (neue Modellversionen), Daten ändern sich, Benutzeranfragen ändern sich. Ohne kontinuierliche Evaluierung wissen Sie nicht, ob Ihr System funktioniert — Sie wissen nur, dass es letzten Monat funktioniert hat. Wir haben Systeme gesehen, bei denen ein Modell-Upgrade die Qualität um 20 % verschlechterte und niemand es eine Woche lang bemerkte.

Unser Evaluierungs-Stack: Automatisierte Eval-Suiten (Golden Dataset mit 200–500 Paaren pro Use-Case), LLM-as-Judge für subjektive Qualität, deterministische Metriken (Faithfulness, Answer Relevance, Context Precision), A/B-Testing für Prompt-Änderungen. Alles läuft in CI/CD — jedes Deployment durchläuft die Eval-Suite.

Monitoring in Produktion: Wir verfolgen Latenz (P50/P95/P99), Token-Verbrauch, Kosten pro Anfrage, Fehlerrate, Retrieval-Qualität (NDCG), Nutzerzufriedenheit (Daumen hoch/runter + Feedback-Loop). Alerts bei Anomalien — wenn die Accuracy unter den Schwellenwert fällt, wissen wir sofort Bescheid.

Was wir messen und wie: Faithfulness (Antwort basiert auf Kontext), Vollständigkeit (Antwort deckt die Anfrage ab), Halluzinationsrate, Toxizität, Kosteneffizienz (Kosten pro erfolgreiche Lösung). Dashboard mit täglichen Reports für Stakeholder.

EvaluierungMetrikenalertingobservabilityCI/CD
Details →

Governance & security

RBAC, Audit-Trail, Kill-Switch, menschliche Eskalation, Prompt-Injection-Schutz. Produktions-KI erfordert dieselbe Governance wie jedes andere kritische System.

KI-Governance ist kein Nice-to-have: In regulierten Branchen (Finanzen, Gesundheitswesen, öffentlicher Sektor) ist Governance eine Voraussetzung für das Deployment. Aber auch außerhalb der Regulierung — ein KI-Agent mit Zugriff auf Produktionssysteme ohne Governance ist ein Sicherheitsrisiko.

Was wir implementieren: Rollenbasierte Zugriffskontrolle (wer darf was), Audit-Trail (jede Aktion mit Kontext protokolliert), Kill-Switch (sofortiger Agentenstopp), Eskalationsregeln (wann den Menschen fragen), Rate Limiting, Input/Output-Guardrails, Prompt-Injection-Erkennung, PII-Schwärzung.

Prompt-Injection-Schutz: Mehrschichtige Verteidigung — Input-Sanitization, System-Prompt-Härtung, Output-Validierung, Canary-Tokens im Kontext. Wir testen jedes Deployment gegen bekannte Angriffsvektoren. Kein System ist 100 % sicher, aber wir reduzieren das Risiko um Größenordnungen.

Compliance und Audit: Wir erstellen Audit-Reports, die mit ISO 27001, SOC 2 und DSGVO kompatibel sind. Jede Agenten-Entscheidung ist reproduzierbar — wir protokollieren Prompt, Kontext, Modellantwort und Tool-Calls. Für regulierte Sektoren implementieren wir Model Cards und KI-Folgenabschätzung.

rbacauditcomplianceprompt-injectionguardrails
Details →

Fine-tuning & optimization

Wir optimieren Modelle auf Ihre Daten — kleiner, schneller, günstiger. Destillation großer Modelle in produktionsreife, domänenadaptierte Embeddings, maßgeschneidertes Prompt Engineering.

Wann Fine-Tuning sinnvoll ist: Wenn Prompt Engineering nicht ausreicht (spezifische Domäne, Ausgabeformat, Konsistenz), wenn Sie Latenz/Kosten senken müssen (kleineres Modell = schneller + günstiger) oder wenn Sie ein On-Premise-Modell benötigen (Regulierung, Datenresidenz).

Unser Ansatz: Wir beginnen mit der Analyse — brauchen Sie wirklich Fine-Tuning, oder reicht besseres Prompting? Falls ja: Trainingsdaten sammeln (synthetisch + real), Fine-Tuning mit LoRA/QLoRA, Evaluierung gegen Baseline. Typischerweise erreichen wir 85–95 % der GPT-4-Qualität mit einem 10× kleineren und 5× günstigeren Modell.

Knowledge Distillation: Großes Modell (GPT-4, Claude) generiert Trainingsdaten für kleineres Modell (Llama 8B, Mistral 7B). Das kleinere Modell erlernt domänenspezifisches Verhalten ohne riesige Datensätze. Ergebnis: Produktionsmodell mit <200ms Latenz und <$0,001 Kosten pro Anfrage.

Inferenz-Optimierung: Quantisierung (INT8/INT4), Batching, KV-Cache-Optimierung, Speculative Decoding. Für Hochdurchsatz-Szenarien (1000+ Anfragen/min) entwerfen wir einen Inferenz-Stack mit Autoscaling und intelligentem Routing zwischen Modellen.

fine-tuningdistillationinferenceLoRAquantization
Details →

Process integration

KI ist keine Insel. Wir verbinden mit ERP, CRM, Ticketing, E-Mail und internen Systemen. Wir bauen eine robuste Integrationsschicht mit Retry-Logik, Circuit Breakern und Monitoring.

Warum Integration entscheidend ist: Ein KI-Agent ohne Anbindung an reale Systeme ist nur ein Chatbot. Wertschöpfung entsteht, wenn der Agent aus dem CRM liest, ins ERP schreibt, Tickets erstellt, Benachrichtigungen sendet — wenn er Teil des Prozesses ist, nicht nur ein Anhängsel.

Wie wir integrieren: REST/GraphQL-API-Adapter, Webhook-Listener, Message-Queue-Consumer (RabbitMQ, Kafka), Datenbank-Konnektoren. Jede Integration hat Retry-Logik, Circuit Breaker, Timeout-Handling und Dead Letter Queue. Monitoring auf jeder Verbindungsebene.

Typische Integrationen: SAP/ERP (Rechnungen, Bestellungen, Lager), Salesforce/CRM (Kontakte, Opportunities, Aktivitäten), Jira/ServiceNow (Tickets, Incidents), E-Mail/Teams/Slack (Benachrichtigungen, Eskalationen), DMS (SharePoint, Confluence, internes Wiki). Die meisten Anbindungen realisieren wir in 1–2 Wochen.

Change Management: Technische Integration ist die halbe Arbeit. Die andere Hälfte ist Adoption — Benutzerschulung, schrittweiser Rollout (Shadow Mode → Pilot → Produktion), Messung der Prozessauswirkungen, Iteration auf Basis von Feedback. Ohne Adoption ist selbst das beste KI-System nutzlos.

apiwebhookserpcrmIntegrationchange-management
Details →
AI Agent

AI Agent

Autonomer KI-Arbeiter mit definiertem Ziel, Kontext, Werkzeugen und Berechtigungen. Im Gegensatz zum Chatbot handelt der Agent aktiv in Systemen.

Beispiel aus der Praxis: Der Agent verarbeitet eingehende Rechnungen: liest PDF, extrahiert Daten, validiert gegen Bestellung, schreibt ins IS und benachrichtigt die Buchhaltung über Unstimmigkeiten.
  • Hat definierte Berechtigungen (was er darf und was nicht)
  • Protokolliert jede Aktion (Audit-Trail)
  • Hat Kill-Switch und menschliche Eskalation
  • Wird gemessen (Erfolgsrate, Latenz, Kosten)
>95%
Aufgaben-Erfolgsrate
<2s
P95-Latenz
-40%
Betriebskosten
8 Wochen
Bereitstellungszeit

Jak to děláme

1

Discovery Workshop

Wir kartieren Prozesse, identifizieren Use-Cases für KI-Agenten und definieren Erfolgskriterien.

2

PoC auf realen Daten

Wir bauen einen funktionalen Agenten-Prototyp auf Ihren Daten und überprüfen den praktischen Nutzen.

3

Governance & Integration

Wir verbinden den Agenten mit Ihren Systemen, richten Regeln, Sicherheit und Audit-Trail ein.

4

Shadow mode & rollout

Der Agent läuft parallel mit Menschen, wir optimieren die Genauigkeit und er übernimmt schrittweise Routineaufgaben.

5

Betrieb & Optimierung

Kontinuierliches Monitoring, Modell-Retraining und Erweiterung auf weitere Use-Cases.

When AI agent makes sense

AI agent pays off where you have repetitive processes with clearly defined rules, but too complex for simple automation. Key indicator: process requires understanding unstructured data (text, documents, emails) and contextual decision-making.

Decision matrix

Criteria Classic automation AI Agent Human
Structured data, clear rules ✅ Ideal ❌ Overkill ❌ Expensive
Unstructured data, clear rules ⚠️ Difficult ✅ Ideal ⚠️ Slow
Structured data, complex decisions ⚠️ Limited ✅ Suitable ✅ Suitable
Unstructured data, creative decisions ❌ Impossible ⚠️ With oversight ✅ Necessary

Typical use-cases

1. Document processing Invoices, contracts, complaints, orders. Agent reads document (PDF, scan, email), extracts structured data, validates against business rules, writes to target system. Typical result: 85-95% documents processed fully automatically, rest escalated with pre-filled data.

2. Customer support L1/L2 Agent answers from knowledge base, handles standard requests (address change, order status, complaints), escalates complex cases with full context. Typical result: 60-70% tickets resolved without human intervention, average response time from hours to seconds.

3. Data enrichment & research Agent goes through internal and external sources, enriches CRM/ERP records, prepares research, monitors competition. Typical result: saves 15-20 hours/week on manual research.

4. Monitoring & anomaly detection Agent analyzes logs, metrics, tickets, financial transactions. Detects anomalies, classifies severity, notifies right people with context. Typical result: MTTD (mean time to detect) from hours to minutes.

5. Internal assistant / knowledge management Agent knows your processes, documentation, decision history. Answers employees, helps with onboarding, searches internal knowledge base. Typical result: 40-60% reduction in time spent searching for information.

6. Compliance & audit automation Agent checks transactions, documents, processes against regulatory requirements. Generates compliance reports, detects violations, escalates. Typical result: 80% reduction in manual compliance work.

How we proceed

┌─────────────────────────────────────────────────────────────┐
│  DISCOVERY WORKSHOP (1 day)                                  │
│  → Identify top 3 use-cases with highest ROI                │
│  → Analyze data, systems, processes                         │
│  → Define success metrics                                    │
└──────────────────────┬──────────────────────────────────────┘
                       │
                       ▼
┌─────────────────────────────────────────────────────────────┐
│  PoC (4 weeks)                                               │
│  → Functional prototype on real data                        │
│  → Evaluation: accuracy, latency, costs                     │
│  → Go/no-go decision with hard numbers                      │
└──────────────────────┬──────────────────────────────────────┘
                       │
                       ▼
┌─────────────────────────────────────────────────────────────┐
│  PRODUCTION (4-8 weeks)                                      │
│  → Governance: RBAC, audit trail, kill-switch               │
│  → Integration into target systems                          │
│  → Monitoring & alerting stack                              │
│  → Shadow mode → pilot (10% traffic) → full rollout         │
└──────────────────────┬──────────────────────────────────────┘
                       │
                       ▼
┌─────────────────────────────────────────────────────────────┐
│  OPERATIONS & OPTIMIZATION (ongoing)                         │
│  → Continuous evaluation and monitoring                     │
│  → Prompt/model optimization based on data                  │
│  → Scope expansion (new use-cases, new sources)             │
│  → Monthly reporting for stakeholders                       │
└─────────────────────────────────────────────────────────────┘

Technology stack

Layer Technologies
LLM Claude, GPT-4, Llama, Mistral (chosen per use-case)
Orchestration LangGraph, custom DAG engine, event-driven
Vector DB Qdrant, Weaviate, pgvector
Embeddings OpenAI, Cohere, domain-tuned open-source
Monitoring LangSmith, custom dashboards, Grafana
Infra Kubernetes, serverless (AWS Lambda/Azure Functions)
Integration REST, GraphQL, webhooks, message queues

What doesn’t make sense

Let’s be honest — AI agent isn’t solution for everything:

  • Simple if/then rules → classic automation is cheaper and more reliable
  • Creative decisions with high risk → human must decide, AI can prepare materials
  • Processes without data → agent needs context, without quality data it has nothing to draw from
  • One-off tasks → ROI returns only with repeated processing (typically 100+ cases/month)

Häufig gestellte Fragen

Ja. Produktions-KI in regulierter Umgebung = Zugriffskontrollen, Audit, Evaluierung, Betrieb. Wir haben Erfahrung mit dem Einsatz im Bankensektor.

Retrieval-Augmented Generation. Eine Methode, mit der KI aus Ihren Daten antwortet — ohne Halluzinationen, mit Quellenangaben.

Abhängig von der Komplexität. Typisches Projekt: Workshop (1 Tag) → PoC (4 Wochen) → Produktion (4–8 Wochen). Preis ab 500K CZK.

Wir kombinieren kommerzielle (Claude, GPT-4) und Open-Source-Modelle (Llama, Mistral). Wir wählen nach Use-Case, Regulierung und Kosten.

Nicht unbedingt. Die meisten Agenten laufen über APIs. Für sensible Daten bieten wir On-Premise-Deployment mit Open-Source-Modellen an.

Typischerweise 8–12 Wochen ab Kickoff. Discovery-Workshop (1 Tag) → PoC auf realen Daten (4 Wochen) → Produktions-Deployment mit Governance (4–8 Wochen). Wir iterieren in 2-Wochen-Sprints.

Halluzinationen sind ein Feature, kein Bug — jedes LLM erzeugt sie. Deshalb bauen wir eine mehrschichtige Verteidigung: RAG mit Quellenangaben, Output-Validierung, Faithfulness-Scoring, Konfidenz-Schwellenwerte und Human-in-the-Loop-Eskalation. Wir messen die Halluzinationsrate und optimieren kontinuierlich.

Jeder Agent hat definierte Berechtigungsgrenzen — was er lesen darf, wohin er schreiben darf, wann er eskalieren muss. Wir implementieren RBAC, Audit-Trail, Prompt-Injection-Schutz, PII-Schwärzung. Für regulierte Sektoren liefern wir Compliance-Reports.

Haben Sie ein Projekt?

Lassen Sie uns darüber sprechen.

Termin vereinbaren