Sprachmodelle verarbeiten Eingaben, auf die klassische Sicherheit nicht ausgelegt ist — und die wenigsten Unternehmen wissen, wo ihre Angriffsfläche liegt.
Wir haben eine autonome Angriffskette gegen acht LLM-Bot-Konfigurationen gefahren — je fünfmal — und marker-verifiziert gemessen, wie oft die vier OWASP-LLM-Schichten brechen. Selbst ein gehärteter System-Prompt rettet ein schwaches Modell nicht.
| Ziel-Bot · Prompt | System-Prompt | Secret-Key | Tool-Abuse | Insecure Output |
|---|---|---|---|---|
| Mistral-Nemo 12B · Default | 100% | 100% | 100% | 100% |
| Mistral-Nemo 12B · gehärtet | 100% | 80% | 80% | 100% |
| Dolphin3 8B · Default | 100% | 100% | 80% | 100% |
| Dolphin3 8B · gehärtet | 100% | 100% | 100% | 100% |
| Dolphin-Mistral · Default | 100% | 100% | 100% | 100% |
| Dolphin-Mistral · gehärtet | 100% | 80% | 100% | 100% |
| gpt-oss 20B · Default | 0% | 0% | 40% | 0% |
| gpt-oss 20B · gehärtet | 0% | 0% | 0% | 0% |
Breach-Rate über 5 Läufe je Zelle · rot ≥ 67 % = zuverlässig exploitable, grün = gehalten. „Default" = realistischer Kunden-Prompt, „gehärtet" = mit expliziten „niemals preisgeben"-Anweisungen. Treffer durch deterministische Marker bestätigt — kein LLM-Urteil, reproduzierbar. Nur ein frontier-aligned Modell (gpt-oss) hält stand.
Eingaben bringen das Modell dazu, Regeln zu ignorieren und Schutzmechanismen zu umgehen.
Interne Anweisungen, Schlüssel und vertrauliche Inhalte werden gezielt herausgelockt.
Ungeprüfte Ausgaben treffen Systeme und Menschen — und werden zum echten Schaden.
Strukturierte Prüfung Ihrer KI-Anwendung gegen die relevanten Bedrohungsklassen.
Wir schließen die gefundenen Lücken konkret — im Code und in der Architektur.
Bedrohungen entwickeln sich weiter — Ihre Verteidigung auch.
Wenn es ernst wird, sind wir erreichbar — mit definierter Reaktionszeit.
Sicherheit auf dem Papier reicht nicht. Unsere Bewertungen stützen sich auf ein fortlaufend gepflegtes Repertoire echter Angriffstechniken aus eigener Forschung.
OWASP LLM Top 10, EU AI Act, BSI — die Sprache von Audit und Aufsicht.
Verarbeitung vor Ort, DSGVO-konform. Daten und Modelle bleiben im Haus.
Jeder Befund ist begründet und reproduzierbar. Keine Black-Box.

Ich bin Steven Koch — AI Engineer aus Bochum und Co-Founder von Infinite Horizon (EXIST-gefördert). Seraph Guard ist meine Forschung zur Sicherheit von KI-Systemen: Ich teste mit echten, mehrstufigen Angriffen, wie leicht sich Sprachmodelle manipulieren lassen — aus eigenem Lab, marker-verifiziert, für deutsche Unternehmen. Kein Hype, nur Beweise.
LinkedIn ansehenEine erste Einschätzung ist unverbindlich.
Bewertung anfragen