Technologie2026-03-1010 Min Lesezeit

Personenbezogene Daten automatisch erkennen: So funktioniert PII-Detection mit KI

Ein durchschnittlicher ChatGPT-Prompt im Unternehmenskontext enthält 3,7 personenbezogene Datenpunkte. Die meisten davon werden vom Nutzer nicht bewusst eingegeben. Automatische PII-Detection erkennt diese Daten in Millisekunden — bevor sie das Unternehmen verlassen.

Was sind personenbezogene Daten (PII)?

Personenbezogene Daten (Personally Identifiable Information, PII) sind nach Art. 4 Nr. 1 DSGVO alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen. Das umfasst weit mehr als Name und Adresse:

Direkte Identifikatoren: Name, E-Mail, Telefonnummer, Sozialversicherungsnummer
Indirekte Identifikatoren: Geburtsdatum + Postleitzahl + Geschlecht reichen oft zur Identifikation
Digitale Identifikatoren: IP-Adressen, Cookie-IDs, Geräte-Fingerprints
Sensible Daten (Art. 9): Gesundheitsdaten, biometrische Daten, politische Meinungen, religiöse Überzeugungen
Finanzielle Daten: IBANs, Kreditkartennummern, Gehaltsinformationen
Behördliche Kennungen: Steuer-ID, Personalausweisnummer, Führerscheinnummer

Die drei Säulen der PII-Detection

1. Named Entity Recognition (NER)

NER nutzt trainierte Sprachmodelle, um Entitäten wie Personen, Organisationen und Orte im Fließtext zu erkennen. Moderne NER-Modelle wie spaCy de_core_news_lg erreichen eine F1-Score von über 85% für deutsche Texte.

Stärke: Erkennt Namen und Orte auch in ungewöhnlichen Kontexten — „Frau Dr. Müller-Lüdenscheid empfahl eine Überweisung" wird korrekt als Person erkannt.

Schwäche: Braucht Kontext. Einzelne Wörter wie „Schneider" (Name oder Beruf?) sind ohne Satzkontext mehrdeutig.

2. Pattern Matching (Regex)

Reguläre Ausdrücke erkennen Daten mit festem Format: IBANs (DE + 2 Prüfziffern + 18 Ziffern), Steuer-IDs (11 Ziffern mit Prüfsumme), Kfz-Kennzeichen, Telefonnummern.

Stärke: Extrem präzise bei strukturierten Daten. Eine IBAN ist eine IBAN — da gibt es keine Mehrdeutigkeit.

Schwäche: Erkennt nur bekannte Muster. Freitextinformationen wie „wohnt in der Schillerstraße 8" werden nicht erfasst.

3. Kontext-Analyse

Die dritte Säule nutzt den sprachlichen Kontext, um PII zu erkennen, die weder durch NER noch durch Regex gefunden wird. Wenn im Text steht „Mein Passwort lautet: xyz123", erkennt die Kontext-Analyse den Wert nach dem Trigger-Wort als Credential.

Stärke: Erkennt Daten, die nur durch ihren Kontext als sensibel identifizierbar sind — Passwörter, PINs, Zugangscodes, interne Referenznummern.

Schwäche: Höheres False-Positive-Risiko, da die Analyse auf Heuristiken basiert.

KI-Shields 46 Erkennungsmodule im Detail

16 Standard-Erkennungsmodule (Presidio-basiert)

Die Basis bilden bewährte Presidio-Recognizer für internationale PII-Typen: E-Mail-Adressen, Telefonnummern, URLs, IP-Adressen, Kreditkartennummern, IBAN und weitere. Diese Module sind produktionserprobt und erreichen Precision-Werte über 95%.

11 Regex-Erkennungsmodule (deutsch-spezifisch)

Speziell für den deutschen Rechtsraum entwickelte Muster erkennen:

Deutsche IBAN: DE + 20 Ziffern mit Prüfsummenvalidierung
Steuer-ID: 11-stellig mit Elster-konformer Prüfsumme
Sozialversicherungsnummer: 12-stellig mit Bereichsnummern-Validierung
Kfz-Kennzeichen: Erkennung aller deutschen Formate inkl. Saison- und E-Kennzeichen
Aktenzeichen: Gerichts- und Behördenformate (z.B. 3 O 1234/25)
Handelsregisternummer: HRA/HRB + Nummer + Amtsgericht
Weitere: Personalausweis, Reisepass, Führerschein, USt-IdNr., Krankenkassen-IK

15 Keyword-Erkennungsmodule

Kontextbasierte Erkennung durch Trigger-Wörter in der Umgebung. Wenn ein Text „Diagnose:", „Befund:" oder „ICD-10:" enthält, wird der folgende Wert als medizinischer Datenpunkt klassifiziert — auch ohne festes Format.

4 Kontext-Erkennungsmodule

Die fortschrittlichsten Module analysieren den gesamten Satzkontext:

Natürliche Sprache Credentials: „Mein Passwort ist/lautet/heißt xyz" — erkennt Zugangsdaten in Fließtext
Referenznummern: „Unter der Nummer/Kennung/ID xyz" — erkennt beliebige Referenzen
Medical Context: Erkennung medizinischer Daten durch ICD-Codes, ATC-Klassifikation, Laborbefunde
Financial Context: Erkennung von Finanzdaten durch Kontext wie „Gehalt", „Umsatz", „Bilanz"

Die Detection-Pipeline

Die 46 Module arbeiten nicht isoliert, sondern in einer orchestrierten Pipeline:

NER-Pass: spaCy de_core_news_lg identifiziert Personen, Orte, Organisationen
Regex-Pass: Alle Pattern-Matcher laufen parallel über den Text
Kontext-Pass: Keyword- und Kontext-Recognizer analysieren die Umgebung
False-Positive-Filter: Bekannte Fehlerkennungen werden herausgefiltert (z.B. „Max Mustermann" als Beispielname)
Overlap-Resolution: Überlappende Erkennungen werden aufgelöst (längste Match gewinnt)
Type-Conflict-Resolution: Wenn verschiedene Module den gleichen Text als verschiedene Typen erkennen, gewinnt der spezifischere Typ
Confidence-Threshold: Nur Erkennungen mit Confidence ≥ 0.7 werden als PII behandelt

Qualitätssicherung: PII-QA

KI-Shield betreibt ein automatisiertes QA-System, das alle 6 Stunden 550 Testfälle gegen die Detection-Engine ausführt:

500 Positiv-Tests: Texte mit bekannten PII-Daten — müssen erkannt werden
50 Negativ-Tests: Texte ohne PII — dürfen nicht fälschlich markiert werden
F2-Score > 98%: Gewichtung auf Recall (lieber eine Falscherkennung zu viel als ein Datenleck)
Automatische Regression-Alerts: Bei Verschlechterung der Metriken wird sofort alarmiert

Performance: Echtzeit-Erkennung

Die gesamte Pipeline verarbeitet einen typischen Prompt (200-500 Wörter) in unter 50 Millisekunden. Das ist schneller als die Netzwerklatenz zum KI-Anbieter — der Nutzer merkt keinen Unterschied.

Fazit

Automatische PII-Detection ist keine experimentelle Technologie mehr. Mit der Kombination aus NER, Pattern Matching und Kontext-Analyse erreichen moderne Systeme Erkennungsraten über 98%. Für Unternehmen, die KI-Tools DSGVO-konform einsetzen wollen, ist PII-Detection die technische Grundlage — unsichtbar für den Nutzer, unverzichtbar für den Datenschutz.

PII-Detection in Aktion erleben

Testen Sie KI-Shields 46 Erkennungsmodule mit Ihren eigenen Texten. Kostenlos und ohne Registrierung.

Live-Demo starten