Personenbezogene Daten automatisch erkennen: So funktioniert PII-Detection mit KI
Ein durchschnittlicher ChatGPT-Prompt im Unternehmenskontext enthält 3,7 personenbezogene Datenpunkte. Die meisten davon werden vom Nutzer nicht bewusst eingegeben. Automatische PII-Detection erkennt diese Daten in Millisekunden — bevor sie das Unternehmen verlassen.
Was sind personenbezogene Daten (PII)?
Personenbezogene Daten (Personally Identifiable Information, PII) sind nach Art. 4 Nr. 1 DSGVO alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen. Das umfasst weit mehr als Name und Adresse:
- Direkte Identifikatoren: Name, E-Mail, Telefonnummer, Sozialversicherungsnummer
- Indirekte Identifikatoren: Geburtsdatum + Postleitzahl + Geschlecht reichen oft zur Identifikation
- Digitale Identifikatoren: IP-Adressen, Cookie-IDs, Geräte-Fingerprints
- Sensible Daten (Art. 9): Gesundheitsdaten, biometrische Daten, politische Meinungen, religiöse Überzeugungen
- Finanzielle Daten: IBANs, Kreditkartennummern, Gehaltsinformationen
- Behördliche Kennungen: Steuer-ID, Personalausweisnummer, Führerscheinnummer
Die drei Säulen der PII-Detection
1. Named Entity Recognition (NER)
NER nutzt trainierte Sprachmodelle, um Entitäten wie Personen, Organisationen und Orte im Fließtext zu erkennen. Moderne NER-Modelle wie spaCy de_core_news_lg erreichen eine F1-Score von über 85% für deutsche Texte.
Stärke: Erkennt Namen und Orte auch in ungewöhnlichen Kontexten — „Frau Dr. Müller-Lüdenscheid empfahl eine Überweisung" wird korrekt als Person erkannt.
Schwäche: Braucht Kontext. Einzelne Wörter wie „Schneider" (Name oder Beruf?) sind ohne Satzkontext mehrdeutig.
2. Pattern Matching (Regex)
Reguläre Ausdrücke erkennen Daten mit festem Format: IBANs (DE + 2 Prüfziffern + 18 Ziffern), Steuer-IDs (11 Ziffern mit Prüfsumme), Kfz-Kennzeichen, Telefonnummern.
Stärke: Extrem präzise bei strukturierten Daten. Eine IBAN ist eine IBAN — da gibt es keine Mehrdeutigkeit.
Schwäche: Erkennt nur bekannte Muster. Freitextinformationen wie „wohnt in der Schillerstraße 8" werden nicht erfasst.
3. Kontext-Analyse
Die dritte Säule nutzt den sprachlichen Kontext, um PII zu erkennen, die weder durch NER noch durch Regex gefunden wird. Wenn im Text steht „Mein Passwort lautet: xyz123", erkennt die Kontext-Analyse den Wert nach dem Trigger-Wort als Credential.
Stärke: Erkennt Daten, die nur durch ihren Kontext als sensibel identifizierbar sind — Passwörter, PINs, Zugangscodes, interne Referenznummern.
Schwäche: Höheres False-Positive-Risiko, da die Analyse auf Heuristiken basiert.
KI-Shields 46 Erkennungsmodule im Detail
16 Standard-Erkennungsmodule (Presidio-basiert)
Die Basis bilden bewährte Presidio-Recognizer für internationale PII-Typen: E-Mail-Adressen, Telefonnummern, URLs, IP-Adressen, Kreditkartennummern, IBAN und weitere. Diese Module sind produktionserprobt und erreichen Precision-Werte über 95%.
11 Regex-Erkennungsmodule (deutsch-spezifisch)
Speziell für den deutschen Rechtsraum entwickelte Muster erkennen:
- Deutsche IBAN: DE + 20 Ziffern mit Prüfsummenvalidierung
- Steuer-ID: 11-stellig mit Elster-konformer Prüfsumme
- Sozialversicherungsnummer: 12-stellig mit Bereichsnummern-Validierung
- Kfz-Kennzeichen: Erkennung aller deutschen Formate inkl. Saison- und E-Kennzeichen
- Aktenzeichen: Gerichts- und Behördenformate (z.B. 3 O 1234/25)
- Handelsregisternummer: HRA/HRB + Nummer + Amtsgericht
- Weitere: Personalausweis, Reisepass, Führerschein, USt-IdNr., Krankenkassen-IK
15 Keyword-Erkennungsmodule
Kontextbasierte Erkennung durch Trigger-Wörter in der Umgebung. Wenn ein Text „Diagnose:", „Befund:" oder „ICD-10:" enthält, wird der folgende Wert als medizinischer Datenpunkt klassifiziert — auch ohne festes Format.
4 Kontext-Erkennungsmodule
Die fortschrittlichsten Module analysieren den gesamten Satzkontext:
- Natürliche Sprache Credentials: „Mein Passwort ist/lautet/heißt xyz" — erkennt Zugangsdaten in Fließtext
- Referenznummern: „Unter der Nummer/Kennung/ID xyz" — erkennt beliebige Referenzen
- Medical Context: Erkennung medizinischer Daten durch ICD-Codes, ATC-Klassifikation, Laborbefunde
- Financial Context: Erkennung von Finanzdaten durch Kontext wie „Gehalt", „Umsatz", „Bilanz"
Die Detection-Pipeline
Die 46 Module arbeiten nicht isoliert, sondern in einer orchestrierten Pipeline:
- NER-Pass: spaCy de_core_news_lg identifiziert Personen, Orte, Organisationen
- Regex-Pass: Alle Pattern-Matcher laufen parallel über den Text
- Kontext-Pass: Keyword- und Kontext-Recognizer analysieren die Umgebung
- False-Positive-Filter: Bekannte Fehlerkennungen werden herausgefiltert (z.B. „Max Mustermann" als Beispielname)
- Overlap-Resolution: Überlappende Erkennungen werden aufgelöst (längste Match gewinnt)
- Type-Conflict-Resolution: Wenn verschiedene Module den gleichen Text als verschiedene Typen erkennen, gewinnt der spezifischere Typ
- Confidence-Threshold: Nur Erkennungen mit Confidence ≥ 0.7 werden als PII behandelt
Qualitätssicherung: PII-QA
KI-Shield betreibt ein automatisiertes QA-System, das alle 6 Stunden 550 Testfälle gegen die Detection-Engine ausführt:
- 500 Positiv-Tests: Texte mit bekannten PII-Daten — müssen erkannt werden
- 50 Negativ-Tests: Texte ohne PII — dürfen nicht fälschlich markiert werden
- F2-Score > 98%: Gewichtung auf Recall (lieber eine Falscherkennung zu viel als ein Datenleck)
- Automatische Regression-Alerts: Bei Verschlechterung der Metriken wird sofort alarmiert
Performance: Echtzeit-Erkennung
Die gesamte Pipeline verarbeitet einen typischen Prompt (200-500 Wörter) in unter 50 Millisekunden. Das ist schneller als die Netzwerklatenz zum KI-Anbieter — der Nutzer merkt keinen Unterschied.
Fazit
Automatische PII-Detection ist keine experimentelle Technologie mehr. Mit der Kombination aus NER, Pattern Matching und Kontext-Analyse erreichen moderne Systeme Erkennungsraten über 98%. Für Unternehmen, die KI-Tools DSGVO-konform einsetzen wollen, ist PII-Detection die technische Grundlage — unsichtbar für den Nutzer, unverzichtbar für den Datenschutz.
PII-Detection in Aktion erleben
Testen Sie KI-Shields 46 Erkennungsmodule mit Ihren eigenen Texten. Kostenlos und ohne Registrierung.
Live-Demo starten