Technologie10 Min Lesezeit

Personenbezogene Daten automatisch erkennen: So funktioniert PII-Detection mit KI

Ein durchschnittlicher ChatGPT-Prompt im Unternehmenskontext enthält 3,7 personenbezogene Datenpunkte. Die meisten davon werden vom Nutzer nicht bewusst eingegeben. Automatische PII-Detection erkennt diese Daten in Millisekunden — bevor sie das Unternehmen verlassen.

Was sind personenbezogene Daten (PII)?

Personenbezogene Daten (Personally Identifiable Information, PII) sind nach Art. 4 Nr. 1 DSGVO alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen. Das umfasst weit mehr als Name und Adresse:

Die drei Säulen der PII-Detection

1. Named Entity Recognition (NER)

NER nutzt trainierte Sprachmodelle, um Entitäten wie Personen, Organisationen und Orte im Fließtext zu erkennen. Moderne NER-Modelle wie spaCy de_core_news_lg erreichen eine F1-Score von über 85% für deutsche Texte.

Stärke: Erkennt Namen und Orte auch in ungewöhnlichen Kontexten — „Frau Dr. Müller-Lüdenscheid empfahl eine Überweisung" wird korrekt als Person erkannt.

Schwäche: Braucht Kontext. Einzelne Wörter wie „Schneider" (Name oder Beruf?) sind ohne Satzkontext mehrdeutig.

2. Pattern Matching (Regex)

Reguläre Ausdrücke erkennen Daten mit festem Format: IBANs (DE + 2 Prüfziffern + 18 Ziffern), Steuer-IDs (11 Ziffern mit Prüfsumme), Kfz-Kennzeichen, Telefonnummern.

Stärke: Extrem präzise bei strukturierten Daten. Eine IBAN ist eine IBAN — da gibt es keine Mehrdeutigkeit.

Schwäche: Erkennt nur bekannte Muster. Freitextinformationen wie „wohnt in der Schillerstraße 8" werden nicht erfasst.

3. Kontext-Analyse

Die dritte Säule nutzt den sprachlichen Kontext, um PII zu erkennen, die weder durch NER noch durch Regex gefunden wird. Wenn im Text steht „Mein Passwort lautet: xyz123", erkennt die Kontext-Analyse den Wert nach dem Trigger-Wort als Credential.

Stärke: Erkennt Daten, die nur durch ihren Kontext als sensibel identifizierbar sind — Passwörter, PINs, Zugangscodes, interne Referenznummern.

Schwäche: Höheres False-Positive-Risiko, da die Analyse auf Heuristiken basiert.

KI-Shields 46 Erkennungsmodule im Detail

16 Standard-Erkennungsmodule (Presidio-basiert)

Die Basis bilden bewährte Presidio-Recognizer für internationale PII-Typen: E-Mail-Adressen, Telefonnummern, URLs, IP-Adressen, Kreditkartennummern, IBAN und weitere. Diese Module sind produktionserprobt und erreichen Precision-Werte über 95%.

11 Regex-Erkennungsmodule (deutsch-spezifisch)

Speziell für den deutschen Rechtsraum entwickelte Muster erkennen:

15 Keyword-Erkennungsmodule

Kontextbasierte Erkennung durch Trigger-Wörter in der Umgebung. Wenn ein Text „Diagnose:", „Befund:" oder „ICD-10:" enthält, wird der folgende Wert als medizinischer Datenpunkt klassifiziert — auch ohne festes Format.

4 Kontext-Erkennungsmodule

Die fortschrittlichsten Module analysieren den gesamten Satzkontext:

Die Detection-Pipeline

Die 46 Module arbeiten nicht isoliert, sondern in einer orchestrierten Pipeline:

  1. NER-Pass: spaCy de_core_news_lg identifiziert Personen, Orte, Organisationen
  2. Regex-Pass: Alle Pattern-Matcher laufen parallel über den Text
  3. Kontext-Pass: Keyword- und Kontext-Recognizer analysieren die Umgebung
  4. False-Positive-Filter: Bekannte Fehlerkennungen werden herausgefiltert (z.B. „Max Mustermann" als Beispielname)
  5. Overlap-Resolution: Überlappende Erkennungen werden aufgelöst (längste Match gewinnt)
  6. Type-Conflict-Resolution: Wenn verschiedene Module den gleichen Text als verschiedene Typen erkennen, gewinnt der spezifischere Typ
  7. Confidence-Threshold: Nur Erkennungen mit Confidence ≥ 0.7 werden als PII behandelt

Qualitätssicherung: PII-QA

KI-Shield betreibt ein automatisiertes QA-System, das alle 6 Stunden 550 Testfälle gegen die Detection-Engine ausführt:

Performance: Echtzeit-Erkennung

Die gesamte Pipeline verarbeitet einen typischen Prompt (200-500 Wörter) in unter 50 Millisekunden. Das ist schneller als die Netzwerklatenz zum KI-Anbieter — der Nutzer merkt keinen Unterschied.

Fazit

Automatische PII-Detection ist keine experimentelle Technologie mehr. Mit der Kombination aus NER, Pattern Matching und Kontext-Analyse erreichen moderne Systeme Erkennungsraten über 98%. Für Unternehmen, die KI-Tools DSGVO-konform einsetzen wollen, ist PII-Detection die technische Grundlage — unsichtbar für den Nutzer, unverzichtbar für den Datenschutz.

PII-Detection in Aktion erleben

Testen Sie KI-Shields 46 Erkennungsmodule mit Ihren eigenen Texten. Kostenlos und ohne Registrierung.

Live-Demo starten