KI-Modelle, insbesondere große Sprachmodelle (LLMs), werden mit teils enormen Datenmengen trainiert. Darunter befinden sich häufig personenbezogene Daten. Der Europäische Datenschutzausschuss (EDSA) hat in seiner Stellungnahme 28/2024 vom 18. Dezember 2024 festgestellt, dass KI-Modelle personenbezogene Daten enthalten können, wenn sie mit personenbezogenen Daten trainiert wurden. Im Diskurs wird dies häufig als Memorisierung bezeichnet (Der Begriff der Memorisierung ist für den Zweck der vorliegenden Konsultation bewusst weiter gefasst als das allgemein anerkannte wissenschaftliche Verständnis und umfasst zusätzlich zu wortwörtlich reproduzierten Trainingsdaten auch sinngemäße Reproduktionen, da diese ebenfalls datenschutzrechtlich relevant sind, sofern sie zur Identifizierung einer Person beitragen.).
Diese Feststellung wirft bedeutende Fragen im Hinblick auf den Schutz personenbezogener Daten auf. Die BfDI sieht die Notwendigkeit, datenschutzrechtliche Herausforderungen bei der Planung, dem Training und der Nutzung solcher Modelle systematisch zu adressieren.
Ziel der Konsultation
In Anerkennung der technischen und rechtlichen Komplexität ist es Ziel der Konsultation, konkrete praktische Erfahrungen, technische Einschätzungen und normative Überlegungen von Akteurinnen aus verschiedenen Bereichen einzuholen. Der Schwerpunkt der Betrachtung liegt hierbei auf großen Sprachmodellen. Wenn im weiteren Verlauf von KI-Modellen die Rede ist, sind immer große Sprachmodelle gemeint.
Die Ergebnisse der Konsultation sollen zur Entwicklung von datenschutzkonformen Ansätzen im Umgang mit memorisierten Daten beitragen. Die wesentlichen Ergebnisse werden in einem Konsultationsbericht zusammengefasst, der auf der Website der BfDI veröffentlicht wird.
Die BfDI lädt alle Interessierten ein, zur Diskussion beizutragen, insbesondere Vertretende aus Wissenschaft, Wirtschaft und Zivilgesellschaft.
Konsultationsfragen
Anonymität des Modells
Wird das Training der KI mit anonymen Daten durchgeführt, ist die DSGVO auf das Training nicht anwendbar. Allerdings ist bei KI-Modellen eine vollständige Anonymisierung angesichts der zum Training verwendeten Datenmengen in der Regel nicht zuverlässig möglich.
1. Nach Erwägungsgrund 26 Satz 3 DSGVO sollten bei der Prüfung, ob eine natürliche Person identifizierbar ist, alle Mittel berücksichtigt werden, die von dem Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden, um die natürliche Person direkt oder indirekt zu identifizieren. Unter Berücksichtigung der in der EDSA Stellungnahme 28/2024 Rn. 35ff. gelisteten Vorgehen, unter welchen Umständen könnte ein LLM als anonym erachtet werden?
2. Welche technischen Maßnahmen setzen Sie bereits ein bzw. planen Sie einzusetzen, um die Memorisierung von Daten zu verhindern (wie z.B. Deduplikation, Verwendung anonymer bzw. anonymisierter Trainingsdaten, Fine-Tuning ohne personenbezogene Daten, Differential Privacy, etc.)? Welche Erfahrungen haben Sie damit gemacht?
3. Wie schätzen Sie das Risiko ein, dass personenbezogene Daten aus einem LLM extrahiert werden? Erläutern Sie Ihre Einschätzung möglichst anhand konkreter Beispiele, Einzelfälle oder empirischer Beobachtungen.
Verarbeitung von memorisierten Daten
4. Datenschutzrecht knüpft an die Verarbeitung personenbezogener Daten an. Jede Eingabe eines Prompts löst eine Berechnung im KI-Modell aus, bei der die in Form von Parametern repräsentierten (personenbezogenen) Daten Einfluss auf das Berechnungsergebnis nehmen. Stellt diese Berechnung eine Verarbeitung dieser Daten im Sinne von Artikel 4 Nr. 2 DSGVO dar, selbst wenn das Berechnungsergebnis, also die Ausgabe des KI-Modells, nicht personenbezogen ist?
Eingriffsintensität
Bei der datenschutzrechtlichen Bewertung, z.B. bei der Wahl einer Rechtsgrundlage, kann die Eingriffsintensität einer Datenverarbeitung zu beurteilen sein.
5. Haben Sie bereits Erfahrung gemacht mit Methoden, die die Menge und Art der personenbezogenen memorisierten Daten abschätzen, bzw. ob das verwendete KI-Modell personenbezogene Daten einer bestimmten Person enthält (z.B. Privacy Attacks/PII Extraction Attacks, etc.)? Wenn ja, wie bewerten Sie deren Aussagekraft und mögliche Einschränkungen?
6. Wie hoch ist die Menge personenbezogener memorisierter Daten in Ihnen bekannten KI-Modellen (in Prozent sowie Gesamtmenge Trainingsdaten)?
Betroffenenrechte
Die Black-Box-Architektur von KI-Modellen stellt eine Herausforderung für die wirksame Gewährleistung von Betroffenenrechten dar, insbesondere hinsichtlich der Ansprüche auf Auskunft, Berichtigung und Löschung gemäß Artikel 15 – 17 DSGVO.
7. Wie gehen Sie vor, wenn eine Person ihren Anspruch auf Auskunft über personenbezogene Daten, Berichtigung oder Löschung ihrer personenbezogenen Daten im KI-Modell geltend macht?
Weitere Aspekte
8. Gibt es andere Aspekte, die aus Ihrer Perspektive beim Schutz der personenbezogenen Daten in KI-Modellen eine Rolle spielen?
Einreichung von Stellungnahmen
Bitte senden Sie Ihre Beiträge bis spätestens zum 10. August 2025 an:
Konsultation2025@bfdi.bund.de
Bitte beachten Sie, dass die eingegangenen Stellungnahmen auf der Website der BfDI veröffentlicht werden sollen. Bitte teilen Sie mit, ob Sie mit der Veröffentlichung der darin ggfs. enthaltenen personenbezogenen Daten einverstanden sind. Andernfalls werden die personenbezogenen Daten geschwärzt. Anonyme Antworten sind ebenfalls möglich.
Weitere Informationen
Diese Konsultation stellt keine Vorfestlegung dar, sondern dient ausschließlich dem Informationsgewinn über die technischen und rechtlichen Aspekte im Umgang mit personenbezogenen Daten in KI-Modellen.
Quelle: BfDI
Bild: Getty-Yuichiro Chino