Synthetische Daten im Datenschutzrecht
Zum Versprechen synthetischer Daten, zur Abgrenzung von Anonymisierung und zu den rechtlichen Risiken.
Inhaltsverzeichnis
- 1. Das Versprechen synthetischer Daten
- 2. Anonymisierung ist nicht dasselbe wie synthetische Datenerzeugung
- 3. Personenbezug: nicht nur Identifikation, sondern auch Inhalt, Zweck und Wirkung
- 4. Input, Modell und Output müssen getrennt betrachtet werden
- 5. Die zentralen Risiken
- 6. Synthetische Daten als PET, aber nicht als Wunderlösung
- 7. Die Schweiz: erste Praxis, vor allem im Gesundheitsbereich
- Glossar
- Quellenverzeichnis
1. Das Versprechen synthetischer Daten
Synthetische Daten sind vor allem deshalb so attraktiv, weil sie ein altes Problem elegant zu lösen versprechen: den Wunsch nach Datennutzung mit dem Anspruch auf Datenschutz zu verbinden. Die Grundidee ist, Datensätze zu erzeugen, die in ihrer statistischen Struktur den Originaldaten ähneln, ohne diese einfach zu kopieren. Der European Data Protection Supervisor, kurz EDPS, beschreibt synthetische Daten genau in diesem Sinn als künstliche Daten, die aus Originaldaten und einem Modell erzeugt werden und bei statistischen Analysen möglichst ähnliche Ergebnisse wie die Ausgangsdaten liefern sollen.[1]
Für Forschung, Entwicklung und Testumgebungen ist das auf den ersten Blick sehr verlockend, weil man mit datenähnlichem Material arbeiten kann, ohne stets unmittelbar auf die Originaldaten zugreifen zu müssen. Zugleich ist der EDPS für die rechtliche Einordnung deshalb wichtig, weil er als unabhängige Datenschutzaufsicht der EU-Institutionen eine besonders einflussreiche Stimme bei neuen Technologien ist. Er betont ausdrücklich, dass der Verantwortliche den rechtlichen Status sowohl des Input- als auch des Output-Datensatzes im jeweiligen Kontext bewerten muss.[1]
Schon damit ist klar: Das Versprechen synthetischer Daten ist gross, aber rechtlich nicht selbsttragend.
2. Anonymisierung ist nicht dasselbe wie synthetische Datenerzeugung
Begrifflich muss man daher sauber trennen. Synthetische Daten bezeichnen zunächst eine technische Herstellungsweise. Anonymisierung ist dagegen kein bloss technisches Etikett, sondern das Ergebnis eines rechtlich relevanten Prozesses: Personenbezogene Daten werden so verändert, dass sich die betroffene Person nicht oder nicht mehr identifizieren lässt. Massgeblich ist dabei nicht nur, ob ein Name oder ein direkter Identifier entfernt wurde. Erwägungsgrund 26 DSGVO verlangt vielmehr eine Gesamtbetrachtung aller Mittel, die vernünftigerweise wahrscheinlich eingesetzt werden könnten, um eine Person direkt oder indirekt zu identifizieren; ausdrücklich genannt ist dabei auch das singling out.[2]
Deshalb ist Anonymisierung keine abstrakte Eigenschaft des Datensatzes “an sich”, sondern eine kontextabhängige Bewertung. Die ältere Stellungnahme der Artikel-29-Datenschutzgruppe zu Anonymisierungstechniken formuliert das sehr prägnant: Eine wirksame Anonymisierung muss verhindern, dass Personen herausgehoben, Datensätze verknüpft oder zusätzliche Informationen über Betroffene abgeleitet werden können.[3]
Gerade deshalb ist “synthetisch” nicht gleichbedeutend mit “anonym”.
3. Personenbezug: nicht nur Identifikation, sondern auch Inhalt, Zweck und Wirkung
Für die rechtliche Analyse reicht die Frage nach direkter Identifizierbarkeit allein nicht aus. Im europäischen Datenschutzrecht ist seit langem anerkannt, dass sich Information auch dann auf eine Person beziehen kann, wenn dies über ihren Inhalt, ihren Zweck oder ihre Wirkung geschieht. Diese Denkfigur stammt aus der klassischen WP29-Auslegung zum Begriff der personenbezogenen Daten.[4]
Institutionell wurde die Artikel-29-Gruppe am 25. Mai 2018 durch das European Data Protection Board (EDPB) ersetzt, inhaltlich bleibt diese Trias aber weiterhin sehr prägend.[5] Für synthetische Daten ist das besonders wichtig.
Eine Aussage kann sich auch dann auf eine Person beziehen, wenn sie künstlich erzeugt oder sogar sachlich falsch ist, aber dazu verwendet wird, etwas über diese Person auszusagen, sie zu klassifizieren, ihr ein Risiko zuzuordnen oder Entscheidungen mit Auswirkungen auf ihre Rechte und Interessen vorzubereiten. In diesem Sinn ist auch eine fälschliche Erwähnung nicht einfach rechtlich irrelevant; sie kann jedenfalls im result-Sinne personenbezogen sein, wenn sie in einem Entscheidungskontext gegenüber einer bestimmten Person wirksam wird.
4. Input, Modell und Output müssen getrennt betrachtet werden
Rechtlich ist es deshalb zu einfach, nur auf den synthetischen Output zu blicken. Bei synthetischen Daten sind mindestens drei Ebenen zu unterscheiden: die Ausgangsdaten, das Modell und die Ausgabedaten. Sind die Trainingsdaten personenbezogen, dann ist bereits ihre Verwendung zur Erzeugung synthetischer Daten eine datenschutzrechtlich relevante Verarbeitung. Der EDPS formuliert entsprechend, dass der Verantwortliche den rechtlichen Status von Input- und Output-Datensätzen jeweils im konkreten Kontext bewerten muss.[5]
Entscheidend sind dabei insbesondere die Natur der Daten, die realistischen Angriffs- und Risikoszenarien sowie die technischen und organisatorischen Schutzmassnahmen der Umgebung. Genau daraus folgt die eigentliche Kernaussage: Synthetische Daten sind nicht deshalb rechtlich privilegiert, weil sie “künstlich” sind. Sie bleiben personenbezogen, solange nicht hinreichend sicher gezeigt werden kann, dass der Personenbezug wirksam beseitigt wurde.
5. Die zentralen Risiken
Die Risiken synthetischer Daten lassen sich gut aus der klassischen Anonymisierungsdiskussion entwickeln. Die WP29 nennt als Kernprobleme singling out, linkability und inference.[5] Diese Trias ist auch hier hilfreich. Ein Datensatz kann rechtlich problematisch bleiben, wenn einzelne Datensätze herausgehoben, mit anderen Datenquellen verknüpft oder zusätzliche Informationen über Betroffene aus ihm abgeleitet werden können. Bei modernen Modellen kommen weitere Risiken hinzu.
Besonders wichtig sind Membership-Inference-Angriffe, bei denen festgestellt werden soll, ob ein bestimmter Datensatz oder eine bestimmte Person in den Trainingsdaten enthalten war, sowie Model-Inversion-Angriffe, bei denen aus dem Verhalten des Modells auf Eigenschaften der Trainingsdaten zurückgeschlossen wird. Gerade im Blackbox- oder Query-Szenario sind solche Angriffe nicht bloss theoretisch.[6]
Hinzu kommt das Problem der Attributoffenlegung: Auch ohne sichere Identifikation kann es rechtlich hochrelevant sein, wenn sensible Merkmale über einzelne Personen oder sehr kleine Gruppen ableitbar werden. Schliesslich sollte auch der Grundsatz der Richtigkeit nicht unterschätzt werden. Synthetische Daten können fiktive oder verzerrte Profile erzeugen. Solange sie nur in isolierten Testumgebungen bleiben, ist das zunächst ein Qualitätsproblem. Werden sie aber für Bewertung, Profiling oder operative Entscheidungen genutzt, kann daraus ein echtes datenschutzrechtliches und grundrechtliches Problem werden.
6. Synthetische Daten als PET, aber nicht als Wunderlösung
Am besten versteht man synthetische Daten deshalb als eine Privacy-Enhancing Technology. Ihr Nutzen liegt darin, dass sie Datenverarbeitung datenärmer machen und so das Prinzip der Datenminimierung unterstützen können.[7]
Genau darin liegt ihr Versprechen. Zugleich ist dieses Versprechen nur begrenzt belastbar. Synthetische Daten ersetzen weder die rechtliche Prüfung noch andere Schutzmassnahmen. Sie müssen vielmehr mit Zugangsbeschränkungen, sicheren Verarbeitungsumgebungen, Governance-Regeln und gegebenenfalls weiteren technischen Mitteln zusammengedacht werden. Das Grundproblem bleibt ein Trade-off: Je stärker ein System gegen Re-Identifikation, Verknüpfung oder Inferenz abgesichert wird, desto grösser ist häufig der Verlust an Nützlichkeit.[7]
Deshalb sollte man synthetische Daten weder romantisieren noch vorschnell entwerten. Sie sind kein blosser Schein, aber auch keine automatische Anonymisierung. Rechtlich überzeugend ist nur eine kontextbezogene Bewertung, die Nutzen und Restrisiko zusammen denkt.
7. Die Schweiz: erste Praxis, vor allem im Gesundheitsbereich
Für die Schweiz lässt sich inzwischen klar sagen, dass synthetische Daten nicht nur theoretisch diskutiert, sondern bereits praktisch eingesetzt werden. Besonders sichtbar ist dies im Basler Gesundheits- und Forschungsumfeld. Die Universität Basel berichtet über einen Workshop, in dem Vertreter des Universitätsspitals Basel, von Roche und von MDClone den Einsatz synthetischer Daten vorgestellt haben. [8]
Der Bericht macht zugleich deutlich, dass in Basel bereits mit konkreten Infrastrukturen gearbeitet wird, um klinische Daten in einer datenschutzfreundlicheren Form zugänglich zu machen. Das stützt die Aussage, dass synthetische Daten in der Schweiz bereits angekommen sind, bislang aber vor allem in universitären, klinischen und forschungsnahen Kontexten öffentlich sichtbar werden.[9]
Der rechtliche Kernpunkt ändert sich dadurch allerdings nicht: Auch in der Schweiz entscheidet nicht die Bezeichnung “synthetisch”, sondern die Frage, ob im konkreten Kontext noch ein rechtlich relevanter Personenbezug besteht.[10]
Glossar
Anonymisierung: Prozess, bei dem personenbezogene Daten so verändert werden, dass sich die betroffene Person unter Berücksichtigung aller vernünftigerweise einsetzbaren Mittel nicht oder nicht mehr identifizieren lässt. Massgeblich ist also nicht nur das Entfernen direkter Identifier, sondern auch die Vermeidung von singling out, linkability und inference.
Synthetische Daten: Künstlich erzeugte Daten, die auf Originaldaten und einem Modell beruhen und statistische Eigenschaften der Ausgangsdaten nachbilden sollen. Sie sind nicht automatisch anonym.
EDPS: European Data Protection Supervisor; unabhängige Datenschutzaufsicht der EU-Institutionen. Für synthetische Daten besonders relevant, weil der EDPS ihre rechtliche Bewertung als Kontextfrage von Input- und Output-Datensätzen beschreibt.
EDPB: European Data Protection Board; seit dem 25. Mai 2018 Nachfolgeinstitution der Artikel-29-Datenschutzgruppe.
Personenbezug / relates to: Eine Information bezieht sich auf eine Person nicht nur bei direkter Identifikation, sondern auch dann, wenn sie dieser Person nach Inhalt, Zweck oder Wirkung zugeordnet ist.
Singling out: Das Herausheben eines Datensatzes oder Profils aus einer Menge, auch ohne sofortige Namensidentifikation.
Linkability: Die Möglichkeit, Datensätze oder Datenspuren aus verschiedenen Quellen miteinander zu verknüpfen.
Inference: Die Ableitung zusätzlicher Informationen über eine Person aus vorhandenen Daten, statistischen Mustern oder Modellverhalten.
Membership-Inference-Angriff: Angriff, der klären soll, ob ein bestimmter Datensatz oder eine bestimmte Person Teil der Trainingsdaten war.
Model-Inversion-Angriff: Angriff, bei dem aus Modellverhalten Informationen über Trainingsdaten oder deren Eigenschaften rekonstruiert werden.
Attributoffenlegung: Offenlegung oder plausible Ableitung sensibler Merkmale einer Person, auch wenn diese nicht sicher namentlich identifiziert wird.
Attributoffenlegung statt Identifikation: Datenschutzrechtlich relevant kann bereits die Offenlegung oder Inferenz sensibler Merkmale sein, auch ohne sichere Identifikation der Person.
Singling out, Linkability, Inference: Zentrale Risikokategorien der Anonymisierungsanalyse: Herausheben, Verknüpfen und Ableiten zusätzlicher Informationen.
Accuracy-Prinzip: Datenschutzgrundsatz der sachlichen Richtigkeit; relevant, wenn synthetische Daten falsche oder verzerrte Personenprofile erzeugen.
Weitere neuere Problemlagen: Zusätzliche Spezialfragen, etwa Löschungsansprüche, persistent erinnernde Modelle oder Konflikte mit Sonderregimen.
PET: Privacy-Enhancing Technology; technische Massnahme zur Verringerung von Datenschutzrisiken. Synthetische Daten können in diesem Sinn als PET verstanden werden.
Datenminimierung: Datenschutzgrundsatz, nach dem nur die Daten verarbeitet werden sollen, die für den jeweiligen Zweck erforderlich sind. Synthetische Daten werden häufig damit begründet, dass sie diesen Grundsatz unterstützen können.
Quellenverzeichnis
- [1] European Data Protection Supervisor, “Synthetic Data.” Available at: https://www.edps.europa.eu/press-publications/publications/techsonar/synthetic-data
- [2] European Union, “Recital 26 - Not Applicable to Anonymous Data - General Data Protection Regulation (GDPR).” Available at: https://gdpr-info.eu/recitals/no-26/
- [3] Article 29 Data Protection Working Party, “Opinion 05/2014 on Anonymisation Techniques.” Available at: https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf
- [4] Article 29 Data Protection Working Party, “Opinion 4/2007 on the Concept of Personal Data.” Available at: https://www.clinicalstudydatarequest.com/Documents/Privacy-European-guidance.pdf
- [5] European Data Protection Board, “Legacy of Article 29 Working Party.” Available at: https://www.edpb.europa.eu/about-edpb/who-we-are/legacy-art-29-working-party_en
- [6] Information Commissioner’s Office, “Guidance on AI and data protection.” Available at: https://ico.org.uk/for-organisations/uk-gdpr-guidance-and-resources/artificial-intelligence/guidance-on-ai-and-data-protection/how-should-we-assess-security-and-data-minimisation-in-ai/
- [7] Information Commissioner’s Office, “Chapter 5: Privacy-enhancing technologies (PETs).” Available at: https://ico.org.uk/media2/migrated/4021464/chapter-5-anonymisation-pets.pdf
- [8] Universität Basel, “Workshop: The Death of Data Sharing? A Modern Privacy Technology Survival Kit.” Available at: https://www.unibas.ch/en/Research/Research-in-Basel/University-Networks/Personalized-Health-Basel/PHB-Events/Archive/Workshop-The-death-of-data-sharing-A-modern-privacy-technology-survival-kit.html
- [9] MDClone, “Personalized Health Basel and Leading Life Sciences Organization Collaborate with MDClone to Drive Innovation.” Available at: https://mdclone.com/press-release/personalized-health-basel-and-leading-life-sciences-organization-collaborate-with-mdclone-to-drive-innovation/
- [10] Schweizerische Eidgenossenschaft, “Bundesgesetz über den Datenschutz (DSG), SR 235.1.” Available at: https://www.fedlex.admin.ch/eli/cc/2022/491/de