Synthetic Data

Was ist Synthetic Data?

Synthetic Data (auf Deutsch: synthetische Daten) bezeichnet künstlich generierte Datensätze, die reale Daten in ihrer Struktur, statistischen Verteilung und inhaltlichen Charakteristik nachbilden, ohne dabei tatsächliche Ereignisse oder Personen direkt abzubilden. Im Kontext von KI und maschinellem Lernen werden synthetische Daten eingesetzt, wenn echte Trainingsdaten fehlen, datenschutzrechtlich problematisch oder schlicht zu kostspielig in der Erhebung sind. Synonyme wie „künstliche Trainingsdaten” oder „algorithmisch erzeugte Daten” werden im Fachbereich gelegentlich verwendet, haben sich jedoch nicht als Standardbegriffe etabliert.

Wie funktioniert Synthetic Data?

Synthetische Daten entstehen durch algorithmische Verfahren, die Muster aus vorhandenen Originaldaten oder definierten Regeln erlernen und darauf basierend neue, plausible Datenpunkte erzeugen. Gängige Methoden sind:

Generative Adversarial Networks (GANs): Zwei neuronale Netze – Generator und Diskriminator – trainieren sich gegenseitig, sodass der Generator zunehmend realistischere Daten produziert.
Variational Autoencoders (VAEs): Das Modell lernt eine komprimierte Repräsentation der Originaldaten und sampelt daraus neue Varianten.
Regelbasierte Simulation: Datenpunkte werden anhand definierter statistischer Verteilungen oder Domänenregeln synthetisiert, ohne ein neuronales Netz zu benötigen.
LLM-basierte Datengenerierung: Large Language Models erzeugen strukturierten Text oder annotierte Beispiele für spezifische Trainingsaufgaben.

Das Ergebnis ist ein Datensatz, der statistisch konsistent mit realen Daten ist, aber keine direkte Zuordnung zu echten Personen oder Ereignissen erlaubt.

Unterschied zwischen Synthetic Data und anonymisierten Daten

Anonymisierte Daten entstehen durch die Entfernung oder Verschleierung identifizierender Merkmale aus echten Datensätzen – der Ursprung in realen Ereignissen bleibt erhalten. Synthetische Daten hingegen werden vollständig neu generiert: Es existiert kein direkter Datensatz einer realen Person als Quelle. Dieser Unterschied ist datenschutzrechtlich relevant, da anonymisierte Daten unter bestimmten Umständen re-identifizierbar sein können, während synthetische Daten dieses Risiko strukturell minimieren. Für KI-Training bieten synthetische Daten zudem den Vorteil, gezielt seltene Szenarien oder Randklassen zu erzeugen, was mit echten Daten oft nicht möglich ist.

Warum ist Synthetic Data für Unternehmen relevant?

Für Unternehmen, die KI-Modelle entwickeln oder einsetzen, adressiert Synthetic Data mehrere praktische Herausforderungen gleichzeitig. Erstens erlaubt es die Einhaltung von Datenschutzanforderungen wie der DSGVO, da keine personenbezogenen Originaldaten verarbeitet werden müssen. Zweitens können Unternehmen damit Datenlücken schließen – beispielsweise wenn bestimmte Ereignisse (Betrugsversuche, Produktfehler, seltene Kundenanfragen) in echten Datensätzen unterrepräsentiert sind. Drittens beschleunigt Synthetic Data die Entwicklungszyklen, weil Teams nicht auf aufwendige Datenerhebungsprozesse warten müssen.

Anwendungsfelder reichen von der Entwicklung von Chatbots und Sprachmodellen über die Qualitätssicherung in der Computer Vision bis hin zur Simulation von Kundenverhaltensmustern für Marketingmodelle. Auch im Bereich Compliance-Testing und bei der Entwicklung medizinischer KI-Anwendungen könnten synthetische Daten eine zunehmend wichtige Rolle spielen.

Praxisbeispiel

Angenommen, die Digital-Marketing-Agentur blueShepherd.de entwickelt für einen Kunden ein KI-gestütztes System zur automatischen Klassifikation von Kundenanfragen. Reale Kundendaten stehen aufgrund datenschutzrechtlicher Beschränkungen nur in begrenztem Umfang zur Verfügung. In diesem hypothetischen Szenario könnte blueShepherd.de mithilfe eines LLM-basierten Generators synthetische Anfragetexte in verschiedenen Tonalitäten, Sprachen und Themenkategorien erzeugen. Diese synthetischen Trainingsdaten würden es ermöglichen, das Klassifikationsmodell zu trainieren, ohne auf echte Kundenkommunikation zurückgreifen zu müssen – und gleichzeitig gezielt Randszenarien abzudecken, die im realen Datensatz kaum vorkommen.

FAQ

Sind synthetische Daten immer datenschutzkonform?

Nicht automatisch. Wenn synthetische Daten aus realen personenbezogenen Daten abgeleitet werden, muss der Generierungsprozess selbst datenschutzrechtlich bewertet werden. Vollständig regelbasiert erzeugte synthetische Daten ohne Bezug zu echten Personen sind in der Regel unkritisch, während GAN-basierte Ansätze, die auf echten Datensätzen trainiert wurden, eine sorgfältige Prüfung erfordern.

Können synthetische Daten echte Trainingsdaten vollständig ersetzen?

In der Regel nicht vollständig. Synthetische Daten können echte Daten ergänzen und Lücken füllen, aber sie bilden nur die Muster ab, die im Generierungsprozess modelliert wurden. Unbekannte reale Muster oder Verteilungsverschiebungen werden dabei möglicherweise nicht erfasst. Eine Kombination aus echten und synthetischen Daten liefert in vielen Szenarien robustere Ergebnisse.

Wie lässt sich die Qualität synthetischer Daten bewerten?

Gängige Methoden sind der statistische Vergleich von Verteilungen (z. B. über Fidelity-Metriken), die Bewertung der Nützlichkeit im Downstream-Task (Train-on-Synthetic, Test-on-Real) sowie Privacy-Audits, die prüfen, ob synthetische Datenpunkte realen Originaldaten zu ähnlich sind. Kein einzelnes Maß ist dabei allein ausreichend – eine Kombination verschiedener Evaluierungsansätze ist empfehlenswert.

Was ist Synthetic Data?

Wie funktioniert Synthetic Data?

Unterschied zwischen Synthetic Data und anonymisierten Daten

Warum ist Synthetic Data für Unternehmen relevant?

Praxisbeispiel

Verwandte Begriffe

FAQ