Concept Drift – Bedeutungsänderungen in KI-Modellen

Was ist Concept Drift?

Concept Drift bezeichnet das Phänomen, bei dem sich die statistische Beziehung zwischen Eingabedaten und Zielgröße eines Machine-Learning-Modells im Laufe der Zeit verändert – ohne dass das Modell selbst angepasst wird. Der Begriff wird auch als Datendrift oder Modellverfall verwendet. Ein Modell, das zum Zeitpunkt seines Trainings präzise Vorhersagen liefert, kann durch Concept Drift im Produktivbetrieb an Genauigkeit verlieren, weil die reale Welt sich verändert, das Modell jedoch statisch bleibt.

Wie funktioniert Concept Drift?

Machine-Learning-Modelle lernen Muster aus historischen Trainingsdaten. Diese Muster bilden eine bestimmte Realität zu einem bestimmten Zeitpunkt ab. Wenn sich das zugrunde liegende Verhalten – etwa das Kaufverhalten von Kunden, Sprachgewohnheiten oder wirtschaftliche Rahmenbedingungen – verändert, passen die gelernten Muster nicht mehr zur aktuellen Realität.

Concept Drift tritt in verschiedenen Formen auf:

Sudden Drift: Eine abrupte Veränderung der Datenbasis, beispielsweise durch ein externes Ereignis wie eine Pandemie oder einen Marktschock.
Gradual Drift: Eine schleichende Verschiebung über einen längeren Zeitraum, etwa durch langsam wechselnde Nutzergewohnheiten.
Recurring Drift: Wiederkehrende Muster, zum Beispiel saisonale Schwankungen im Konsumverhalten.
Incremental Drift: Kontinuierliche, kleinschrittiger Veränderungen, die sich erst über Zeit akkumulieren.

Zur Erkennung von Concept Drift werden Monitoring-Verfahren eingesetzt, die Modellperformance-Kennzahlen kontinuierlich überwachen und bei signifikanten Abweichungen Alarm auslösen.

Unterschied zwischen Concept Drift und Data Drift

Beide Begriffe beschreiben Veränderungen in ML-Systemen, beziehen sich jedoch auf unterschiedliche Ebenen. Data Drift – auch Feature Drift genannt – bezeichnet die Verschiebung der Verteilung der Eingabevariablen selbst, ohne dass sich die Beziehung zwischen Input und Output notwendigerweise ändert. Concept Drift hingegen beschreibt die Veränderung der Beziehung zwischen Eingabe und Zielgröße. In der Praxis treten beide Phänomene häufig gemeinsam auf, weshalb ein umfassendes Monitoring beide Ebenen berücksichtigen sollte.

Warum ist Concept Drift für Unternehmen relevant?

Unternehmen, die KI-Modelle in produktiven Systemen einsetzen, sind dauerhaft dem Risiko von Concept Drift ausgesetzt. Besonders betroffen sind Bereiche mit hoher Dynamik: Empfehlungssysteme im E-Commerce, Kreditrisikomodelle im Finanzbereich, Sentiment-Analysen im Marketing oder Nachfrageprognosen in der Logistik.

Ohne systematisches Monitoring könnte ein Modell über Monate hinweg schlechtere Ergebnisse liefern, ohne dass dies unmittelbar auffällt. Das würde zu Fehlentscheidungen führen – etwa bei der Budgetallokation, der Produktempfehlung oder der Bestandsplanung. Ein strukturiertes MLOps-Framework, das Concept Drift erkennt und automatisierte Retraining-Prozesse auslöst, könnte solche Risiken reduzieren.

Praxisbeispiel

Angenommen, der K-Beauty-Shop koreanische-kosmetik-shop.de setzt ein Empfehlungsmodell ein, das auf historischen Kaufdaten trainiert wurde. Das Modell empfiehlt Produkte auf Basis von Mustern, die vor einem Jahr gültig waren. Würde ein neuer Trend – etwa ein starkes Interesse an bestimmten Inhaltsstoffen wie Centella Asiatica – das Kaufverhalten der Zielgruppe verschieben, könnte das Modell diesen Wandel nicht abbilden. Die Empfehlungen würden zunehmend an Relevanz verlieren. Durch kontinuierliches Monitoring der Klick- und Konversionsraten sowie regelmäßiges Retraining des Modells ließe sich dieser Concept Drift erkennen und korrigieren.

FAQ

Wie lässt sich Concept Drift technisch erkennen?

Gängige Methoden sind statistische Tests wie der Population Stability Index (PSI), der Kolmogorov-Smirnov-Test oder CUSUM-Verfahren. Diese vergleichen Verteilungen aus dem Training mit aktuellen Produktionsdaten und signalisieren signifikante Abweichungen.

Wie häufig sollte ein Modell aufgrund von Concept Drift neu trainiert werden?

Es gibt keine universelle Antwort. Die Retraining-Frequenz hängt von der Dynamik des jeweiligen Anwendungsbereichs ab. In stark volatilen Märkten könnte ein wöchentliches oder monatliches Retraining sinnvoll sein, während stabilere Domänen längere Intervalle erlauben. Automatisierte Monitoring-Systeme können datengesteuert entscheiden, wann ein Retraining notwendig ist.

Betrifft Concept Drift auch große Sprachmodelle wie LLMs?

Ja. Large Language Models (LLMs) sind ebenfalls anfällig für eine Form von Concept Drift: Da sie auf Daten bis zu einem bestimmten Stichtag trainiert wurden (sogenanntes Knowledge Cutoff Date), können sie aktuelle Entwicklungen, neue Begriffe oder veränderte gesellschaftliche Kontexte nicht abbilden. Regelmäßige Fine-Tuning-Zyklen oder die Anbindung an aktuelle Datenquellen über Retrieval-Augmented Generation (RAG) können diesen Effekt abmildern.

Concept Drift (KI)

Was ist Concept Drift?

Wie funktioniert Concept Drift?

Unterschied zwischen Concept Drift und Data Drift

Warum ist Concept Drift für Unternehmen relevant?

Praxisbeispiel

Verwandte Begriffe

FAQ