Recall

Was ist Recall?

Recall ist eine Evaluationsmetrik aus dem maschinellen Lernen und der Informationsverarbeitung, die misst, wie vollständig ein Modell alle relevanten Fälle aus einem Datensatz erkennt. Der Begriff wird auch als Trefferquote oder Sensitivität bezeichnet. Konkret gibt Recall an, welcher Anteil aller tatsächlich positiven Instanzen vom Modell korrekt als positiv klassifiziert wurde. Im Kontext von Large Language Models (LLMs) und KI-Systemen ist Recall eine zentrale Größe, um die Vollständigkeit von Ausgaben oder Klassifikationen zu bewerten.

Wie funktioniert Recall?

Recall berechnet sich aus dem Verhältnis von korrekt erkannten positiven Fällen (True Positives) zur Gesamtzahl aller tatsächlich positiven Fälle im Datensatz – also der Summe aus True Positives und False Negatives:

Recall = True Positives / (True Positives + False Negatives)

Ein Recall-Wert von 1,0 bedeutet, dass das Modell alle relevanten Fälle gefunden hat – ohne Auslassungen. Ein niedriger Recall signalisiert, dass das Modell viele relevante Instanzen übersieht (hohe False-Negative-Rate). Die Berechnung folgt diesem Prinzip:

Das Modell gibt eine Klassifikation oder Vorhersage aus.
Die Vorhersagen werden mit den tatsächlichen Labels verglichen.
True Positives und False Negatives werden gezählt.
Recall ergibt sich aus dem oben genannten Quotienten.

Unterschied zwischen Recall und Precision

Recall und Precision sind komplementäre Metriken, die häufig gemeinsam betrachtet werden. Während Recall misst, wie viele relevante Fälle das Modell gefunden hat, bewertet Precision, wie viele der vom Modell als positiv klassifizierten Fälle tatsächlich positiv sind. Ein hoher Recall bei niedriger Precision bedeutet: Das Modell findet fast alle relevanten Fälle, produziert dabei aber auch viele falsche Treffer. Umgekehrt bedeutet hohe Precision bei niedrigem Recall: Das Modell ist vorsichtig und präzise, übersieht aber viele relevante Fälle. Der F1-Score kombiniert beide Metriken zu einem harmonischen Mittelwert und eignet sich besonders dann, wenn beide Dimensionen gleich wichtig sind.

Warum ist Recall für Unternehmen relevant?

Die Bedeutung von Recall hängt stark vom Anwendungsfall ab. In Szenarien, in denen das Übersehen relevanter Fälle besonders kritisch ist, hat Recall eine hohe strategische Priorität. Beispielsweise könnte ein KI-System zur Betrugserkennung im E-Commerce so optimiert werden, dass es möglichst alle verdächtigen Transaktionen erfasst – selbst wenn dabei gelegentlich unbedenkliche Vorgänge fälschlicherweise markiert werden. Ähnliches gilt für medizinische Diagnosetools, Spam-Filter oder Content-Moderationssysteme. Für Unternehmen, die LLMs zur Informationsextraktion oder Klassifikation einsetzen, ist Recall eine wichtige Steuerungsgröße bei der Modellauswahl und -optimierung. Ein zu niedriger Recall würde bedeuten, dass relevante Informationen systematisch verloren gehen – mit potenziellen Folgen für Entscheidungsqualität und Prozesssicherheit.

Praxisbeispiel

Der hypothetische K-Beauty-Shop koreanische-kosmetik-shop.de könnte ein KI-gestütztes System zur automatischen Erkennung negativer Produktrezensionen einsetzen. Würde das Modell dabei einen niedrigen Recall aufweisen, blieben viele kritische Bewertungen unentdeckt – Qualitätsprobleme könnten so unbemerkt bleiben. Um dies zu vermeiden, würde das Entwicklungsteam den Recall des Klassifikationsmodells gezielt überwachen und bei Bedarf den Entscheidungsschwellenwert anpassen, um die Vollständigkeit der Erkennung zu erhöhen. Dabei würde gleichzeitig geprüft, wie sich die Precision verändert, um eine sinnvolle Balance beider Metriken zu erreichen.

FAQ

Was ist der Unterschied zwischen Recall und Accuracy?

Accuracy misst den Anteil aller korrekt klassifizierten Fälle – positiv wie negativ – an der Gesamtzahl der Fälle. Recall hingegen fokussiert ausschließlich auf die positive Klasse und bewertet, wie vollständig das Modell diese erkennt. Bei unausgeglichenen Datensätzen, in denen eine Klasse deutlich seltener vorkommt, kann eine hohe Accuracy täuschen, während Recall das tatsächliche Erkennungsvermögen für die relevante Klasse präziser abbildet.

Wann sollte Recall gegenüber Precision priorisiert werden?

Recall sollte dann priorisiert werden, wenn das Übersehen relevanter Fälle (False Negatives) schwerwiegendere Konsequenzen hat als das fälschliche Einbeziehen irrelevanter Fälle (False Positives). Typische Szenarien sind Betrugserkennung, medizinische Diagnose oder Sicherheitssysteme. In Situationen, in denen falsche Alarme hingegen besonders kostspielig sind – etwa bei der manuellen Nachprüfung von Inhalten –, könnte Precision stärker gewichtet werden.

Wie lässt sich Recall bei einem LLM-basierten System verbessern?

Mögliche Ansätze umfassen die Anpassung des Klassifikationsschwellenwerts, das Nachtraining des Modells mit mehr Beispielen der unterrepräsentierten Klasse sowie den Einsatz von Daten-Augmentation-Techniken. Auch Prompt-Engineering könnte bei LLMs dazu beitragen, die Vollständigkeit der Ausgaben zu verbessern – etwa durch explizite Anweisungen, alle relevanten Informationen zu berücksichtigen. Dabei sollte stets geprüft werden, wie sich Maßnahmen zur Recall-Steigerung auf die Precision auswirken.

Was ist Recall?

Wie funktioniert Recall?

Unterschied zwischen Recall und Precision

Warum ist Recall für Unternehmen relevant?

Praxisbeispiel

Verwandte Begriffe

FAQ