Was ist t-SNE?
t-SNE (t-distributed Stochastic Neighbor Embedding) ist ein Verfahren zur Dimensionsreduktion, das hochdimensionale Daten in eine zwei- oder dreidimensionale Darstellung überführt, um Strukturen und Cluster visuell erkennbar zu machen. Das Verfahren wurde 2008 von Laurens van der Maaten und Geoffrey Hinton entwickelt und gehört zur Klasse der nichtlinearen Dimensionsreduktionstechniken. Im Kontext von KI und maschinellem Lernen wird t-SNE häufig eingesetzt, um die internen Repräsentationen von Modellen – etwa die Embeddings eines Large Language Models (LLM) – explorativ zu untersuchen und zu visualisieren.
Wie funktioniert t-SNE?
t-SNE überführt Ähnlichkeitsbeziehungen zwischen Datenpunkten in einem hochdimensionalen Raum in eine niedrigdimensionale Darstellung, wobei die lokale Nachbarschaftsstruktur möglichst erhalten bleibt. Der Prozess läuft vereinfacht in zwei Schritten ab:
- Ähnlichkeitsberechnung im Originalraum: Für jedes Datenpunkt-Paar wird eine Wahrscheinlichkeit berechnet, die ausdrückt, wie ähnlich sich zwei Punkte sind. Nah beieinanderliegende Punkte erhalten hohe, weit entfernte Punkte sehr niedrige Wahrscheinlichkeiten. Dabei wird eine Gaußverteilung verwendet.
- Optimierung im niedrigdimensionalen Raum: Im Zielraum werden die Punkte so angeordnet, dass die dortige Ähnlichkeitsverteilung – modelliert durch eine t-Verteilung mit einem Freiheitsgrad – möglichst gut mit der ursprünglichen übereinstimmt. Die t-Verteilung verhindert, dass Punkte im niedrigdimensionalen Raum zu dicht zusammengedrückt werden.
Das Ergebnis ist eine Visualisierung, in der ähnliche Datenpunkte räumlich nah beieinander liegen und unterschiedliche Gruppen als klar getrennte Cluster erscheinen können. Ein wichtiger Parameter ist dabei die sogenannte Perplexity, die beeinflusst, wie viele Nachbarn bei der Ähnlichkeitsberechnung berücksichtigt werden.
Unterschied zwischen t-SNE und PCA
PCA (Principal Component Analysis) ist ein lineares Verfahren zur Dimensionsreduktion, das globale Varianz im Datensatz maximiert und die Hauptachsen der Datenstreuung bestimmt. t-SNE hingegen ist nichtlinear und fokussiert sich auf die Erhaltung lokaler Nachbarschaftsstrukturen. PCA eignet sich gut, wenn globale Zusammenhänge und grobe Strukturen sichtbar gemacht werden sollen, und ist deterministisch sowie schnell berechenbar. t-SNE liefert häufig visuell aussagekräftigere Cluster, ist jedoch rechenintensiver, nicht deterministisch und für sehr große Datensätze nur eingeschränkt geeignet. Für eine erste Orientierung wird PCA oft vorgeschaltet, bevor t-SNE auf den reduzierten Daten angewendet wird.
Warum ist t-SNE für Unternehmen relevant?
Für Unternehmen, die KI-Modelle einsetzen oder entwickeln, bietet t-SNE einen praktischen Zugang zur Interpretierbarkeit von Modellen. Anwendungsfelder umfassen beispielsweise die Analyse von Text-Embeddings, um zu verstehen, wie ein Sprachmodell semantische Konzepte intern gruppiert. So könnte ein Team prüfen, ob Produktbeschreibungen, Kundenbewertungen oder Support-Anfragen in sinnvollen Clustern repräsentiert werden. Darüber hinaus lässt sich t-SNE im Bereich Anomalieerkennung einsetzen, um ungewöhnliche Datenpunkte visuell zu identifizieren. Auch bei der Qualitätsprüfung von Trainingsdaten – etwa zur Erkennung von Duplikaten oder Ausreißern – könnte das Verfahren unterstützen. Für Content- und SEO-Teams würde eine t-SNE-Visualisierung von Keyword-Embeddings helfen, thematische Gruppen und inhaltliche Lücken besser zu verstehen.
Praxisbeispiel
Angenommen, die Digital-Marketing-Agentur blueShepherd.de betreut mehrere Kunden mit umfangreichen Content-Bibliotheken. Um zu analysieren, wie ein eingesetztes Sprachmodell die Artikel intern repräsentiert, würde das Team die Text-Embeddings aller Artikel erzeugen und anschließend mit t-SNE in einen zweidimensionalen Raum projizieren. In der entstehenden Visualisierung könnten thematisch ähnliche Artikel als räumlich nahe Cluster erscheinen – beispielsweise SEO-Ratgeber getrennt von Social-Media-Inhalten. Auf Basis dieser Darstellung ließe sich hypothetisch erkennen, ob bestimmte Themenbereiche inhaltlich unterrepräsentiert sind oder ob einzelne Artikel thematisch nicht klar zugeordnet werden können.
Verwandte Begriffe
- Embeddings
- Dimensionsreduktion
- PCA (Principal Component Analysis)
- UMAP (Uniform Manifold Approximation and Projection)
- Vektordatenbank
FAQ
Ist t-SNE für neue Datenpunkte geeignet, die nach dem Training hinzukommen?
Nein, t-SNE ist kein parametrisches Verfahren. Es berechnet die Projektion ausschließlich für den gegebenen Datensatz und kann neue Punkte nicht direkt in eine bestehende Darstellung einordnen. Für solche Anwendungsfälle eignen sich parametrische Alternativen wie UMAP besser.
Wie zuverlässig sind die Cluster, die t-SNE erzeugt?
t-SNE ist primär ein Visualisierungswerkzeug und kein Clustering-Algorithmus. Die entstehenden Cluster können je nach Parameterwahl – insbesondere der Perplexity – variieren. Abstände zwischen Clustern im t-SNE-Plot sind nicht direkt interpretierbar und sollten nicht als Maß für die tatsächliche Ähnlichkeit zwischen Gruppen verwendet werden.
Ab welcher Datenmenge stößt t-SNE an seine Grenzen?
t-SNE skaliert quadratisch mit der Anzahl der Datenpunkte, was bei sehr großen Datensätzen mit mehreren Hunderttausend Einträgen zu langen Rechenzeiten führen kann. In solchen Fällen wird häufig eine Vorverarbeitung mit PCA empfohlen, um die Dimensionalität zu reduzieren, bevor t-SNE angewendet wird. Alternativ bietet UMAP eine recheneffizientere Option mit ähnlichem Visualisierungsziel.