Was ist Chunking?
Chunking bezeichnet im Kontext von KI und Large Language Models (LLMs) die Methode, größere Textmengen in kleinere, semantisch zusammenhängende Einheiten – sogenannte Chunks – aufzuteilen. Diese Segmentierung ist ein zentraler Schritt in Retrieval-Augmented-Generation-Systemen (RAG) sowie in der Vektorsuche, da LLMs und Einbettungsmodelle nur begrenzte Kontextfenster verarbeiten können. Synonyme oder verwandte Bezeichnungen sind Textsegmentierung, Text-Splitting oder Dokumentenaufteilung.
Wie funktioniert Chunking?
Beim Chunking wird ein Dokument oder eine längere Textquelle nach definierten Regeln in Abschnitte aufgeteilt. Diese Abschnitte werden anschließend in Vektoren umgewandelt und in einer Vektordatenbank gespeichert. Bei einer Nutzeranfrage sucht das System nach den relevantesten Chunks und übergibt sie als Kontext an das LLM.
Gängige Chunking-Strategien sind:
- Fixed-Size Chunking: Aufteilung nach einer festen Zeichenanzahl oder Token-Anzahl, unabhängig vom Inhalt.
- Sentence-based Chunking: Aufteilung entlang von Satzgrenzen, um semantische Einheiten zu erhalten.
- Paragraph-based Chunking: Aufteilung nach Absätzen oder Überschriften, orientiert an der Dokumentstruktur.
- Semantic Chunking: Aufteilung auf Basis inhaltlicher Ähnlichkeit, bei der thematisch zusammengehörige Passagen zusammengehalten werden.
Zusätzlich wird häufig ein Overlap eingesetzt: Benachbarte Chunks teilen sich einige Sätze oder Zeichen, damit kein Kontext an den Grenzen verloren geht.
Unterschied zwischen Fixed-Size Chunking und Semantic Chunking
Fixed-Size Chunking ist einfach zu implementieren und rechnerisch günstig, kann aber semantisch zusammenhängende Inhalte auseinanderreißen. Semantic Chunking analysiert den Inhalt und gruppiert thematisch verwandte Passagen, was zu relevanteren Suchergebnissen führen kann – allerdings auf Kosten höherer Rechenaufwände. Die Wahl der Strategie hängt vom Anwendungsfall, der Dokumentstruktur und den verfügbaren Ressourcen ab.
Warum ist Chunking für Unternehmen relevant?
Unternehmen, die KI-gestützte Systeme zur Wissensabfrage, Dokumentenanalyse oder zum Kundensupport einsetzen, sind direkt auf eine sinnvolle Chunking-Strategie angewiesen. Die Qualität der Chunks beeinflusst maßgeblich, wie präzise und kontextgerecht ein LLM auf Anfragen antwortet.
Mögliche Anwendungsfelder sind beispielsweise:
- Interne Wissensdatenbanken, bei denen Mitarbeitende Dokumente per natürlicher Sprache durchsuchen könnten
- Kundensupport-Chatbots, die auf Produkthandbücher oder FAQ-Datenbanken zugreifen
- Rechtliche oder regulatorische Dokumentenanalyse, bei der präzise Textpassagen entscheidend sind
- E-Commerce-Anwendungen, bei denen Produktbeschreibungen und Bewertungen strukturiert abgerufen werden könnten
Eine schlecht gewählte Chunk-Größe oder -Strategie könnte dazu führen, dass das LLM unvollständige oder irrelevante Informationen erhält und entsprechend fehlerhafte Antworten generiert.
Praxisbeispiel
Angenommen, koreanische-kosmetik-shop.de würde ein RAG-System aufbauen, das Kundinnen bei der Produktberatung unterstützt. Die Produktbeschreibungen, Inhaltsstofflisten und Pflegeanleitungen lägen als längere PDF-Dokumente vor. Durch paragraph-based Chunking könnten die Texte so segmentiert werden, dass jede Inhaltsstoffbeschreibung einen eigenen Chunk bildet. Bei der Anfrage „Welche Produkte enthalten Niacinamid?” würde das System gezielt die relevanten Chunks abrufen und dem LLM als Kontext übergeben – anstatt das gesamte Dokument zu verarbeiten. Ob ein solches System tatsächlich die gewünschte Präzision erreicht, hängt von der Qualität der Chunking-Strategie und der Einbettungsmodelle ab.
Verwandte Begriffe
- Retrieval-Augmented Generation (RAG)
- Vektordatenbank
- Embedding
- Kontextfenster
- Semantic Search
FAQ
Wie groß sollte ein Chunk idealerweise sein?
Eine allgemeingültige optimale Chunk-Größe existiert nicht. Sie hängt vom Einbettungsmodell, dem Kontextfenster des LLMs und der Art der Dokumente ab. Typische Werte liegen zwischen 256 und 1.024 Token, wobei ein Overlap von 10–20 % häufig empfohlen wird, um Kontextverluste an den Grenzen zu minimieren.
Welche Chunking-Strategie sollte ein Unternehmen wählen?
Die Wahl hängt vom Dokumenttyp und dem Anwendungsziel ab. Für strukturierte Texte mit klaren Abschnitten eignet sich paragraph-based Chunking gut. Für inhaltlich dichte oder unstrukturierte Dokumente könnte Semantic Chunking präzisere Ergebnisse liefern, erfordert jedoch mehr Rechenaufwand und Konfigurationsaufwand.
Beeinflusst Chunking die Qualität von KI-Antworten direkt?
Ja. Da das LLM nur die übergebenen Chunks als Kontext sieht, bestimmt die Qualität der Segmentierung, welche Informationen es zur Verfügung hat. Zu kleine Chunks können wichtigen Kontext abschneiden; zu große Chunks können irrelevante Informationen einschließen und das Modell ablenken. Chunking ist damit einer der wichtigsten Stellhebel in RAG-Architekturen.