Was ist Crawl Budget?
Das Crawl Budget bezeichnet die Anzahl an URLs, die ein Suchmaschinen-Crawler – etwa Googlebot – innerhalb eines bestimmten Zeitraums auf einer Website besucht und indexiert. Es handelt sich dabei nicht um eine fest definierte Zahl, sondern um ein dynamisches Kontingent, das von der Suchmaschine auf Basis verschiedener Signale zugeteilt wird. Begriffe wie Crawling-Kapazität oder Crawl-Kontingent werden in diesem Zusammenhang synonym verwendet.
Wie funktioniert Crawl Budget?
Das Crawl Budget setzt sich im Wesentlichen aus zwei Faktoren zusammen:
- Crawl Rate Limit: Die maximale Geschwindigkeit, mit der der Crawler Seiten abruft, ohne den Server zu überlasten. Dieser Wert orientiert sich an der Serverperformance und kann über die Google Search Console beeinflusst werden.
- Crawl Demand: Das Interesse der Suchmaschine an einer URL, basierend auf Popularität, Aktualität und wahrgenommener Relevanz der Inhalte.
Der Crawler priorisiert Seiten, die er für wertvoll hält, und besucht weniger relevante oder duplizierte Seiten seltener. Wird das Budget durch minderwertige URLs verbraucht, könnten wichtige Seiten seltener oder gar nicht gecrawlt werden.
Unterschied zwischen Crawl Budget und Indexierungsbudget
Das Crawl Budget beschreibt, wie viele Seiten der Crawler besucht. Das Indexierungsbudget hingegen bezieht sich darauf, wie viele dieser gecrawlten Seiten tatsächlich in den Suchindex aufgenommen werden. Eine Seite kann gecrawlt, aber nicht indexiert werden – etwa wenn sie mit einem Noindex-Tag versehen ist oder als Duplicate Content erkannt wird. Beide Konzepte greifen ineinander, sind aber technisch unterschiedliche Prozesse.
Warum ist Crawl Budget für Unternehmen relevant?
Für kleine Websites mit wenigen Seiten ist das Crawl Budget in der Regel kein kritisches Thema. Relevant wird es vor allem bei großen Websites – beispielsweise E-Commerce-Plattformen mit tausenden Produktseiten, Nachrichtenportalen oder Websites mit dynamisch generierten URLs. In solchen Fällen könnte eine ineffiziente Nutzung des Crawl Budgets dazu führen, dass neue oder aktualisierte Inhalte nicht zeitnah gecrawlt werden.
Unternehmen könnten das Crawl Budget optimieren, indem sie Facettierungen und Filterkombinationen per robots.txt oder Canonical-Tags steuern, interne Verlinkungen auf wichtige Seiten konzentrieren und technische Fehlerseiten (z. B. 404-Fehler) reduzieren. Auch eine hohe Seitenladegeschwindigkeit wirkt sich positiv auf das Crawl Rate Limit aus.
Praxisbeispiel
Angenommen, koreanische-kosmetik-shop.de betreibt einen Shop mit mehreren tausend Produktseiten, die durch Filteroptionen wie Hauttyp, Marke und Wirkstoff kombinierbar sind. Dabei könnten hunderte von URL-Varianten entstehen, die inhaltlich nahezu identisch sind. In einem solchen Szenario würde ein erheblicher Teil des Crawl Budgets für diese duplizierten Filterkombinationen aufgewendet – auf Kosten neuer Produktseiten oder aktualisierter Kategorieinhalte. Durch den Einsatz von Canonical-Tags und einer gezielten robots.txt-Konfiguration könnte das Budget effizienter auf relevante Seiten gelenkt werden.
Verwandte Begriffe
- Crawling
- Indexierung
- robots.txt
- Canonical Tag
- Technisches SEO
FAQ
Gilt das Crawl Budget für alle Websites gleichermaßen?
Nein. Google selbst gibt an, dass das Crawl Budget für die meisten kleineren Websites keine praktische Relevanz hat. Erst ab einer gewissen Größe – typischerweise ab einigen tausend URLs oder bei häufig aktualisierten Inhalten – wird es zu einem relevanten technischen SEO-Faktor.
Kann das Crawl Budget aktiv gesteuert werden?
Teilweise. Über die Google Search Console lässt sich das Crawl Rate Limit anpassen. Darüber hinaus können technische Maßnahmen wie robots.txt-Direktiven, Noindex-Tags und eine saubere interne Verlinkung dazu beitragen, dass der Crawler sein Kontingent auf die relevantesten Seiten konzentriert. Die Crawl Demand ist hingegen stärker von externen Signalen wie Backlinks und Aktualität abhängig.
Wie erkenne ich, ob das Crawl Budget ein Problem auf meiner Website ist?
Hinweise liefern der Crawl-Bericht in der Google Search Console sowie Log-File-Analysen des Webservers. Wenn wichtige Seiten trotz korrekter Verlinkung lange nicht gecrawlt oder indexiert werden, könnte eine ineffiziente Nutzung des Crawl Budgets eine Ursache sein. Auch eine hohe Anzahl an 404-Fehlern oder duplizierten URLs im Crawl-Protokoll ist ein Warnsignal.