Inhaltsverzeichnis
Welcher SEO kennt ihn nicht? Rand Fishkin. Der etwas andere Paradies-Vogel von der berühmten amerikanischen SEO-Agentur MOZ. Ein SEO-Guru, der uns in seinen bekannten und sehr nett gemachten Whiteboard Friday Videos an seinem umfassenden SEO-Know-How teilhaben lässt.
So auch neulich wieder, bei dem es um die bestmögliche Steuerung des Crawl-Budgets der eigenen Website ging, um die Indexierung zu optimieren und somit auch langfristige Rankings zu verbessern. Stets ein kritisches Auge darauf zu werfen, wie effizient ein Suchmaschinen-Bot eine Website tatsächlich crawlt, gehört immernoch zu einer der unterschätzten Potenziale in der Suchmaschinenoptimierung.
Denn wie jedes andere Unternehmen auch, muss auch Google & Co. Als Suchmaschine auf seine Ressouren achten. Und da das Crawling ein sehr komplexe und zeitaufwendige Aufgabe ist, stellt das Crawling für die Suchmaschinen eine entscheidende Ressource dar. Deshalb werden nicht einfach alle Seiten von Crawlern besucht, die im Web zu finden sind, sondern jeder Seite abhängig von derer eingeschätzten Wichtigkeit ein bestimmtes Crawl-Budget zugewiesen (was sich jedoch auch im Laufe der Zeit ändern kann).
Robots.txt
Durch die Robots.txt im Root-Verzeichnis können über die Anweisung „Disallow“ ganze Unterverzeichnisse, Bereiche oder Dateiformate einer Website vom Crawling ausgeschlossen werden.
Aber Achtung: Google hält sich zwar an diese Anweisung, wenn sie korrekt in der Robots.txt steht.
Nicht gecrawlt heißt nicht zwangsläufig, dass es nicht doch in den Suchergebnissen erscheint.
Denn es kann jedoch trotzdem sein, dass die ein oder andere Seite bzw. Datei, welche durch die Robots.txt eigentlich ausgeschlossen werden sollte, trotzdem im Index landet.
Gründe hierfür sind:
- Viele eingehende Verlinkungen von externen Seiten auf diese Seite/Datei
- Viele Nutzer besuchen diese Seite/Datei
- Google denkt es weiß besser, was wirklich in den Index gehört
- Google macht dann doch mal einen technischen Fehler
Meta-Robots-Tags
Über spezielle Meta-Robots-Tags können für jede Seite individuell Informationen an die Suchmaschinen mitgeteilt werden, ob diese jeweilige Seite in den Index soll (index) oder nicht (noindex). Ebenso ob die Links auf dieser einen Seite von Crawlern verfolgt werden sollen (follow) oder nicht (nofollow).
Die Meta-Robots-Tags stellen im Vergleich zur globalen Robots.txt eine sicherere Variante dar, das Crawl-Budget zu steuern. Google vertraut dieser Angabe mehr als den Angaben in der Robots.txt.
Vor allem bei der kombinierten Verwendung von Robots.txt und dem Meta-Robots-tag „noindex/index“ ist besondere Vorsicht geboten. Denn eine eventuell nachträglich abgeänderte Angabe „index“ bekommt der Crawler gar nicht mit, wenn per Robots.txt diese Seite von Grund auf nicht besucht wird. Der gewünschte Effekt, dass diese Seite im Index landet, bleibt somit aus.
In diesem Fall wäre es sinnvoller, die Seite per Robots.txt auf „allow“ zu setzen, damit das „index“ vom Crawler gelesen werden kann.
x-Robots-Tags
Diese werden dazu genutzt um Nicht-HTML Dateien Informationen wie z.B: „index/noindex“ und „follow/nofollow“ mitzuteilen.
Canonical-Tags
Auch durch Canonical-Tags kann das Crawl-Budget gesteuert werden. Denn Canonical-Tags verhindern, dass Duplikat-Seiten ebenfalls regelmäßig gecrawlt werden. Bei x-fachem Duplicate Content einer Seite kann somit das Crawl-Budget mit einem Schlag auf ein x-tel reduziert werden.
Zum Abschluss sind noch folgende weitere Faktoren zu erwähnen, mit denen ebenfalls (mehr oder weniger) Einfluss auf das Crawling genommen werden kann:
- Status Codes (z.B. Status 404 für Fehlerseiten)
- Eingereichte Seiten in der XML-Sitemap
- Paginierung von Seiten (prev/next)
- Umgang mit Produktfiltern
- Ausschluss von Parametern über die Google Search Console
Zur Analyse, wie eine Suchmaschine die Website crawlt, stehen wichtige Helfer wie z.B. die Tools von Screamingfrog oder Onpage.org parat.
Im Folgenden das Video von Rand Fishkin über Crawl-Budgets in Englisch:
Controlling search engine crawlers for better indexation and rankings
Und hier geht’s zur Übersicht aller legendären Whiteboard Fridays von Rand Fishkin:
Alle Whiteboard Fridays von Rand Fishkin