Das Crawling einer Webseite oder eines Shops ist die Voraussetzung für die Indexierung und somit eine wichtige Optimierungsmaßnahme für die Suchmaschinenoptimierung. Es lässt sich durch verschiedene Maßnahmen prüfen und steuern.
Crawling Fehler ausfindig machen
Generell wird zwischen Website-Fehlern und URL-Fehlern unterschieden. Websitefehler betreffen die gesamte Webseite und URL Fehler beziehen sich auf eine spezielle URL.
Website-Fehler
Website-Fehler sind Probleme, die nicht eine bestimmte URL betreffen, sondern die ganze Website. Dazu gehören Fehler bei der DNS-Auflösung, Verbindungsprobleme mit dem Webserver und Schwierigkeiten beim Abrufen der „robots.txt“-Datei.
URL-Fehler
URL-Fehler sind Probleme mit einer bestimmten Seite. Das heißt, dass beim Versuch des Google Bots, die URL zu crawlen, das DNS aufgelöst, eine Verbindung mit dem Server hergestellt und die „robot.txt“-Datei abgerufen und gelesen wird. Anschließend wird die URL angefordert, doch in diesem Moment scheint etwas schiefzugehen.
Google gliedert die Fehler für nicht erreichbare URLs in folgende Kategorien:
- Fehler 5xx: Fehler mit einem 500er-Statuscode werden meist bei einer Überlastung des Servers oder einem internen Serverfehler ausgegeben.
- Problem mit DNS: es war keine Verbindung zum DNS-Server möglich. Mögliche Ursachen könnten ein inaktiver Server oder eine falsch aufgelöste Domain sein.
- Die Datei „robots.txt ist nicht erreichbar: bevor der Google Bot die Seite crawlt, sieht er sich die robots.txt-Datei an, um festzustellen welche Bereiche der Website für ihn tabu sind. In diesem Fall konnte er die robots.txt-Datei nicht aufrufen und versucht es später erneut. Hinweis: der Google Bot erkennt, ob die robots.txt-Datei nur nicht erreichbar ist oder ob diese gar nicht angelegt wurde.
- Netzwerk nicht erreichbar: ein Grund für einen Netzwerkfehler könnte beispielsweise eine Zeitüberschreitung aufgrund zu langsam reagierender Seiten sein oder ein den Web-Crawler blockierender Hosting-Server.
- Verbindung konnte nicht aufgebaut werden.
- Keine Antwort: Der Server hat keine Antwort erhalten.
- Abgeschnittene Antwort: die Verbindung wurde vom Server geschlossen, bevor die Antwort vollständig übertragen wurde.
Wie sollten 404-Fehler behandelt werden?
Insbesondere nach dem Umzug der kompletten Website auf eine neue Domain oder nach einem großen Relaunch kommt es häufig zu mehreren tausend 404-Fehlern. Am besten bleiben natürlich alle Inhalte bestehen und man leitet die alten URLs einfach 1:1 auf die neuen URLs um. Das ist aber nicht immer möglich, denn oft fallen durch einen Relaunch einzelne Seiten oder ganze Bereiche komplett weg. In diesem Fall sollten die alten URLs möglichst sinnvoll auf neue URLs mit sehr ähnlichem Content weitergeleitet werden. Ist das nicht möglich, weil es auf der neuen Seite keinen Content dieser Art mehr gibt, sollten die alten Seiten auf übergeordnete Seiten oder die Startseite weitergeleitet werden. Wobei es immer das Ziel sein sollte, den weitergeleiteten Besucher (und auch den Google Bot) auf relativ ähnlichen Content zu führen.