Crawling-Fehler 404: Google findet vorhandene Seiten nicht. Warum?
Frage: Google findet von meinen 510 Seiten 484 nicht im Index und belegt diese mit dem Crawling-Fehler 404 obwohl ich alle Seiten korrekt aufrufen kann. Woran kann das liegen?
Antwort: Hier bietet die Diagnose der Google-Webmaster-Tools gute Hilfe: unter "Diagnose -> Abruf wie durch Googlebot" finden Sie eine Eingabebox, in der Sie ein Dokument unter Ihrer Domain vom GoogleBot abrufen lassen können und sehen, was für eine Fehlermeldung der GoogleBot bekommt: versuche ich so über diese Maske die Adresse www.example.com/foo/moo abzurufen, erhalte ich folgende Info:
URL: http://www.example.com/foo/moo
Datum: Mittwoch, 15. Juni 2011 00:28:50 GMT-07:00
Googlebot-Typ: Web
HTTP/1.1 404 Not Found
Date: Wed, 15 Jun 2011 07:28:50 GMT
Server: Apache/2.2.11 (Ubuntu) PHP/5.2.6-3ubuntu4.6 with Suhosin-Patch
Vary: Accept-Encoding
Content-Encoding: gzip
Content-Length: 278
Keep-Alive: timeout=3, max=100
Connection: Keep-Alive
Content-Type: text/html; charset=iso-8859-1
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
<html><head>
<title>404 Not Found</title>
</head><body>
<h1>Not Found</h1>
<p>The requested URL /foo/moo was not found on this server.</p>
<hr>
<address>Apache/2.2.11 (Ubuntu) PHP/5.2.6-3ubuntu4.6 with
Suhosin-Patch Server at www.example.com Port 80</address>
</body></html>
Der GoogleBot findet diese Seite also nicht, sie ist für ihn nicht existent.
Dies kann folgende Ursachen haben:
Ihr Shop/CMS schaut sich die Browserkennung (den sog. User-Agent-String) an, die eine Seite abruft und sendet dann eine angepasste Version. Hier muss sicher gestellt sein, dass auch für den GoogleBot eine korrekte Seite ausgeliefert wird.
Sind alle Menüpunkte auch ohne JavaSkript für Suchmaschinen lesbar? Mit dem Firefox können Sie das schnell prüfen: Extras -> Einstellungen -> Inhalt und dort bei "JavaScript aktivieren" das Häkchen entfernen. Danach die Seite erneut aufrufen. Ist die Seite noch nutzbar?
Sicherlich gibt es noch mehr Möglichkeiten, dies sind aber die häufigsten Fehlerquellen.
Wenn Google die Seiten nicht auf natürlichem Wege findet, indem der GoogleBot Ihre Seiten "crawlt", können Sie auch mit einer XML-Sitemap alle verfügbaren Seiten auflisten und diese Datei dann Google zur Verfügung stellen: Legen Sie eine sitemap.xml-Datei an und tragen Sie diese in die Google Webmaster Tools ein: Website-Konfiguration->XML-Sitemaps->XML-Sitemap einreichen. Ist diese in der robots.txt aufgeführt?

SEOPT gibt Anfängern grundlegende Tipps und Hinweise für nachhaltige Suchmaschinenoptimierung ihrer Projekte. Laden auch Sie sich kostenlos das SEO-Tutorial herunter.
Möchten Sie mehr über uns erfahren? Unsere aktuelle Imagebroschüre liegt für Sie bereit. Einfach hier downloaden.